北京青年报

法律行业有了基座大模型

科技日报 2024-11-25 07:29

11月15日，最高人民法院正式发布“法信法律基座大模型”（以下简称“基座大模型”）。这是国内首个法律行业AI基座大模型，也是国家级法律人工智能基础设施。

该模型有哪些技术创新点和应用前景，有什么研发难点？包括研发团队成员在内的多位专家学者对相关问题进行了解答。

破解模型训练难题

“当前，大语言模型已成为推动人工智能技术进步的关键动力之一，并广泛影响着社会各个方面，包括法律行业。”人民法院出版社总编辑余茂玉说，未来法治建设将更加紧密地与人工智能等先进技术结合，法律行业将迎来智能化变革，同时也存在一定的安全和风险挑战。

为更好迎接挑战，人民法院出版社按照最高人民法院部署，启动研发建设自主可控的基座大模型。在清华大学千亿参数通用大模型基座上，研发团队投入3.2亿篇共计3.67万亿字的法律文献、裁判、案例、观点等数据语料，经过数月的预训练、优化训练、监督微调和多轮测评，最终建成基座大模型。

在研发过程中，团队曾遇到诸多技术难题。人民法院电子音像出版社副社长石鹏是研发团队的核心成员。他介绍，最大的难题是如何使大模型的通用训练技术方法与法律行业相匹配。比如，要充分考虑如何体现法律数据的专业性、结构性、时效性等特点，如何利用已有的法律知识体系和图谱来增强训练，如何进行法律专业性和内容安全性评测等。

为解决这些问题，研发团队采取了多种方法。石鹏介绍，团队组织法律专业人员构建高质量的训练数据和指令集，并进行体系化模型迭代。团队还引入了最高人民法院“法信”平台全流程法律资源标注机制，以及历时10余年搭建的、包含18万法律知识体系编码的“法信大纲”，借此增强模型的知识理解和应用能力，提高模型的专业性和准确性。

“基座大模型的技术创新点，主要体现在探索如何将我国司法审判业务需求与大模型技术相结合，让大模型‘先通后专，通专结合’，最终实现对法律业务的可靠支撑。”清华大学计算机科学与技术系副教授刘知远说。

重塑审判业务流程

谈及研发建设基座大模型的意义，余茂玉说，这是落实总体国家安全观的具体措施，是推动法律行业新质生产力发展的创新引擎，也是助推审判工作现代化的有效路径。具体来说，基座大模型一方面推动现代科技与司法审判工作深度融合，积极探索人工智能技术赋能法律行业的路径，推进科技赋能公正司法，提升应用实效；另一方面促进规范人工智能技术应用，保障技术和数据内容安全可控，守住安全底线。

清华大学科研院院长、互联网司法研究院院长刘奕群认为，基座大模型是数字法院建设的重要基础设施，具有赋能并重塑审判业务流程的巨大潜力。

“未来，基座大模型有望在极大提升法律工作者工作效率的同时，更好地实现工作的规范化以及统一法律适用。”刘知远说，“随着大模型智能体技术的发展，每位法律工作者都可以拥有专属的智能体助理，用于承担机械的重复性劳动以及简单的创造性工作。”

刘知远认为，在不久的将来，法律智能体还可能会呈现多角色分工与多智能体协同的趋势。“当事人、律师、法官、法律学者都能通过属于自身角色的智能体助手，构建出一个更高质量、更高效的群体智能工作协同网络。”他说。

文/代小佩

编辑/倪家宁