北大兔展团队开源中文法律大模型 ChatLaw

北大兔展团队开源中文法律大模型 ChatLaw

ChatLaw 系列模型

  • ChatLaw-13B,此版本为学术 demo 版,基于姜子牙 Ziya-LLaMA-13B-v1 训练而来,中文各项表现很好,但是逻辑复杂的法律问答效果不佳,需要用更大参数的模型来解决。

  • ChatLaw-33B,此版本为学术 demo 版,基于 Anima-33B 训练而来,逻辑推理能力大幅提升,但是因为 Anima 的中文语料过少,导致问答时常会出现英文数据。

  • ChatLaw-Text2Vec,使用 93w 条判决案例做成的数据集基于 BERT 训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配,例如:

    “请问如果借款没还怎么办。”

    “合同法(1999-03-15): 第二百零六条 借款人应当按照约定的期限返还借款。对 借款期限没有约定或者约定不明确,依照本法第六十一条的规定仍不能确定的,借款 人可以随时返还;贷款人可以催告借款人在合理期限内返还。”

    两段文本的相似度计算为 0.9960

简介

北大兔展团队开源中文法律大模型 ChatLawChatGPT 浪潮下,人工智能的不断扩展和发展为 LLM 的扩散提供了肥沃的土壤,目前医疗、教育、金融领域已逐渐有了各自的模型,但法律领域迟迟没有明显进展。

为了促进 LLM 在法律甚至其他垂直应用落地的开放研究,本项目开源了中文法律大模型,并针对 LLM 和知识库的结合问题给出了法律场景下合理的解决方案。

ChatLaw 法律大模型目前开源的仅供学术参考的版本底座为姜子牙-13B、Anima-33B,对话数据来源:法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本。

数据样例

question answer Subject
如果一个人故意驾车向人群冲撞,但没有造成重大损失,会被怎样处罚? 依据刑法条文第一百一十四条,如果一个人故意以危险方法危害公共安全,但尚未造成严重后果,将被处三年以上十年以下有期徒刑。因此,如果这个人故意驾车向人群冲撞,但没有造成重大损失,将被处以三年以上十年以下有期徒刑。 法律咨询
如果一个邮政工作人员私自开拆了一个邮件,但只是为了查看其中的收件人地址,而并未泄露邮件内容,是否构成什么罪行? 构成私自开拆、隐匿、毁弃邮件、电报罪。本罪客观方面有两个特点:一是必须有私自开拆、隐匿、毁弃邮件、电报的行为。所谓私自开拆,是指非法擅自开拆他人邮件、电报,使封缄失效的行为,合法行为不在此限;二是必须有利用职务之便的行为,才能构成本罪。即使只是查看收件人地址也违反了邮政工作人员的职责,属于利用职务之便的行为,因此构成本罪。 法律概念
如果某个工人每天工作 10 小时,那么每周工作时间超过了规定吗? 根据《劳动法》第三十六条,每日工作时间不得超过 8 小时,因此每周工 作时间将超过 44 小时,超过了规定。 法律咨询
甲公司注册资金为 120 万元,主营建材,乙厂为生产瓷砖的合伙企业。甲公司为稳定货源,决定投资 30 万元入伙乙厂。对此项投资的效力,下列表述哪一项是正确的?
A)须经甲公司股东会全体通过方为有效
B)须经甲公司董事会全体通过方为有效
C)须经乙厂全体合伙人同意方为有效
D)无效
按照最新《公司法》的规定,本题无答案。《公司法》第 15 条规定,公司可以向其他企业投资;但是,除法律另有规定外,不得成为对所投资企业的债务承担连带责任的出资人…… 法律选择题

实验结果

如何合理地评估垂直领域大模型的性能一直是一个问题,因为测试数据和真实场景存在差异,我们暂时没有完美的思路。我们只是收集了十余年的国家司法考试题目,整理出了一个包含 2000 个问题及其标准答案的测试数据集,用以衡量模型处理法律选择题的能力: 评测数据 demo。

https://github.com/PKU-YuanGroup/ChatLaw/tree/main/data/ELO_val

然而,我们发现各个模型的准确率普遍偏低。在这种情况下,仅对准确率进行比较并无多大意义。因此,我们借鉴英雄联盟的 ELO 匹配机制,做了一个模型对抗的 ELO 机制,以便更有效地评估各模型处理法律选择题的能力。以下分别是 ELO 分数和胜率图北大兔展团队开源中文法律大模型 ChatLaw有以下结论:(1)引入法律相关的问答和法规条文的数据,能在一定程度上提升模型在选择题上的表现;(2)加入特定类型任务的数据进行训练,模型在该类任务上的表现会明显提升。例如,ChatLaw 模型之所以能胜过 GPT-4,是因为我们使用了大量选择题作为训练数据;(3)法律选择题需要进行复杂的逻辑推理,因此,参数量更大的模型通常表现更优。

效果

北大兔展团队开源中文法律大模型 ChatLaw北大兔展团队开源中文法律大模型 ChatLaw北大兔展团队开源中文法律大模型 ChatLaw

传送门

开源协议:AGPL-3.0

开源地址:https://github.com/PKU-YuanGroup/ChatLaw

项目合集:https://github.com/OpenTechCol/OpenTechCol

-END-



原文始发于微信公众号(开源技术专栏):北大兔展团队开源中文法律大模型 ChatLaw

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/155226.html

(0)
小半的头像小半

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!