ChatLaw 系列模型

ChatLaw-13B，此版本为学术 demo 版，基于姜子牙 Ziya-LLaMA-13B-v1 训练而来，中文各项表现很好，但是逻辑复杂的法律问答效果不佳，需要用更大参数的模型来解决。
ChatLaw-33B，此版本为学术 demo 版，基于 Anima-33B 训练而来，逻辑推理能力大幅提升，但是因为 Anima 的中文语料过少，导致问答时常会出现英文数据。
ChatLaw-Text2Vec，使用 93w 条判决案例做成的数据集基于 BERT 训练了一个相似度匹配模型，可将用户提问信息和对应的法条相匹配，例如：

“请问如果借款没还怎么办。”

“合同法(1999-03-15): 第二百零六条借款人应当按照约定的期限返还借款。对借款期限没有约定或者约定不明确，依照本法第六十一条的规定仍不能确定的，借款人可以随时返还；贷款人可以催告借款人在合理期限内返还。”

两段文本的相似度计算为 0.9960

简介

ChatGPT 浪潮下，人工智能的不断扩展和发展为 LLM 的扩散提供了肥沃的土壤，目前医疗、教育、金融领域已逐渐有了各自的模型，但法律领域迟迟没有明显进展。

为了促进 LLM 在法律甚至其他垂直应用落地的开放研究，本项目开源了中文法律大模型，并针对 LLM 和知识库的结合问题给出了法律场景下合理的解决方案。

ChatLaw 法律大模型目前开源的仅供学术参考的版本底座为姜子牙-13B、Anima-33B，对话数据来源：法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本。

数据样例

question	answer	Subject
如果一个人故意驾车向人群冲撞，但没有造成重大损失，会被怎样处罚？	依据刑法条文第一百一十四条，如果一个人故意以危险方法危害公共安全，但尚未造成严重后果，将被处三年以上十年以下有期徒刑。因此，如果这个人故意驾车向人群冲撞，但没有造成重大损失，将被处以三年以上十年以下有期徒刑。	法律咨询
如果一个邮政工作人员私自开拆了一个邮件，但只是为了查看其中的收件人地址，而并未泄露邮件内容，是否构成什么罪行？	构成私自开拆、隐匿、毁弃邮件、电报罪。本罪客观方面有两个特点：一是必须有私自开拆、隐匿、毁弃邮件、电报的行为。所谓私自开拆，是指非法擅自开拆他人邮件、电报，使封缄失效的行为，合法行为不在此限；二是必须有利用职务之便的行为，才能构成本罪。即使只是查看收件人地址也违反了邮政工作人员的职责，属于利用职务之便的行为，因此构成本罪。	法律概念
如果某个工人每天工作 10 小时，那么每周工作时间超过了规定吗？	根据《劳动法》第三十六条，每日工作时间不得超过 8 小时，因此每周工作时间将超过 44 小时，超过了规定。	法律咨询
甲公司注册资金为 120 万元，主营建材，乙厂为生产瓷砖的合伙企业。甲公司为稳定货源，决定投资 30 万元入伙乙厂。对此项投资的效力，下列表述哪一项是正确的？ A）须经甲公司股东会全体通过方为有效 B）须经甲公司董事会全体通过方为有效 C）须经乙厂全体合伙人同意方为有效 D）无效	按照最新《公司法》的规定，本题无答案。《公司法》第 15 条规定，公司可以向其他企业投资；但是，除法律另有规定外，不得成为对所投资企业的债务承担连带责任的出资人……	法律选择题

实验结果

如何合理地评估垂直领域大模型的性能一直是一个问题，因为测试数据和真实场景存在差异，我们暂时没有完美的思路。我们只是收集了十余年的国家司法考试题目，整理出了一个包含 2000 个问题及其标准答案的测试数据集，用以衡量模型处理法律选择题的能力: 评测数据 demo。

https://github.com/PKU-YuanGroup/ChatLaw/tree/main/data/ELO_val

然而，我们发现各个模型的准确率普遍偏低。在这种情况下，仅对准确率进行比较并无多大意义。因此，我们借鉴英雄联盟的 ELO 匹配机制，做了一个模型对抗的 ELO 机制，以便更有效地评估各模型处理法律选择题的能力。以下分别是 ELO 分数和胜率图有以下结论：（1）引入法律相关的问答和法规条文的数据，能在一定程度上提升模型在选择题上的表现；（2）加入特定类型任务的数据进行训练，模型在该类任务上的表现会明显提升。例如，ChatLaw 模型之所以能胜过 GPT-4，是因为我们使用了大量选择题作为训练数据；（3）法律选择题需要进行复杂的逻辑推理，因此，参数量更大的模型通常表现更优。