摘要
ChatGPT的出现使得包括法律界在内的公众认识到大型语言模型(LLMs)的潜在用途(如文件起草、问题回答和摘要)。尽管该技术在以法律文本为重点的各种语义注释任务中表现良好,但随着更新、功能更强(GPT-4)或更具成本效益(GPT-3.5-turbo)的模型涌入,需要探讨其对法律文本进行语义标注能力的最新进展。在向成熟的生成式人工智能系统过渡的过程中,通过检验GPT-4和GPT-3.5-turbo(-16k)的性能,并将其与上一代GPT模型进行比较,结果显示GPT-4和GPT-3.5-turbo(-16k)在涉及判决意见、合同条款或法律条文的三项法律文本注释任务中表现出色。比较各类模型的性能和成本发现,GPT-4模型在三项任务中的两项上明显优于GPT-3.5模型,性价比高的GPT-3.5-turbo与价格高出20倍的text-davinci-003模型性能相当。虽然可以在单个提示中注释多个数据点,但其性能会随着批量的增加而降低。这项工作为许多实际应用(如合同审查)和研究项目(如实证法律研究)提供了有价值的信息。法律学者和执业律师都可以利用这些发现来指导他们将大型语言模型整合到涉及法律文本语义标注的各种工作流程中的决策。
出处
《法律方法》
2024年第2期247-276,共30页
Legal Method
基金
2018年度国家社科基金重大项目“新兴学科视野中的法律逻辑及其拓展研究”子课题“基于大数据的智能法律检索”(项目号18ZDA034)的阶段性研究成果