摘要
对于海量司法判决文书而言,使用人工力量从大量文本中准确找到相关的法学知识和案件信息费时费力。因此,有必要从现有的半结构化或非结构化法律文本中提取人们通常关心的信息,并将其存储在数据库中并形成域知识图谱,从而方便用户搜索并快速获得所需信息。同时,鉴于相对固定的格式结构和严格的法律文本规范和抽取工作的成本性要求较为严格,论文采用基于字典和特定规则的策略,并在随机条件场的支持下进行补充,以实现更高的法律知识和案件事实抽取的准确性和有效性。首先,定义了法人实体类型和命名实体,针对该领域的实际需求,定义了11种类型的命名实体。然后,根据针对不同类型的文档和案例得出的判断结构和框架来提取案例知识。最后,使用基于规则的方法提取案件的基本信息,并使用依存语法分析方法从"已查明事实"部分中提取事实三元组。