CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中...CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档。所以对于这个任务,首要问题是判定查询词是否是人名,是完整人名还是人名的一部分。为此该文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的人名,特别是查询词所涉及的人名的识别。在CLP2010的评测方给的训练集上的实验表明,查询词涉及的人名的识别正确率达到98.89%。展开更多
文摘CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档。所以对于这个任务,首要问题是判定查询词是否是人名,是完整人名还是人名的一部分。为此该文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的人名,特别是查询词所涉及的人名的识别。在CLP2010的评测方给的训练集上的实验表明,查询词涉及的人名的识别正确率达到98.89%。