中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法...中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法存在忽视上下文语义信息、计算成本高和低召回率的问题,限制了CNER技术的发展。介绍了CNER的定义和发展历程。详细整理了CNER任务的典型数据集、训练工具、序列标注方式和模型评价指标。对基于数据驱动的方法进行了总结,将数据驱动的方法划分为基于深度学习、预训练语言模型和中文实体关系联合抽取等方法,并分析了数据驱动方法在不同领域的实际应用场景。对CNER任务的未来研究方向进行了展望,为新方法的提出提供一定参考。展开更多
现今Web中存在大量缺失、不一致及不精确的数据,而传统的搜索引擎只能根据关键词返回文档片段,无法直接获取目标实体。提出一种新的基于图匹配的实体抽取算法GMEE(Graph Matching Based Entity Extraction),首先将片段按词语分割,进行...现今Web中存在大量缺失、不一致及不精确的数据,而传统的搜索引擎只能根据关键词返回文档片段,无法直接获取目标实体。提出一种新的基于图匹配的实体抽取算法GMEE(Graph Matching Based Entity Extraction),首先将片段按词语分割,进行实体的初步筛选;然后根据各实体之间的结构和语义关系建立“加权语义实体关联图”;最后利用“最大公共子图匹配”策略抽取目标实体。实验结果表明,提出的算法在不需要大量参数训练及传递的情况下,能够对抽取的实体集进行有效的精简,既保证了召回率、准确率,又提高了抽取过程的可解释性。展开更多
文摘中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法存在忽视上下文语义信息、计算成本高和低召回率的问题,限制了CNER技术的发展。介绍了CNER的定义和发展历程。详细整理了CNER任务的典型数据集、训练工具、序列标注方式和模型评价指标。对基于数据驱动的方法进行了总结,将数据驱动的方法划分为基于深度学习、预训练语言模型和中文实体关系联合抽取等方法,并分析了数据驱动方法在不同领域的实际应用场景。对CNER任务的未来研究方向进行了展望,为新方法的提出提供一定参考。
文摘现今Web中存在大量缺失、不一致及不精确的数据,而传统的搜索引擎只能根据关键词返回文档片段,无法直接获取目标实体。提出一种新的基于图匹配的实体抽取算法GMEE(Graph Matching Based Entity Extraction),首先将片段按词语分割,进行实体的初步筛选;然后根据各实体之间的结构和语义关系建立“加权语义实体关联图”;最后利用“最大公共子图匹配”策略抽取目标实体。实验结果表明,提出的算法在不需要大量参数训练及传递的情况下,能够对抽取的实体集进行有效的精简,既保证了召回率、准确率,又提高了抽取过程的可解释性。