目前针对复杂语义和复杂句法的知识库问答(Knowledge Base Question Answering,KBQA)研究层出不穷,但它们多以已知问题的主题实体为前提,对问题中多意图和多实体重视不足,而问句中对核心实体的识别是理解自然语言的关键。针对此问题,提...目前针对复杂语义和复杂句法的知识库问答(Knowledge Base Question Answering,KBQA)研究层出不穷,但它们多以已知问题的主题实体为前提,对问题中多意图和多实体重视不足,而问句中对核心实体的识别是理解自然语言的关键。针对此问题,提出了一种引入核心实体关注度的KBQA模型。该模型基于注意力机制及注意力增强技术,对识别到的实体引用(Mention)进行重要性评估,得到实体引用关注度,去除潜在干扰项,捕获用户提问的核心实体,解决了多实体、多意图问句的语义理解问题。此外,还将评估的结果作为重要权重引入后续的问答推理中。在英文MetaQA数据集、多实体问句MetaQA数据集、多实体问句HotpotQA数据集上,与KVMem,GraftNet,PullNet等模型进行了对比实验。结果表明,针对多实体问句,所提模型在Hits@n、准确率、召回率等评估指标上均取得了更好的实验效果。展开更多
随着自媒体的蓬勃发展,任何人都可以在网上随意发布和转发信息,而这些信息可能是真实的,也可能是道听途说或被故意篡改的。互联网上数据的严重冗余和弱可信问题,导致现有数据的可用性很差。Bi-LSTM-CRF(Bi-Long Short Term Memory with ...随着自媒体的蓬勃发展,任何人都可以在网上随意发布和转发信息,而这些信息可能是真实的,也可能是道听途说或被故意篡改的。互联网上数据的严重冗余和弱可信问题,导致现有数据的可用性很差。Bi-LSTM-CRF(Bi-Long Short Term Memory with Conditional Random Field Layer)网络虽然能够解决数据中命名实体识别的准确率问题,但不能满足识别出的实体是可信的这一要求。文中提出一种基于编辑距离的多实体可信确认算法,并通过人物命名实体识别实例对该算法进行验证。首先通过分布式爬虫抓取同一个邮箱地址在多个搜索引擎上的Top N网页记录,然后使用经过双语语料训练后的Bi-LSTM-CRF模型抽取每个页面内的人物命名实体,最后通过实体多参数融合确定邮箱所对应的人物命名实体。实验结果表明,多实体可信确认算法能够将邮箱地址与邮箱真实主人的匹配准确率MRR(Mean Reciprocal Rank)提高到91.32%,相比只使用词频的算法其MRR提升了23.08%。实验数据充分说明,多实体可信确认算法能很好地从弱可信数据中获得强可信度的实体,降低海量数据中的低质特性,从而有效地增强实体数据源的可信度。展开更多
文摘目前针对复杂语义和复杂句法的知识库问答(Knowledge Base Question Answering,KBQA)研究层出不穷,但它们多以已知问题的主题实体为前提,对问题中多意图和多实体重视不足,而问句中对核心实体的识别是理解自然语言的关键。针对此问题,提出了一种引入核心实体关注度的KBQA模型。该模型基于注意力机制及注意力增强技术,对识别到的实体引用(Mention)进行重要性评估,得到实体引用关注度,去除潜在干扰项,捕获用户提问的核心实体,解决了多实体、多意图问句的语义理解问题。此外,还将评估的结果作为重要权重引入后续的问答推理中。在英文MetaQA数据集、多实体问句MetaQA数据集、多实体问句HotpotQA数据集上,与KVMem,GraftNet,PullNet等模型进行了对比实验。结果表明,针对多实体问句,所提模型在Hits@n、准确率、召回率等评估指标上均取得了更好的实验效果。
文摘随着自媒体的蓬勃发展,任何人都可以在网上随意发布和转发信息,而这些信息可能是真实的,也可能是道听途说或被故意篡改的。互联网上数据的严重冗余和弱可信问题,导致现有数据的可用性很差。Bi-LSTM-CRF(Bi-Long Short Term Memory with Conditional Random Field Layer)网络虽然能够解决数据中命名实体识别的准确率问题,但不能满足识别出的实体是可信的这一要求。文中提出一种基于编辑距离的多实体可信确认算法,并通过人物命名实体识别实例对该算法进行验证。首先通过分布式爬虫抓取同一个邮箱地址在多个搜索引擎上的Top N网页记录,然后使用经过双语语料训练后的Bi-LSTM-CRF模型抽取每个页面内的人物命名实体,最后通过实体多参数融合确定邮箱所对应的人物命名实体。实验结果表明,多实体可信确认算法能够将邮箱地址与邮箱真实主人的匹配准确率MRR(Mean Reciprocal Rank)提高到91.32%,相比只使用词频的算法其MRR提升了23.08%。实验数据充分说明,多实体可信确认算法能很好地从弱可信数据中获得强可信度的实体,降低海量数据中的低质特性,从而有效地增强实体数据源的可信度。