期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于编辑距离的多实体可信确认算法 被引量:2
1
作者 孙国梓 吕建伟 李华康 《计算机科学》 CSCD 北大核心 2020年第12期327-331,共5页
随着自媒体的蓬勃发展,任何人都可以在网上随意发布和转发信息,而这些信息可能是真实的,也可能是道听途说或被故意篡改的。互联网上数据的严重冗余和弱可信问题,导致现有数据的可用性很差。Bi-LSTM-CRF(Bi-Long Short Term Memory with ... 随着自媒体的蓬勃发展,任何人都可以在网上随意发布和转发信息,而这些信息可能是真实的,也可能是道听途说或被故意篡改的。互联网上数据的严重冗余和弱可信问题,导致现有数据的可用性很差。Bi-LSTM-CRF(Bi-Long Short Term Memory with Conditional Random Field Layer)网络虽然能够解决数据中命名实体识别的准确率问题,但不能满足识别出的实体是可信的这一要求。文中提出一种基于编辑距离的多实体可信确认算法,并通过人物命名实体识别实例对该算法进行验证。首先通过分布式爬虫抓取同一个邮箱地址在多个搜索引擎上的Top N网页记录,然后使用经过双语语料训练后的Bi-LSTM-CRF模型抽取每个页面内的人物命名实体,最后通过实体多参数融合确定邮箱所对应的人物命名实体。实验结果表明,多实体可信确认算法能够将邮箱地址与邮箱真实主人的匹配准确率MRR(Mean Reciprocal Rank)提高到91.32%,相比只使用词频的算法其MRR提升了23.08%。实验数据充分说明,多实体可信确认算法能很好地从弱可信数据中获得强可信度的实体,降低海量数据中的低质特性,从而有效地增强实体数据源的可信度。 展开更多
关键词 弱可信数据 双向长短时记忆循环-条件随机场网络 多实体可信确认算法 编辑距离
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部