实体识别是数据量质融合管理中的一项关键技术,对能否提高数据质量起着决定性作用.其目的在于识别出数据中表示同一对象的不同形式;以及同一形式所代表的不同对象.随着大数据研究技术的发展,大数据上的实体识别问题受到了广泛关注.因此...实体识别是数据量质融合管理中的一项关键技术,对能否提高数据质量起着决定性作用.其目的在于识别出数据中表示同一对象的不同形式;以及同一形式所代表的不同对象.随着大数据研究技术的发展,大数据上的实体识别问题受到了广泛关注.因此,在大数据的信息集成背景下,给出了一个基于Map-Reduce框架的大数据实体识别算法(entity identification in big data based on Map-Reduce,EIBM).该算法首先通过属性值计算记录间的相似程度,而后基于图聚类的方法进行实体识别从而输出得到最终结果.最后,在Hadoop平台上对真实数据集和人造数据集进行了多组实验,实验结果验证了算法的并行程度和对于处理大数据的有效性与高效性.展开更多
文摘实体识别是数据量质融合管理中的一项关键技术,对能否提高数据质量起着决定性作用.其目的在于识别出数据中表示同一对象的不同形式;以及同一形式所代表的不同对象.随着大数据研究技术的发展,大数据上的实体识别问题受到了广泛关注.因此,在大数据的信息集成背景下,给出了一个基于Map-Reduce框架的大数据实体识别算法(entity identification in big data based on Map-Reduce,EIBM).该算法首先通过属性值计算记录间的相似程度,而后基于图聚类的方法进行实体识别从而输出得到最终结果.最后,在Hadoop平台上对真实数据集和人造数据集进行了多组实验,实验结果验证了算法的并行程度和对于处理大数据的有效性与高效性.