-
题名基于语义指纹和LCS的文本去重方法
被引量:4
- 1
-
-
作者
陈露
吴国仕
李晶
-
机构
北京邮电大学软件学院
-
出处
《软件》
2014年第11期25-30,共6页
-
文摘
为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘要,然后使用tf-idf算法分别得出文本内容特征向量和摘要特征向量,分别将这两个向量作为simhash算法的输入,计算得到文章的内容指纹和摘要指纹。计算两个文本对应的两个指纹的汉明距离,代入本文公式,最终得到这两文本的指纹距离;使用指纹对文本对进行初步筛选,对判定为相似的两个文本使用LCS算法进行进一步对比,避免误判,最终实现中文文本快速去重。实验过程中,通过与LCS算法、simhash算法等多种算法的结果进行对比,可以体现该方法在算法精确度方面的优势,同时,该方法的运行速度优势也能较好地支持大数据量文本的去重操作。
-
关键词
理论计算机科学
语义指纹
simhash
LCS
文本去重
-
Keywords
Theoretical computer science
semantic fingerprint
simhash
LCS
duplicate detection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语义指纹的中文文本快速去重
被引量:5
- 2
-
-
作者
李纲
毛进
陈璟浩
-
机构
武汉大学信息资源研究中心
-
出处
《现代图书情报技术》
CSSCI
北大核心
2013年第9期41-47,共7页
-
基金
国家自然科学基金项目"科研团队动态演化规律研究"(项目编号:71273196)的研究成果之一
-
文摘
针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single-Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文文本的快速去重流程。实验过程中,通过与Shingle算法对比,可以体现该方法在算法精确度、鲁棒性等方面的优势,同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作。
-
关键词
语义指纹
simhash
Single—pass
文本去重
-
Keywords
semantic fingerprint simhash single- pass duplicate detection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-