-
题名基于分词矩阵模型的模糊匹配查重算法研究
被引量:4
- 1
-
-
作者
李成龙
杨冬菊
韩燕波
-
机构
大规模流数据集成与分析技术北京市重点实验室
北方工业大学云计算研究中心
-
出处
《计算机科学》
CSCD
北大核心
2017年第B11期55-60,83,共7页
-
基金
国家自然科学基金面上项目(61672042)
支持流式大数据实时联动的数据服务模型及方法研究资助
-
文摘
针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。
-
关键词
相似度
分词矩阵模型
模糊匹配
查重算法
-
Keywords
Similarity, Matrix model of word segmentation, Fuzzy matching,Duplicate checking algorithm
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-