基于罚分因子的论文相似度检测研究

The Paper Similarity Detection Method Based on the Penalty Factor

下载PDF

导出

摘要提出一种特殊标记符和词根沙普利值二步骤分词模型,提高分词的准确率,通过搜索引擎指数来识别新词。在相似度比较方面,提出了带行列顺序罚分因子距离矩阵模型,该模型综合了向量检测、汉明距离和最长公共子串的特点,重新定义了距离矩阵。与传统的论文相似性检索相比,具有分词准确,计算量小等优点。 A two-step segmentation model of special identifier and root Sharpley value was proposed in this paper,which can improve the segmentation accuracy and recognize new words through the search engine exponent.For comparing the similarity,a distance matrix model with row-column order penalty factor was proposed.This model integrates the characteristics of vector detection,hamming distance and the longest common substring,redefining distance matrix.Compared with the traditional paper similarity retrieval,the present method has advantages in the accuracy of word segmentation,low computation,reliability and high efficiency.

作者韩雅清李军钮焱

机构地区湖北工业大学计算机学院

出处《湖北工业大学学报》 2015年第1期36-38,55,共4页 Journal of Hubei University of Technology

基金湖北省教育厅科学研究计划资助项目(D20141403)

关键词中文分词相似度比较距离矩阵 Chinese segmentation similarity comparison Ddistance matrix

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22. 被引量：58
2李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60

二级参考文献53

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
6黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
7孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
8马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
9吴立德.大规模文本处理[M].上海:复里大学出版社,1997..
10黄昌宁高剑峰李沐.对自动分词的反思[C]..全国第七届语言学联合学术会议[C].,2003.26-38.

共引文献219

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
3范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
4于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1
5崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
6晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
7冯蜀茗,张小真,奚晓霞.支持CSCL中相关度监控的领域词典构建研究[J].西南师范大学学报（自然科学版）,2005,30(3):430-434. 被引量：1
8解析慧聪资讯有限公司的经营策略[J].人才资源开发,2005(8):39-40.
9周如旗.基于扩展Petri网的文本分类模型[J].电脑与信息技术,2005,13(4):7-9.
10于源,衣袭.中文全切分快速分词方法[J].大连铁道学院学报,2005,26(2):84-85. 被引量：4

1张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
2张海营.网络信息检索中堆栈——最大匹配自动分词算法研究[J].计算机光盘软件与应用,2011(8):27-27.
3陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
4叶成绪,杨萍,刘少鹏.基于主题词的微博热点话题发现[J].计算机应用与软件,2016,33(2):46-50. 被引量：11
5刘维,陈崚.最长公共子序列的快速算法及其并行实现[J].计算机应用,2006,26(6):1422-1424. 被引量：6
6苏惠明.自动分词模型中的歧义字段消除探讨[J].价值工程,2012,31(9):137-137.
7赵福生.求最长公共子串的两类解法比较[J].现代计算机,2011,17(20):30-31.
8王世昌.字符串匹配的自动机方法[J].计算机应用,1996,16(4):26-28. 被引量：1
9冯凯,王小华,谌志群.基于动态规划的汉语句子相似度算法[J].计算机工程,2013,39(2):220-224. 被引量：8
10梁南元,郑延斌.书面汉语自动分词方法和分词模型[J].微型计算机,1991,11(3):18-23. 被引量：1

湖北工业大学学报

2015年第1期

浏览历史

内容加载中请稍等...

基于罚分因子的论文相似度检测研究

参考文献3

二级参考文献53

共引文献219

相关作者

相关机构

相关主题

浏览历史