基于向量空间模型的中文文本相似度的研究被引量：12

Research on Chinese text similarity based on vector space model

下载PDF

导出

摘要在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借助盘古分词组件和搜狗实验室的互联网词库,在Visual Studio 2008环境下使用C#语言对算法进行了实现。使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。 In text clustering, the similarity between the Chinese text needs to be measured. Firstly, this paper discusses the concept of text similarity and common algorithm, vector space model and steps of the algorithm are introduced in detail, using a stoplist removal and merger of synonyms, modify file length 3 strategies to improve the algorithm. Finally With the help of Internet of Pangu word components and Sogou laboratory thesaurus, under the environment of Visual Studio 2008 using C#language algorithm is implemented. The algorithm was tested using the 500 academic papers on the CNKI obtained from 5different fields. The results show that new algorithm in the error rate is improved, but the running time is longer.

作者薛苏琴牛永洁

机构地区延安大学数学与计算机学院

出处《电子设计工程》 2016年第10期28-31,共4页 Electronic Design Engineering

基金陕西省自然科学基础研究计划项目(2013JM8042)

关键词文本相似度向量空间模型分词信息处理 C# text similarity vector space model word segmentation information processing C#

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：35
2彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953. 被引量：31
3张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22. 被引量：56
4朱青,李贞昊.基于主题词分布的低价值新闻识别技术研究[J].计算机应用与软件,2015,32(7):190-195. 被引量：2
5程志强,闵华松.一种基于向量词序的句子相似度算法研究[J].计算机仿真,2014,31(7):419-424. 被引量：15
6张艳杰,邵雄凯,刘建舟.一种基于语义与结构的句子相似度计算方法[J].湖北工业大学学报,2015,30(5):82-85. 被引量：5

二级参考文献77

1董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：56
2张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
3胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5
4王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13
5文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
6张亮,冯冲,陈肇雄,黄河燕.基于语句相似度计算的FAQ自动回复系统设计与实现[J].小型微型计算机系统,2006,27(4):720-723. 被引量：19
7秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
8马金山.基于统计方法的汉语依存句法分析研究[D].哈尔滨:哈尔滨工业大学计算机科学与技术学院,2007.
9彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
10周荫清，信息理论基础M，1993年

共引文献138

1晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
2周如旗.基于扩展Petri网的文本分类模型[J].电脑与信息技术,2005,13(4):7-9.
3李志辉,周竹荣.基于领域知网的中文智能答疑系统[J].四川理工学院学报（自然科学版）,2005,18(4):86-89. 被引量：2
4张以利,刘亚军.分布式智能答疑系统的知识库构建与维护研究[J].计算机技术与发展,2006,16(7):15-16. 被引量：1
5于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
6张以利.基于xml的分布式智能答疑系统知识库构建研究[J].内江科技,2007,28(1):120-121. 被引量：1
7梅翔,孟祥武,陈俊亮,徐萌.SSCM：一种语义相似度计算方法[J].高技术通讯,2007,17(5):458-463. 被引量：7
8夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
9梁正平,纪震,刘小丽.基于语义模板的问答系统研究[J].深圳大学学报（理工版）,2007,24(3):281-285. 被引量：6
10易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7

同被引文献99

1谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：8
2郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
3杨剑峰.浅谈电网企业精益化管理[J].云南电业,2010(9):38-39. 被引量：3
4张红鹰.中文文本关键词提取算法[J].计算机系统应用,2009,18(8):73-76. 被引量：7
5琚春华,郑丽丽.基于隐私保护的分类算法在反洗钱领域的研究[J].微电子学与计算机,2009,26(10):200-202. 被引量：1
6冯永,李华,钟将,叶春晓.基于自适应中文分词和近似SVM的文本分类算法[J].计算机科学,2010,37(1):251-254. 被引量：21
7王利,刘宗田,王燕华,廖涛.基于内容相似度的网页正文提取[J].计算机工程,2010,36(6):102-104. 被引量：20
8张保富,施化吉,马素琴.基于TFIDF文本特征加权方法的改进研究[J].计算机应用与软件,2011,28(2):17-20. 被引量：37
9姚飞,纪磊,张成昱,陈武.实时虚拟参考咨询服务新尝试——清华大学图书馆智能聊天机器人[J].现代图书情报技术,2011(4):77-81. 被引量：99
10李静月,李培峰,朱巧明.一种改进的TFIDF网页关键词提取方法[J].计算机应用与软件,2011,28(5):25-27. 被引量：30

引证文献12

1鲁晓波,王立中,闫凤.旋转移动图像颜色相似度特征提取方法仿真[J].计算机仿真,2017,34(2):304-308. 被引量：1
2张海腾,翟洁,冷春霞.电子作业相似性检测技术的研究与实现[J].电子设计工程,2017,25(19):43-45. 被引量：2
3李芳.高相似度英语词语自主选取系统设计[J].现代电子技术,2017,40(23):147-150. 被引量：2
4俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：26
5甘秋云.基于TF-IDF向量空间模型文本相似度算法的分析[J].池州学院学报,2018,32(3):41-43. 被引量：6
6吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
7崔晴洋,梁小峰,倪静,李帅,张生,仲梁维.基于卫星装配工艺的短文本聚类研究[J].软件工程,2020,23(4):7-11. 被引量：1
8牛永洁,姜宁.关键词提取算法TextRank影响因素的研究[J].电子设计工程,2020,28(12):1-5. 被引量：7
9庞渊源,田然,朱晓鸿,王鑫,陈鑫.基于多层感知器生成对抗网络的电网智能客服技术研究[J].电子设计工程,2021,29(4):190-193.
10辛冀,张乐.基于相似度的保障资源相似性识别计算方法研究[J].电子产品可靠性与环境试验,2021,39(6):31-34.

二级引证文献52

1李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
2王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：10
3朱敏.计算机辅助英语词汇查询系统设计[J].现代电子技术,2018,41(14):66-69. 被引量：2
4黄涛,戴淑敏,成二丽.一种地方志资源的混合推荐模型[J].国家图书馆学刊,2018,27(2):14-19. 被引量：5
5张恒,章成志,周清清.考虑图书推荐列表相似性的图书推荐研究[J].图书与情报,2018(3):128-134. 被引量：6
6方鼎鼎,郑荣锋,周安民.工业控制系统未知协议特征提取及异常流量检测[J].现代计算机,2019,25(4):14-20. 被引量：1
7范庆春.基于中文分词技术的文本相似度检测研究[J].池州学院学报,2019,33(3):19-20. 被引量：1
8王亚芳,刘东升,侯敏.基于图像相似度检测代码克隆[J].计算机应用,2019,39(7):2074-2080. 被引量：5
9马瑞敏,闫晓慧,申楠.学科交叉直接测度研究[J].情报学报,2019,38(7):688-696. 被引量：20
10李高鹏,艾山·吾买尔,郑炅,王路路.文本信息检索系统的设计与实现[J].现代电子技术,2019,42(16):62-66. 被引量：1

1庄新妍.计算机中文分词技术的应用[J].呼伦贝尔学院学报,2010,18(3):70-74. 被引量：4
2齐忠琪.智能化中文机械分词组件的设计[J].中国教育技术装备,2009(21):95-96.
3李敏,黄凯.一个多线程全文检索系统的构建[J].长江大学学报（自科版）（上旬）,2010,7(3):552-554. 被引量：4
4蒋翀,费洪晓,张啸.基于用户兴趣模型的Nutch个性化搜索引擎研究[J].计算机时代,2015(9):26-28. 被引量：1
5李春,黄小岭.基于全文搜索的中文自动答疑系统设计实现[J].电脑知识与技术,2010,6(7X):6074-6076. 被引量：1
6李敏.基于盘古分词的新闻行业垂直搜索引擎[J].丽水学院学报,2012,34(5):66-69. 被引量：2
7IK Analyzer 2012发布中文分词库[J].硅谷,2012(6):73-73.
8乐娟.基于Trie树的京剧术语语义词典[J].计算机工程,2011,37(S1):30-32. 被引量：3
9陈明东,黄成兵.学生心理健康实时视讯平台Lucene改进算法研究[J].绵阳师范学院学报,2012,31(8):76-79.
10陈国华,汤庸,彭泽武,李建国.基于学术社区的学术搜索引擎设计[J].计算机科学,2011,38(8):171-175. 被引量：13

电子设计工程

2016年第10期

浏览历史

内容加载中请稍等...

基于向量空间模型的中文文本相似度的研究被引量：12

参考文献6

二级参考文献77

共引文献138

同被引文献99

引证文献12

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于向量空间模型的中文文本相似度的研究 被引量：12

参考文献6

二级参考文献77

共引文献138

同被引文献99

引证文献12

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于向量空间模型的中文文本相似度的研究被引量：12