基于属性的文本相似度计算算法改进被引量：6

Improvement of Text Similarity Computing Algorithm Based on Attribute

下载PDF

导出

摘要基于属性的重心剖分模型是一种较为新颖的文档相似度计算模型,但容易导致语义信息丢失和效率低下。针对上述问题,提出一种改进的重心剖分模型,通过计算查询线与文档单纯形的交点与文档重心点之间的相似度,使得结果保留属性坐标系中文档向量的特征。实验结果表明,该模型的查全率、查准率和F1值可以提高2%～4%左右。 Documents similarity computing with attribute barycenter coordinate model is a relatively new method, but the semantic information easily loss and is inefficient. For resolving these problems, an improved algorithm based on the attribute barycenter coordinate is presented. The method is inspired from the satisfying degree function in decision-making assessment theory. Matching the points between the intersection of query line and document complex and document barycenter using the new algorithm can keep the character of document vector within the result and improve the precision as well as efficiency. Experimental results show that the recall, precision and value of F1 of the model can increase 2%,-4%.

作者袁正午李玉森张雪英

机构地区重庆邮电大学中韩合作GIS研究所南京师范大学虚拟地理环境教育部重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2009年第17期4-6,共3页 Computer Engineering

基金国家"863"计划基金资助项目(2007AA12Z221) 重庆市自然科学基金资助项目(CSTS2007BB2446) 南京师范大学科研基金资助重点项目(2006105XGQ0051)

关键词相似度计算属性坐标系属性重心点 similarity computing attribute coordinate attribute barycenter point

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63
2李广原,冯嘉礼.基于属性坐标的文本信息检索模型[J].广西科学院学报,2005,21(4):225-227. 被引量：1
3搜狗实验室文本分类语料库[Z].(2008-10-20).http://www.sogou.com/labs/dl/c.html.

二级参考文献8

1史忠植，高级人工智能，1997年
2Wong S K M，Proc 8th Annual ACMSIGIR Int Conf Research and Development in Information Retrieval，1985年，18页
3冯嘉礼,董占球.基于属性整合的知觉模式生成与识别模型[J].计算机研究与发展,1997,34(7):481-486. 被引量：30
4Baeza Yates R,Ribirero Neto B.Moden Information Retrieval[M].Addison Wesley:Longman Publishing,1999.
5Feng J L.The research on decision supports system of nuclear accident emergency and its computer realization[D].Beijing:Chinese Atomic Energy Institute,2001,97-118.
6Gerard Salton,Chris Buckley.Improving retrieval performance by relevance feedback[J].J of the American Society for Information Science,1990,41(4):288-297.
7Salton G,Buckley C.Term-weighting approaches in automatic retrieval.Infor-mation[J].Processing and Management,1988,24(5):513-523.
8潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63

共引文献62

1彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
2晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：27
3王浩鸣,张曰贤,吴志军,史西兵.基于智能Agent的中文元搜索引擎模型研究[J].计算机工程与应用,2005,41(31):154-156. 被引量：6
4周如旗.个性化远程学习的形式化建模方法研究[J].广东教育学院学报,2005,25(5):99-102.
5李广原,冯嘉礼.基于属性坐标的文本信息检索模型[J].广西科学院学报,2005,21(4):225-227. 被引量：1
6许维.企业EPR实施分析与企业流程重组[J].合作经济与科技,2006(08S):30-31. 被引量：1
7于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
8程玉柱,邬书跃.基于部件的文本相似度计算[J].计算机工程与设计,2006,27(18):3444-3446. 被引量：4
9黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463. 被引量：67
10易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7

同被引文献45

1彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
2董振东,董强.面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001(3):27-32. 被引量：36
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
4谈文蓉,杨宪泽,谈进,刘莉.MIS智能接口中汉语分词系统的设计与应用[J].计算机科学,2006,33(7):204-206. 被引量：5
5于顺治,王春露,薛一波,汪东升.一个基于Web的入侵检测系统设计与实现[J].计算机工程与设计,2006,27(21):4060-4063. 被引量：5
6李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计,2007,28(1):227-229. 被引量：39
7黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463. 被引量：67
8蒋占四,陈立平,罗年猛.最近邻实例检索相似度分析[J].计算机集成制造系统,2007,13(6):1165-1168. 被引量：65
9Manber U.Finding similar files in a large file system[A]//Proceedings of the Winter USENIX Technical Conference.San Francisco:USENIX Association Press,1994:1-10.
10Brin S,Davis J,Garcia-Molina H.Copy detection mechanisms for digital documents[A]//Proceedings of the ACM SIGMOD International Conference on Management of Data.San Jose:ACM Press,1995:398-409.

引证文献6

1谈文蓉,冯山,刘莉.语义分析在汉语相似性文献检测中的应用研究[J].四川师范大学学报（自然科学版）,2010,33(4):554-558. 被引量：1
2任晓博,何聚厚.基于Webdecoy的攻击行为特征提取研究[J].计算机工程与设计,2010,31(21):4539-4542. 被引量：1
3王利鑫,耿焕同,孙凯,张茜.基于自然语言处理的文本泄密自动检测技术[J].计算机工程与设计,2011,32(8):2600-2603. 被引量：2
4王枫红,陈炽坤,王永根.以客户需求为驱动的婴儿推车快速设计平台的开发与实现[J].机床与液压,2012,40(15):79-83.
5丁智斌,霍豫宗,杜念.文本相似性在抄袭问题中的应用研究[J].华北科技学院学报,2013,10(1):91-95. 被引量：2
6逯万辉.基于深度学习的学术期刊选题同质化测度方法研究[J].情报资料工作,2017,38(5):105-112. 被引量：16

二级引证文献22

1谈文蓉,刘莉.基于汉语相似性文献检测的特征提取算法研究[J].西南民族大学学报（自然科学版）,2011,37(3):464-468.
2王柠,刘国华,石丹妮.基于指纹和推导模型的泄密信息检测方案[J].燕山大学学报,2012,36(6):511-518.
3李成龙,冯凯,麻哲.基于动态规划的文本查重算法实现[J].数字技术与应用,2013,31(8):115-115.
4王春东,邱晓华.基于特征策略的XSS漏洞检测技术研究[J].天津理工大学学报,2013,29(5):25-29. 被引量：1
5王晰巍,贾若男,王铎,郭宇.图书情报领域人工智能的研究热点及发展趋势研究[J].图书情报工作,2019,63(1):70-80. 被引量：38
6葛玮,吴佳.基于计算机智能识别技术的自然语言处理模型设计[J].无线互联科技,2014,11(9):40-40. 被引量：1
7逯万辉,谭宗颖.学术成果主题新颖性测度方法研究——基于Doc2Vec和HMM算法[J].数据分析与知识发现,2018,2(3):22-29. 被引量：40
8张彤.我国图书馆学硕士论文研究方法使用的调查与分析——以七所“双一流”建设大学为例[J].图书馆论坛,2019,39(3):20-28. 被引量：4
9刘桂琴.政府数据开放平台用户评论情感差异分析[J].数字图书馆论坛,2019(2):18-23. 被引量：13
10晋晓琳,张树武,刘杰.基于分布式架构的海量文本快速相似度检测研究[J].中国传媒大学学报（自然科学版）,2019,26(1):39-44.

1李广原,冯嘉礼.基于属性坐标的文本信息检索模型[J].广西科学院学报,2005,21(4):225-227. 被引量：1
2王斌,冯嘉礼.基于属性坐标系框架下的Freebase语义库研究[J].微型机与应用,2013,32(21):59-61.
3潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63
4冯嘉礼,唐雁.多对象间复杂关系的属性坐标表示[J].高技术通讯,1995,5(A01):81-83.
5潘英,冯嘉礼.基于属性运算的本体概念间语义关系网络研究[J].现代计算机,2013,19(2):3-7.
6谢晓兰,刘建华,陆绮荣.高考招生系统中的决策算法[J].桂林工学院学报,2001,21(4):402-406. 被引量：1
7高良友,黄梦醒.一种利用属性重心剖分模型的时间调整协作过滤推荐算法[J].小型微型计算机系统,2016,37(8):1697-1701.
8吴钦藩,冯嘉礼,董占球,张永兴.基于属性坐标分析和学习的评估决策模型[J].广西师范大学学报（自然科学版）,2003,21(1):12-17.
9陈黎黎,国红军,冯嘉礼.改进的属性坐标评估决策模型[J].新乡学院学报,2013,30(5):352-354.
10宣士斌,冯嘉礼.属性神经网络模型[J].计算机研究与发展,2002,39(11):1442-1446. 被引量：6

计算机工程

2009年第17期

浏览历史

内容加载中请稍等...

基于属性的文本相似度计算算法改进被引量：6

参考文献3

二级参考文献8

共引文献62

同被引文献45

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于属性的文本相似度计算算法改进 被引量：6

参考文献3

二级参考文献8

共引文献62

同被引文献45

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于属性的文本相似度计算算法改进被引量：6