基于上下文多元信息的文档相似度计算研究被引量：2

Research on document similarity computing based on multi-grmns of context

下载PDF

导出

摘要提出一种基于上下文多元信息实现文档相似度计算的方法，该方法首先抽取文档的特征词，对具有相同（或相近）意义特征词的文档，分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息，以量化形式描述成一个相似函数；然后分别从两两文档的相似函数中得到文档的相似度评价值，作为衡量文档相似程度的重要依据．利用该评价方法，使用NTCIR-3中的跨语言信息检索数据集中的中文文档，对初始检索文档的顺序重新排列，实验结果表明，该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15．45％-18．49％和11．96％～15．35％；在另一组有关相同网页信息的实验中，几组不同类别文档相似度F1-measure平均值均在95％以上． A novel solution of computing document similarity based on multi-grams of context is presented in this paper. In this study, the same feature information firstly is acquired from document pairs; and then, the usage of co-occurrence feature information is gotten in the context of speech, semantic, location, weighted average co-occurrence probability, and is expressed as the similarity function; finally, document similarity evaluation value is calculated for each document, The similarity evaluation value plays an important role in judging the document similarity degree. The Chinese document set from the NTCIR-3 workshop collection is used to evaluate the method, it shows that an average 15,45%-18.49% and 11.96%-15.35% increase in precision can be achieved at top 10 and 100 ranking documents level respectively. In another group experiment about the same Web information, average FTmeasure of textual similarity is above 95 %.

作者于凤郑德权赵铁军李生

机构地区哈尔滨商业大学计算机与信息工程学院哈尔滨工业大学教育部-微软语言语音重点实验室

出处《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2006年第B07期397-402,共6页 Journal of Harbin Engineering University

基金国家自然科学基金资助项目（60302021）：黑龙江省自然科学基金资助项目（F2004-04）.

关键词相似度计算上下文多元信息相似函数知识获取 similarity computing context multi-grams similarity function knowledge acquisition

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1SALTON G,BUCKLEY C.Term weighting approaches in automatic text retrieval[J].Information Processing and Management,1988,24(5):513-523.
2BESANCON R,RAJMAN M,CHAPPELIER J C.Textual similarities based on a distributional approach[A].The Tenth International Workshop on Database and Expert Systems Applications[C].Florence,Italy,1999:180-184.
3COOPER J W,CODEN A R,BROWN E W.A novel method for detecting similar documents[A].Proceedings of the 35th Annual Hawaii International Conference on System Sciences[C].Hawaii,2002:1153-1159.
4VLADIMIR O,ASLE P.Ontology based semantic similarity comparison of documents[A].14th International Workshop on Database and Expert Systems Applications[C].Prague,Czech Republic,2003:735～738.
5潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63
6张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22. 被引量：55
7CARBONELL J,GOLDSTEIN J.The use of MMR,diversity-based reranking for reordering documents and producing summaries[A].Proceedings of 21st ACM-SIGIR'98[C].Melbourne,Australia,1998:675-685.
8CHRIS H,DING Q.A similarity-based probability model for latent semantic indexing[A].Proceedings of 22nd ACM-SIGIR'99[C].Berkeley,America,1999:59-65.
9穗志方俞士汶.基于骨架依存树的语句相似度计算模型[A]..中文信息处理国际会议论文集(ICCIP''98)[C].北京:清华大学出版社,1998.458-465.
10李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):15-17. 被引量：126

二级参考文献9

1刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
2郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
3车万翔等.面向依存文法分析的搭配抽取方法研究[A]..全国第六届计算语言学联合学术会议[C].,2001..
4穗志方俞士汶.基于骨架依存树的语句相似度计算模型[A]..中文信息处理国际会议(ICCIP''98)[C].,1998..
5史忠植，高级人工智能，1997年
6Wong S K M，Proc 8th Annual ACMSIGIR Int Conf Research and Development in Information Retrieval，1985年，18页
7周荫清，信息理论基础M，1993年
8冯嘉礼,董占球.基于属性整合的知觉模式生成与识别模型[J].计算机研究与发展,1997,34(7):481-486. 被引量：30
9潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63

共引文献229

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
3余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
4彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
5晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
6秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
7许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
8周如旗.基于扩展Petri网的文本分类模型[J].电脑与信息技术,2005,13(4):7-9.
9王浩鸣,张曰贤,吴志军,史西兵.基于智能Agent的中文元搜索引擎模型研究[J].计算机工程与应用,2005,41(31):154-156. 被引量：6
10秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：50

同被引文献15

1周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
2姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
3李信利,吕月娥.基于概念的论文相似性检索[J].计算机工程与应用,2007,43(21):177-179. 被引量：5
4Salton G,Wong A,Yang C S.A Vector Space Model for Automatic Indexing,Communications of the ACM[J],1975,18(11):613-620.
5Schenker A,Last M,Bunke H,et al.Classification of Web Documents Using a Graph Model[C]//Proceeding of the Seventh International Conference on Document Analysis and Recognition (ICDAR'03).IEEE Computer Society,2003:240-244.
6Schenker A,Bunke H,Lastm M,et al.Clustering of Web Documents Using Graph Representations[C]//Proceedings of Applied Graph Theory in Computer Vision and Pattern Recognition,2007:247-265.
7Borgatti S.Social Network Analysis Software[OL].[2008-04-23].http://www.analytictech.com/Netdraw/netdraw.htm.
8复旦大学计算机信息与技术系国际数据库中心自然语言处理小组[OL].[2007-06-23].http://www.nlp.org.cn/docs/download.php?doc-id=295.
9谢红薇,李瑞霞,余雪丽,于晓霞.基于概念图匹配的语义相似性算法研究[J].微计算机信息,2007,23(21):222-223. 被引量：6
10张旻浩,高国龙,钱俊龙.国内外学术不端文献检测系统平台的比较研究[J].中国科技期刊研究,2011,22(4):514-521. 被引量：101

引证文献2

1吴江宁,刘巧凤.基于最大公共子图的文本相似度算法研究[J].情报学报,2010,29(5):785-791. 被引量：8
2汪雨培,王东波.学术不端文献检测技术与系统研究综述[J].江苏科技信息,2018,35(23):17-21. 被引量：11

二级引证文献19

1赵辉,刘怀亮,张倩.一种基于复杂网络的中文文本分类算法[J].情报学报,2012,31(11):1179-1186. 被引量：8
2白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7
3张倩,刘怀亮.利用图结构进行半监督学习的短文本分类研究[J].图书情报工作,2013,57(21):126-132. 被引量：1
4孙雄勇,耿崇,申艳.学术不端检测的难点及对策[J].中国科技期刊研究,2019,30(1):14-18. 被引量：35
5尹丽英,赵捧未.基于语义网络社团划分的中文文本分类研究[J].图书情报工作,2014,58(19):124-128. 被引量：7
6王秀红,袁艳,赵志程,李洁玉,刘海军,杨国立.专利文献的结构树模型及其在相似度计算中的应用[J].情报理论与实践,2015,38(3):107-111. 被引量：8
7江国荐,顾乃杰,张旭,任开新.基于SAE-LBP的网页分类研究[J].小型微型计算机系统,2016,37(4):738-742. 被引量：4
8钟旭东,黄章进,顾乃杰,张旭.Web文本分类中的标签权重自动优化研究[J].小型微型计算机系统,2016,37(5):890-894. 被引量：4
9郭竹为,刘胜全,刘艳,赵美玲,符贤哲.基于最大公共子图的本体映射方法研究[J].计算机工程,2017,34(5):197-203.
10吴凌,李海霞,郭桃美.国内五个学术不端文献检测系统的对比研究[J].科技传播,2019,11(10):7-12. 被引量：7

1刘建荣,翟雪荣,赵晓鹏.基于同义词和关联规则的查询扩展模型[J].福建电脑,2010,26(5):91-91. 被引量：1
2尧涛.基于KNN的2015NIPS论文集文档相似度分析[J].科技资讯,2017,15(7):217-218. 被引量：1
3朱承璋,向遥,邹北骥,高旭,梁毅雄,毕佳.基于分类回归树和AdaBoost的眼底图像视网膜血管分割[J].计算机辅助设计与图形学学报,2014,26(3):445-451. 被引量：17
4郑德权,李生,赵铁军,于浩.结合本体论和统计方法的跨语言信息检索模型[J].哈尔滨工业大学学报,2008,40(1):77-80. 被引量：5
5赵俊杰,胡学钢.基于文本分类的文档相似度计算[J].微型电脑应用,2008,24(12):46-47. 被引量：6
6刘长松,丁晓青.利用字形风格约束的字符识别研究[J].自动化学报,2007,33(11):1121-1127. 被引量：2
7孙斌.一种义项矩阵模型SMM[J].中文信息学报,2005,19(2):28-35. 被引量：3
8刘小虎,李生.基于语料库的译文选择[J].情报学报,1997,16(3):189-194. 被引量：4
9钱剑飞,陈华,陈奇,俞瑞钊.一种代码与中文文档关联信息的自动提取方法[J].浙江大学学报（工学版）,2004,38(11):1417-1421. 被引量：2
10夏莹,马少平,常新功,朱小燕,金奕江.基于统计的汉字识别文本自动后处理方法[J].模式识别与人工智能,1996,9(2):172-178. 被引量：13

哈尔滨工程大学学报

2006年第B07期

浏览历史

内容加载中请稍等...

基于上下文多元信息的文档相似度计算研究被引量：2

参考文献14

二级参考文献9

共引文献229

同被引文献15

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于上下文多元信息的文档相似度计算研究 被引量：2

参考文献14

二级参考文献9

共引文献229

同被引文献15

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于上下文多元信息的文档相似度计算研究被引量：2