基于大规模语料库的汉语词义相似度计算方法被引量：25

Chinese Lexical Semantic Similarity Computing Based on Large-scale Corpus

下载PDF

导出

摘要词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。 Automatic acquisition of similar words is one of the most crucial problems in natural language processing tasks, e.g. the query extension in information retrieval, pattern identification in machine translation, parser analysis and WSD. This paper focuses on Chinese semantic similarity computing based on large corpus, investigating the computation of context feature weight, the vector similarity measures, the window context vs. the dependency con text, and the newspaper corpus vs. web corpus. Our experiments show that, in the web corpus, using windowbased context combined with PMI weights function, the cosine measures gets the best semantic similarity results.

作者石静吴云芳邱立坤吕学强

机构地区北京大学计算语言学研究所鲁东大学文学院北京信息科技大学网络文化与数字传播北京市重点实验室

出处《中文信息学报》 CSCD 北大核心 2013年第1期1-6,80,共7页 Journal of Chinese Information Processing

基金国家863项目(No.2012AA011101) 国家自然科学基金(61103089) 网络文化与数字传播北京市重点实验定开放课题(ICDD301202)

关键词词义相似度上下文特征权值选择依存关系 semantic similarity context weight function dependency relation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1刘群;李素建.基于《知网》的词汇语义相似度的计算[A]台湾台北,2002.
2张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报,2010,24(6):23-30. 被引量：36
3刘青磊,顾小丰.基于《知网》的词语相似度算法研究[J].中文信息学报,2010,24(6):31-36. 被引量：34
4Agirre E,Alfonseca E,Hall K. A study on similarity and relatedness using distributional and WordNet-based approaches[A].2009.19-27.
5Harris Z. Mathematical structures of language[D].Wiley,New Jersey,1968.
6Lin D. Automatic Retrieval and Clustering of Similar Words[A].
7Curran J. Ensemble methods for automatic thesaurus extraction[A].
8Weeds J,Weir D,McCarthy D. Characterizing measures of lexical distributional similarity[A].
9Hagiwara M,Ogawa Y,Toyama K. Selection of effective contextual information for automatic synonym acquisition[A].2006.353-360.
10Geffet M,Dagan I. Bootstrapping distributional feature vector quality[J].Computational Linguistics,2009,(03):435-461.

二级参考文献17

1王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
2张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
3吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
4朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
5李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
6董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：98
7穗志文.基于骨架依存树的语句相似度计算模型[J].计算语言学文集,1998,(3):176-184.
8Green, Rebecca and Bonnie J. Dorr. Inducing A Semantic Frame Lexicon from WordNet Data[C]//Proceedings of the 2nd Workshop on Text Meaning and Interpretation (ACL 2004).
9Dagan L, Lee L. and Pereira F. (1999), Similarity- based models of word cooccurrence probabilities[C]//. Machine Learning, Special issue on Machine Learning and Natural Language, 1999.
10董振东,董强.《知网》[DB/OL].http://www.keen-age.com.

共引文献61

1王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):3075-3077. 被引量：38
2刘晓平,沈冠町.协同讨论观点影响度分析及其可视化实现[J].合肥工业大学学报（自然科学版）,2012,35(3):315-318.
3秦学勇,张润梅.两级相似度计算在主观题机器阅卷中的应用[J].计算机工程,2012,38(11):274-276.
4韩建国,巩军.面向物资分类的中文字符串相似度计算方法[J].情报学报,2012,31(7):709-714. 被引量：1
5巩军.集成多种特征匹配中文实体名称[J].计算机工程与应用,2012,48(27):136-141.
6吴旭东,成卫青,黄卫东.改进的主客观结合的词语语义相似度算法[J].计算机技术与发展,2012,22(9):45-49. 被引量：1
7刘金岭,宋连友,范玉虹.基于语义信息的中文短信文本相似度研究[J].计算机工程,2012,38(13):58-60. 被引量：9
8胡艳波,崔新春,路青.2002～2011年国内语义相似度研究计量分析[J].情报科学,2013,31(7):100-105.
9徐健.基于多种测度的术语相似度集成计算研究[J].情报学报,2013,32(6):618-628. 被引量：3
10费洪晓,莫天池,林青,杨艳群,谭叶清,严星俊.基于树状语料库的中文短语相似度计算[J].计算机应用与软件,2013,30(8):18-20. 被引量：4

同被引文献253

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2刘胜久,李天瑞,贾真,尹红风.元搜索引擎排序方法建模与算法研究[J].计算机科学,2012,39(S3):197-199. 被引量：4
3高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004,40(14):132-135. 被引量：47
4王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
5梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
6徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
7王源,吴晓滨,涂从文,刘滨,章元峰,王金娥.后控规范的计算机处理[J].现代图书情报技术,1993(2):4-7. 被引量：30
8金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
9刘扬,俞士汶,于江生.CCD语义知识库的构造研究[J].小型微型计算机系统,2005,26(8):1411-1415. 被引量：9
10彭波,闫宏飞.搜索引擎检索系统质量评估[J].计算机研究与发展,2005,42(10):1706-1711. 被引量：10

引证文献25

1辛日华.大规模语料中NV搭配对的提取方法研究[J].内蒙古大学学报（自然科学版）,2013,44(6):624-630. 被引量：1
2万富强,吴云芳.基于中文维基百科的词语语义相关度计算[J].中文信息学报,2013,27(6):31-37. 被引量：9
3辛日华.语义剪枝系统研究[J].内蒙古师范大学学报（自然科学汉文版）,2014,43(1):106-109.
4马海昌,张志昌,赵学锋,孙飞.结合潜在语义分析与点互信息的同义词抽取[J].电脑知识与技术,2014(1):128-132. 被引量：2
5马海昌,赵学锋,杨晏,王济深.潜在语义分析在词汇相似度中的应用[J].甘肃科技纵横,2014,43(3):50-51.
6刘胜久,李天瑞,贾真,景运革.基于搜索引擎的相似度研究与应用[J].计算机科学,2014,41(4):211-214. 被引量：3
7马海昌,张志昌,赵学锋,刘鑫,孔波.面向经济领域的同义词获取融合方法研究[J].科学技术与工程,2014,22(15):207-211. 被引量：1
8邬明强,单广荣,李亚超,孙浩蒸.基于语料库的藏文词义相似度计算方法[J].网友世界,2014,0(17):196-196. 被引量：1
9李军锋,吕学强,李卓,徐丽萍.专利领域同义词识别[J].小型微型计算机系统,2015,36(4):721-726.
10施静静,张鹏,阮雅端,陈启美.多媒体信息网络相似度计算方法研究[J].南京大学学报（自然科学版）,2015,51(2):290-296. 被引量：3

二级引证文献176

1焦利敏,刘泽超,顾子谦,金轮,胡亚欣,王生泽,刘冬阳.智能家电语音交互能力测试语料库建设的研究[J].家电科技,2022(S01):130-134.
2吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
3侯宇豪,杨维芳,马文骏,王卓,余懿韬,闫香蓉,闫浩文.一种利用VSM检索微地图的方法[J].测绘科学,2023,48(12):225-233.
4何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
5马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
6菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.
7佘广夫,曾涛,唐咏雪.工艺质量在线统计分析软件的设计与开发[J].四川冶金,2000,22(2):60-62.
8温荟琦,蒋秉川,万刚,任琰.大数据下的地缘环境可视分析研究探讨[J].测绘科学,2018,43(12):77-84. 被引量：11
9李勃,阮雅端,陈启美.“网络视频识别、挖掘、汇聚技术及其系列应用”专栏前言[J].南京大学学报（自然科学版）,2015,51(2):217-218.
10吴雷,方卿,虞勇勇.多标签学习资源关联度定量计算方法[J].电子技术（上海）,2015,42(11):67-71.

1李玲纯,田丽.基于遗传算法和BP神经网络的短期电力负荷预测[J].安徽工程科技学院学报（自然科学版）,2009,24(3):57-60. 被引量：6
2邓箴,包宏.基于词汇链的多文档自动文摘研究[J].计算机与应用化学,2012,29(11):1384-1386.
3韩兴邦,毛峡.一种改进的词义相似度算法[J].中国科技论文,2016,11(2):202-207. 被引量：1
4邬明强,单广荣,李亚超,孙浩蒸.基于语料库的藏文词义相似度计算方法[J].网友世界,2014,0(17):196-196. 被引量：1
5张琪,胡昌华,乔玉坤.基于权值选择的粒子滤波算法研究[J].控制与决策,2008,23(1):117-120. 被引量：45
6焦莉娟,宗春梅.基于类别覆盖集的改进蚁群算法研究[J].软件导刊,2017,16(3):54-55.
7陈长征,白秉三,严安.设备故障智能诊断技术研究进展[J].沈阳工业大学学报,2000,22(4):349-352. 被引量：5
8朱文涛,李津生,洪佩琳.大规模网络分布式入侵检测系统的策略研究[J].小型微型计算机系统,2003,24(12):2079-2081.
9张丽,余镇危,张扬.移动Ad Hoc网络的一种自适应权值分簇算法[J].西安电子科技大学学报,2008,35(3):572-576. 被引量：10
10叶继华,兰清平,刘长红,王仕民.结合互信息量和Log-Gabor特征的嵌入式人脸识别[J].系统仿真学报,2016,28(9):2214-2219. 被引量：3

中文信息学报

2013年第1期

浏览历史

内容加载中请稍等...

基于大规模语料库的汉语词义相似度计算方法被引量：25

参考文献13

二级参考文献17

共引文献61

同被引文献253

引证文献25

二级引证文献176

相关作者

相关机构

相关主题

浏览历史

基于大规模语料库的汉语词义相似度计算方法 被引量：25

参考文献13

二级参考文献17

共引文献61

同被引文献253

引证文献25

二级引证文献176

相关作者

相关机构

相关主题

浏览历史

基于大规模语料库的汉语词义相似度计算方法被引量：25