基于统计的词语相关度网络自动构建方法研究被引量：2

Research on Automatic Building of Word Correlation Net Based on Statistic

下载PDF

导出

摘要词语语义知识库对于扩大自然语言理解的深度具有重要的意义。目前较为成熟的WordNet、HowNet、同义词词林等均为人工开发,对知识的描述较为准确,但开发的工作量巨大,实际应用存在很多困难。为了更加自动化、实证性地获取中文词语相互关联状况的知识,该文提出词语相关度的概念以及基于统计的词语相关度计算方法,并以此为基础构建一个基于强领域特性中文词语的词语相关度网络,设计数组分割的硬盘存储方法,使该任务涉及到的海量数据的分析处理可以在目前的个人PC上完成。最终获得的词语语义知识具备经验主义方法的优点,准确性、泛化性较强,可以在文本分类、检索、过滤等领域发挥重要作用。 Semantic knowledge-base has important meaning for increasing the deepness of NLU.Some comparatively mature Semantic knowledge-base such as WordNet,HowNet and Tongyicicilin was developed by manpower,and has many difficulties on actual application.In order to capture Chinese word knowledge of relating status more automatically and demonstrably,this paper presented the concept of word correlation and a calculation method of word correlation based on statistic.Then a correlation net based on Chinese words which have strong domain characteristic was built.In order to resolve the difficulty of processing the huge amount of data,a hard disk storing method of array segmentation was designed.The semantic knowledge gained by the experiment had the advantage of empiricism.It is veracity and generalization is strong so it can play an important role in many fields such as text categorization,text retrieval,text filtering,etc.

作者王洋周学广孙艳

机构地区海军工程大学电子工程学院

出处《计算机与数字工程》 2012年第2期15-18,86,共5页 Computer & Digital Engineering

基金海军工程大学自然科学基金引导项目(编号:HGDYDJJ10008)资助

关键词词语相关度词语相关度网络语义词典 word correlation word correlation net semantic knowledge-base

分类号 TU352.11 [建筑科学—结构工程]

引文网络
相关文献

参考文献3

1秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
2董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58
3章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17

二级参考文献33

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58
2易丽萍,竹勇,雷小春.知网在词语相似度计算方面的应用[J].信息技术与信息化,2005(1):24-26. 被引量：11
3余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
4章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
5荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
6颜伟荀恩东.基于WordNet的英语词语相似度计算[A]..第二届全国学生计算语言学研讨会[C].,2004..
7RIJSBERGEN CJ.Information Retrieval[M].2nd edition.London:Butterworths Publishers,1979.
8董振东董强.知网简介[EB／OL].http://www.keenage.com/.,1999.
9关毅,王晓龙.基于统计的汉语词汇间语义相似度计算.语言计算与基于内容的文本处理,清华大学出版社,2003.221～227
10刘群李素建.基于《知网》的词汇语义相似度计算[C]..第三界汉语词汇语义研讨会[C].台北,2002..

共引文献94

1冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23
2董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：56
3田雯,曹存根,王海涛.心理常识概念的表示、获取和分析[J].计算机科学,2004,31(6):5-12. 被引量：2
4董振东,董强.面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001(3):27-32. 被引量：35
5尹一瓴,陈群秀.现代汉语语义知识库用于句法分析的研究[J].计算机应用,2004,24(B12):264-267. 被引量：1
6刘扬,俞士汶,于江生.CCD语义知识库的构造研究[J].小型微型计算机系统,2005,26(8):1411-1415. 被引量：9
7李亮,齐望东.基于知网的关系网络的构建[J].解放军理工大学学报（自然科学版）,2005,6(5):441-446. 被引量：1
8赵欣欣,索红光,刘玉树,张利萍.基于带权语义距离的网页预取方法[J].北京理工大学学报,2006,26(8):708-711. 被引量：2
9赵欣欣,索红光,刘玉树.基于改进汉宁窗的信息检索模型[J].广西师范大学学报（自然科学版）,2006,24(4):191-194. 被引量：8
10秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30

同被引文献28

1董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：56
2金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：325
4章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
5董振东,董强.知网[DB/OL].[2009-03-15].http://www.keenage.com.
6周学广,任延珍,孙艳,等.信息内容安全[M].武汉:武汉大学出版社,2012.
7Fellbaum C. WordNet : An Electronic Lexical Data- base [ M]. Cambridge & MIT Press, 1998.
8Richardson S D, Dolan W B, Vanderwende L. Mind- Net: Acquiring and structuring semantic information from text[DB/OL]. [2013-04-11]. http://acl, ldc. upenn, edu/P/P98/P98-2180, pd f.
9Baker C F, Fillmore C J, Lowe J B. The Berkeley FrameNet Project[DB/OL]. [2013404-11]. http:acl. ldc. upenn, edu/C/C98/C98-1013, pd f.
10王惠,詹卫东,俞士汶.现代汉语语义词典规格说明书[J/OL].[2013-04-02].http://ccl.pku.edu.cn/doubtfir8/papers/2003_semdict_specification_wang-huizwd.pdf.

引证文献2

1李勇敢,周学广,孙艳,张焕国.结合依存关联分析和规则统计分析的情感词库构建方法[J].武汉大学学报（理学版）,2013,59(5):491-498. 被引量：3
2仲远,王芳,黄树成.基于百度百科多特征信息的词汇相似度计算[J].计算机与数字工程,2020,48(7):1580-1584. 被引量：1

二级引证文献4

1王科,夏睿.情感词典自动构建方法综述[J].自动化学报,2016,42(4):495-511. 被引量：68
2陈红琳,魏瑞斌,张玮,张宇航.基于共词分析的国内文本情感分析研究[J].现代情报,2019,39(6):91-101. 被引量：14
3李枫林,范雅娴.领域情感词典构建方法研究[J].图书馆理论与实践,2019,0(12):60-65. 被引量：7
4王东,王飘,江俊鹏,李青,徐晨阳.科技项目申报书查重方法研究[J].中国科技资源导刊,2022,54(5):30-40.

1赫芳,王洋.网络的简监督文本分类方法[J].计算机与网络,2012,38(17):56-58.
2任文静,祝贺.以城市绿道规划塑造城市特色[J].农民致富之友,2015(10):129-129. 被引量：1
3王小星.以数字城管为基础构建“大城管”机制的思考[J].城建监察,2014(5):39-40.
4童林旭.地下空间概论(一)[J].地下空间,2004,24(1):133-136. 被引量：37
5夏莲.居住区规划与生态建筑刍议[J].美术教育研究,2014,0(16):174-174.
6顾文芸,袁媛.城市公共空间POE研究——以南京石头城遗址公园为例[J].中国林业经济,2014(2):57-60. 被引量：2
7鹤壁市故县湿地公园概念性景观规划通过专家评审[J].中州建设,2012(21):46-46.
8钱海平,林涛,吴璟.场景空间的营造——以杭州良渚文化村竹径茶语组团为例[J].新建筑,2010(4):93-95. 被引量：2
9A. E. Sayed Rabiee All Sadeek Mohamed.Recycling of Crushed Demolished Concrete in Structures[J].Journal of Civil Engineering and Architecture,2010,4(11):65-69.
10龚云亮.BIM在新机场航站楼机电设备安装与运营中的应用[J].通讯世界,2015,21(6):292-293. 被引量：3

计算机与数字工程

2012年第2期

浏览历史

内容加载中请稍等...

基于统计的词语相关度网络自动构建方法研究被引量：2

参考文献3

二级参考文献33

共引文献94

同被引文献28

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于统计的词语相关度网络自动构建方法研究 被引量：2

参考文献3

二级参考文献33

共引文献94

同被引文献28

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于统计的词语相关度网络自动构建方法研究被引量：2