基于Wiki链接结构图聚类的领域词典构建方法被引量：7

Domain Thesaurus Construction Based on Wiki Hyperlink Structure Graph Clustering

下载PDF

导出

摘要领域词典在信息检索、自然语言处理,以及问答系统等方面有着重要的应用.由于自然语言的复杂性,基于NLP的领域词典构建方法难以取得理想的结果.近年来Wiki百科得到了广泛的使用.Wiki不仅包含海量的文章,还拥有丰富的链接结构.基于超链接的锚描述性和主题局部性,提出一种基于有权无向链接结构图聚类的领域词典自动构建方法.该方法首先利用Wiki构建关于某特定领域的无向链接结构图,然后使用LSI算法和余弦相似度计算每条链接的权重,再利用CPMw算法对该有权无向链接结构图进行聚类,从而得到最终的领域词典.实验表明,本文提出的方法可以获得更好的领域词典构建结果. The domain thesaurus plays an important role in information retrieval, natural language processing, question answering system etc. Due to the complexity of the natural language, the NLP based thesaurus constructing methods are difficult to achieve a desired result. In recent years, Wild has been widely used as a knowledge base. Wild contains not only a large hum of articles, but also has a dense link structure. Based on the characteristics anchor description and topic locality of hyperlinks, this paper proposes a weighted undirected hyperlink structure graph clustering based domain thesaurus construction method. The method first constructs a domain-specific hypedink structure graph using Wild, and then uses LSI algorithm to calculate the weight of each hyperlink. Then the method uses CPMw algorithm to cluster the weighted undirected hyperlink structure graph. After this step, the domain thesaurus can be achieved. The experiments show that method proposed in this paper can get better results.

作者尹文科朱明陈天昊

机构地区中国科学技术大学电子工程与信息科学系中国电子科技集团公司第二十八研究所信息系统工程重点实验室中国科学技术大学自动化系

出处《小型微型计算机系统》 CSCD 北大核心 2014年第6期1286-1292,共7页 Journal of Chinese Computer Systems

基金国家科技支撑计划课题项目(2011BAH11B01)资助

关键词领域典构建 WIKI CPMw LSI domain thesaurus construction Wild CPMw LSI

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
2余传明,张小青.从Wikipedia中获取本体：原理与方法研究[J].情报学报,2011,30(3):244-252. 被引量：10

二级参考文献35

1Gruber T R. A translation approach to portable ontology specifications [ J ]. Knowledge Acquisition, 1993, 5 (2) :199-220.
2Noy N F, Fergerson R W, Musen M A. The knowledge model of protege-2000: Combining interoperability and flexibility [ C ] // Proceedings of the 12th International Conference on Knowledge Engineering and Knowledge Management ( EKAW2000 ). Heidelberg: Springer Verlag, 2000. 17-32.
3Sure Y, Angele J, Erdmann M, et al. OntoEdit: Collaborative ontology engineering for the semantic Web [C] // Horrocks I, Hendler J A. Proceedings of the ISWC 2002. Heidelberg: Springer-Verlag, 2002: 221-235.
4Perez G, Macho M. A survey of ontology learning methods and techniques [ J]. OntoWeb Deliverable D1, 2003 (5) :1-86.
5Leuf B,Cunningham W. The Wiki Way:Quick Collaboration on the Web [ M ]. Boston, London: Addison WesleyPress, 2001.
6Medelyan O, Milne D, Legg C, et al. Ming meaning from Wikipedia [ J ]. International Journal of Human Computer Studies, 2009 ( 9 ) : 716-754.
7Johnson B. Wikipedia approaches its limits [ EB/OL]. [2009-09-05]. http://www, guardian, co. uk /technology/ 2009/aug/12/wikipedia-deletionist-inclusionist.
8Corcho O, Gemez-Perez A. Evaluating knowledge representation and reasoning capabilities of ontology specification languages [ C/OL ]. [ 2009-09-01 ]// Proceedings of the ECAI 2000 Workshop on Applications of Ontologies and Problem-Solving Methods. http:// dia. fi, upm. es /- ocorcho/documents/ ECAI00 WS_CorchoGomezPerez. pdf.
9Shamsfard M, Barforoush A A. Learning ontologies from natural language texts [ J ]. Int' 1 Journal Human- Computer Studies, 2004, 60( 1 ) : 17-63.
10Patrick P, Lin D K. A statistical corpus-based term extractor [ C ] // Lecture Notes In Computer Science, Vol. 2056, Proceedings of the 14th Biennial Conference of the Canadian Society on Computational Studies of Intelligence: Advances in Artificial Intelligence. London, UK : Springer-Verlag, 2001:36-46.

共引文献107

1钱小飞.语言数据资源建设中的关键问题及对策[J].语料库语言学,2021,8(2):94-105. 被引量：2
2张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
3陈锐,张蕾,卢春俊,牟力科.基于概念图的信息检索的查询扩展模型[J].计算机应用,2009,29(2):545-548.
4周波,蔡东风.基于条件随机场的中文组织机构名识别研究[J].沈阳航空工业学院学报,2009,26(1):49-52. 被引量：8
5张瑞霞,朱贵良,杨国增.基于知识图的汉语词汇语义相似度计算[J].中文信息学报,2009,23(3):116-120. 被引量：11
6苏晓路,李景,孟宪学,胡海燕,钱平.OWL Full表示的顶级本体到OWL DL的转换研究[J].现代图书情报技术,2009(2):39-45. 被引量：1
7王石,曹存根.WNCT:一种WordNet概念自动翻译方法[J].中文信息学报,2009,23(4):63-70. 被引量：6
8刘兴林.词汇语义知识库浅述[J].福建电脑,2009,25(9):47-48. 被引量：2
9周蓝海,蔡东风.多策略英汉词对齐方法的研究[J].计算机工程与设计,2009,30(17):4138-4140. 被引量：5
10陈锐,张蕾,胡艳华.基于语义的信息检索模型[J].计算机工程与应用,2009,45(26):141-143. 被引量：6

同被引文献48

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2孙霞,郑庆华,王朝静,张素娟.一种基于生语料的领域词典生成方法[J].小型微型计算机系统,2005,26(6):1088-1092. 被引量：11
3陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：22
4曲开社,翟岩慧.偏序集、包含度与形式概念分析[J].计算机学报,2006,29(2):219-226. 被引量：52
5Zong Ziliang, Fares R, Romoser B, et al. FastStor: improving the performance of a large scale hybrid storage system via cac- hing and prefetching [ J ]. Cluster Computing, 2014,17 ( 2 ) : 593 -604.
6Dr A K,Jayasudha S S. An efficient cluster based web object filters from web pre-fetching and web caching on web user navigation[J ]. International Journal of Computer Science Is-sues ,2012,9 ( 3 ) :483-489.
7Liu Qinghui, Solis- Oba R. Web prefetching with machine learning algorithms[ C ]//Proc of international conference on internet computing. [s. 1. ]:[ s. n.] ,2008:142-148.
8Wan Miao, Jsnsson A, Wang Cong, et al. Web user clustering and Web prefetching using random indexing with weight func- tions[J]. Knowledge and Information Systems,2012,33 (1): 89-115.
9de la Ossa B A, Sahuquillo J, Pont A, et al. Key factors in web latency savings in an experimental prefetching system [ J ]. Journal of Intelligent Information Systems,2012,39 ( 1 ) : 187- 207.
10Ban Zhijie,Wang Sansan. A framework of online proxy-based web prefetching [ J ]. Web Information Systems and Mining Lecture Notes in Computer Science,2012,7529:610-620.

引证文献7

1姚瑶,张慧.基于ART1用户聚类的Web预取模型研究[J].计算机技术与发展,2015,25(9):106-110.
2程春雷,夏家莉,曹重华,李光泉,曹中华.关系概念的Web文本主题抽取模型研究[J].小型微型计算机系统,2016,37(5):972-977. 被引量：1
3成于思,施云涛.面向专业领域的中文分词方法[J].计算机工程与应用,2018,54(17):30-34. 被引量：19
4石玉鑫,杨泽青,赵志滨,姚兰.一种面向商品评价对象挖掘的领域词典构建法[J].软件工程,2019,22(1):1-7. 被引量：4
5彭郴,吕学强,孙宁,张乐,姜肇财,宋黎.基于CNN的消费品缺陷领域词典构建方法研究[J].数据分析与知识发现,2020,4(11):112-120. 被引量：9
6江伟豪,严丽,屠要峰,周祥生,李忠良.RDF问答系统中一种基于N-gram的消歧方法[J].小型微型计算机系统,2022,43(5):969-975. 被引量：1
7李永帅,王黎明,柴玉梅,刘箴.基于双向LSTM的动态情感词典构建方法研究[J].小型微型计算机系统,2019,40(3):503-509. 被引量：13

二级引证文献47

1郑杏冉,黄卫东.网民心理视角下突发公共事件情感主题研究[J].知识管理论坛,2024(1):93-107.
2程春雷,夏家莉.关系概念的Web资源语义标识模型研究[J].计算机科学与探索,2016,10(8):1092-1103. 被引量：2
3卫少洁,周永霞.一种结合Alphapose和LSTM的人体摔倒检测模型[J].小型微型计算机系统,2019,40(9):1886-1890. 被引量：14
4成于思,施云涛.基于深度学习和迁移学习的领域自适应中文分词[J].中文信息学报,2019,33(9):9-16. 被引量：14
5赵凯,王华星,施娜,萨震,许筱颖.基于Neo4j桂枝汤类方知识图谱的研究与实现[J].世界中医药,2019,14(10):2636-2639. 被引量：33
6吴国栋,刘国良,张凯,涂立静.SVM和RNN在网络评论情感分析中的比较研究[J].上海工程技术大学学报,2019,33(4):378-383. 被引量：3
7郭理,张恒旭,王嘉岐,秦怀斌.基于Trie树的词语左右熵和互信息新词发现算法[J].现代电子技术,2020,43(6):65-69. 被引量：12
8张文旭,肖人彬,林文广.基于产品性能词典的评论数据驱动客户需求模型研究[J].中国机械工程,2020,31(15):1866-1876. 被引量：22
9王莉军,周越,桂婕,翟云.基于BiLSTM-CRF的中医文言文文献分词模型研究[J].计算机应用研究,2020,37(11):3359-3362. 被引量：14
10苏翠华,熊婷.基于深度学习的精准营销推送算法设计与仿真[J].现代电子技术,2020,43(22):144-147. 被引量：2

1甘秋云.中文分词算法概述[J].唐山师范学院学报,2013,35(5):55-57. 被引量：3
2徐刚.Ontology在领域词典构建中的应用[J].黑龙江科技信息,2008(29):48-48.
3周爱民.应用程序设计语言的复杂性[J].程序员,2012(4):62-65.
4郭朝敏,姜丽红,蔡鸿明.一种关系数据库到本体的自动构建方法[J].计算机工程与应用,2012,48(7):115-120. 被引量：9
5胡昊.C语言编程技术的分析研究[J].数码世界,2017,0(4):6-8.
6耿崇,耿骞.Ontology的自动构建方法[J].情报理论与实践,2006,29(3):341-344.
7谢桂芳,李仁发.具有概念联想功能的语义关系库的自动构建[J].计算机工程与应用,2007,43(7):177-178. 被引量：2
8周斌,李红燕,唐绿岸,李梅梅,王建军,邱宝军.一种基于操作序列的Web服务建模与自动构建方法[J].计算机研究与发展,2006,43(z3):23-28. 被引量：1
9Henry,S,邵惠玲.图形程序设计语言的复杂性测量[J].软件,1990,11(5):410-428.
10吕英杰,叶强,李一军.模糊综合评判理论在网页自动分类中的应用[J].计算机工程,2007,33(15):178-180. 被引量：4

小型微型计算机系统

2014年第6期

浏览历史

内容加载中请稍等...

基于Wiki链接结构图聚类的领域词典构建方法被引量：7

参考文献2

二级参考文献35

共引文献107

同被引文献48

引证文献7

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于Wiki链接结构图聚类的领域词典构建方法 被引量：7

参考文献2

二级参考文献35

共引文献107

同被引文献48

引证文献7

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于Wiki链接结构图聚类的领域词典构建方法被引量：7