一种基于百度百科的中文网络文本关键词抽取方法

Keywords Extraction Method for Chinese Web Text Based on Baidu Baike

下载PDF

导出

摘要网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再利用主题间的关系进行权值调整,最后通过Nave Bayes法回溯并找到原文的关键词.该方法有效地避开穷举词条的统计方式,能在很大程度上解决现有文本挖掘方法无法抽取网络词汇和新生词汇这一难题.在两个数据集上的实验表明,该方法在规范的文本和不规范文本上都有着较好且稳定的表现. Based on words counting, the traditional keywords extraction methods are not able to work well on Chinese texts in the web, because many of these texts are spares and nonstandard. BaiduBaike is a rich and dynamic Chinese Encyclopedia which is closely relat- ed to hot spots and web popular. In this paper,we propose a new keywords extraction method for Chinese web text,which is based on BaiduBaike. In our method,the rich knowledge in BaiduBaike is used to map text into semantic topics from a set of Chinese words, and then the relationship among semantic topics is adopted to adapt the topics＇ weight in the text. At last the keywords of the text are extracted according to Naive Bayes. This method avoids counting Chinese words, and can resolve web words and novel words to a great extent. Experiments on two datasets have demonstrated that our method can get good and stable result.

作者陈叶旺

机构地区华侨大学计算机科学学院

出处《小型微型计算机系统》 CSCD 北大核心 2014年第11期2422-2427,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61202298)资助福建省自然科学基金项目(2012J05117)资助中央高校基本科研业务费(JB-ZR1217)资助厦门市科技计划项目(3502Z20133029)资助

关键词网络文本百度百科语义主题 web text baidu baike semantic topic

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1张苇如,孙乐,韩先培.基于维基百科和模式聚类的实体关系抽取方法[J].中文信息学报,2012,26(2):75-81. 被引量：23
2刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
3李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
4戴海生,朱小燕,罗予频,杨士元.一种新的关键词确认方法[J].电子学报,2005,33(1):101-105. 被引量：3
5陈叶旺,王华珍,李海波,钟必能,陈锻生.基于百度百科与文本分类的网络文本语义主题抽取方法[J].小型微型计算机系统,2012,33(12):2605-2610. 被引量：9
6马颖华,王永成,苏贵洋,张宇萌.一种基于字同现频率的汉语文本主题抽取方法[J].计算机研究与发展,2003,40(6):874-878. 被引量：48

二级参考文献48

1董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
4O. Medelyan, D. Milne, C. Legg, et al. Mining Meaning from Wikipedia[J].International Journal of Human-Computer Studies,September 2009,67 (9):716-754.
5E.Agichtein,L.Gravano.Snowball:Extracting Relations from Large Plain-Text Collections[C]//Proceedings of the fifth ACM conference on Digital libraries.New York,NY,USA:ACM,2000:85-94.
6M.Ruiz-Casado,E.Alfonseca,P.Castells.Automatic Extraction of Semantic Relationships for WordNet by Means of Pattern Learning from Wikipedia[J].Natural Language Processing and Information Systems 2005,3513:233-242.
7Y.Yan,N.Okazaki,Y.Matsuo,et al.Unsupervised Relation Extraction by Mining Wikipedia Texts Using Information from the Web[C]//Proceeding of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2.
8P. Pantel,M. Pennacchiotti. Espresso:Leveraging Generic Patterns for Automatically Harvesting Semantic Relations[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics,2006:113-120.
9F. M. Suchanek,G. Ifrim,G. Weikum. LEILA:Learning to Extract Information by Linguistic Analysis[J].ACL,2006:18-25.
10G.Wang,Y.Yu,H.Zhu.PORE:Positive-Only Relation Extraction from Wikipedia Text.Lecture Notes in Computer Science[C]//Proceedings of Lecture Notes in Computer Science,2007,Volume 4825:580-594.

共引文献171

1张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：11
2陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
3余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8
4唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
5戴海生,朱小燕,罗予频,杨士元.关键词检出算法[J].清华大学学报（自然科学版）,2006,46(1):130-132.
6姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
7索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
8赛场“搏”客活力绽放——浙报集团第三届职工健身运动会掠影[J].新闻实践,2006(12).
9张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
10马芳,王炳锡,李弼程.英语从句识别中的特征表示[J].计算机应用研究,2007,24(2):89-91. 被引量：2

1刘典,李石君.基于用户反馈的关键词提取[J].计算机工程与设计,2015,36(8):2277-2281. 被引量：1
2孙宏志,任丽妍,孙琪.基于统计的行业中文文本关键词提取方法[J].电子制作,2015,23(6X):86-87.
3胡朝举,杨孟英.中文文本分类关键技术的研究[J].电脑编程技巧与维护,2016(14):14-15. 被引量：1
4彭云,万红新.一种基于粗糙集的Web文本搜索算法[J].微计算机信息,2009,25(30):182-183. 被引量：1
5姚卫国,张东波.基于Hadoop分布式平台的Web文本关键词提取方案[J].湘潭大学自然科学学报,2016,38(2):79-83. 被引量：5
6王兰成,徐震.主题舆情分析中的语义Web文本分类研究[J].情报学报,2012,31(4):340-344. 被引量：6
7陈叶旺,王华珍,李海波,钟必能,陈锻生.基于百度百科与文本分类的网络文本语义主题抽取方法[J].小型微型计算机系统,2012,33(12):2605-2610. 被引量：9
8陈少强.ITS系统中知识模型的设计与实现[J].江西科技师范学院学报,2005(4):51-54. 被引量：3
9苏红,万国根,张斌.电子政务知识关系研究[J].中国科技资源导刊,2012,44(5):34-39.
10王万良,潘蒙.基于多特征的视频关联文本关键词提取方法[J].浙江工业大学学报,2017,45(1):14-18. 被引量：5

小型微型计算机系统

2014年第11期

浏览历史

内容加载中请稍等...

一种基于百度百科的中文网络文本关键词抽取方法

参考文献6

二级参考文献48

共引文献171

相关作者

相关机构

相关主题

浏览历史