基于双层语料过滤器的短语抽取方法

Text Topic Extraction Based on Double-linguistic-filter

下载PDF

导出

摘要文本主题提取技术能够有效地精炼文本消息,传统的中文文本由最基本的词语组成,由于词汇本身的信息粒度过小,针对词语进行中文信息抽取不能完整表达文本片段的语义信息。短语本身包含较为丰富的细粒度语义信息,更能表达出文本片段的主题性。本文提出基于双层语料过滤器(词性过滤器与短语扩展规则过滤器)的方法来进行文本语料的冗余信息过滤并抽取文本主题短语信息。实验证明,本文的方法具有一定的可靠性和应用性。 The technology of text topic extraction is widely applied to refine the text information. Since the Chinese text is made up of base Chinese words, which contains trivial semantic information, the methods of using the words to express the semantic in- formation of short text is not promised in applications. In contrast, Chinese phrases contain rich fine-gained semantic information and they are preferred to be the representatives of topic of text. Therefore, this paper proposed a method of double-linguistic-filter （ lexical category filter and phrase-extending filter） to weed out the redundant information and extract topic phrases from text. The phrase results are close to the refined semantic expression of text. The experimental result shows that the method we proposed can obtain reliable results, and the method would indicate other new methods on text mining.

作者林波林伟佳郭靖羽丁东辉黄翰

机构地区中国移动通信集团广东有限公司华南理工大学软件学院

出处《计算机与现代化》 2015年第12期7-14,共8页 Computer and Modernization

关键词短语抽取信息提取规则挖掘 phrase extraction information extraction rule mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1中国互联网络信息中心.第35次中国互联网络发展状况统计报告[DB/OL].http://www.cnnic.net.cn/hlwfzyj/hl-wxzbg/201502/lr20150203551802054676.pdf,2015-03-26.
2鲁明羽,姚晓娜,魏善岭.基于模糊聚类的网络论坛热点话题挖掘[J].大连海事大学学报,2008,34(4):52-54. 被引量：20
3Sahami Mehran, Heilman Timothy D. A Web-based kernel function for measuring the similarity of short text snippets [ C]//Proceedings of ACM the 15th International Confer- ence on World Wide Web. 2006:377-386.
4Metaler D, Dmnais S, Meek C. Similarity measures for short segments of text[ C]//European Colloquium on IR Research- ECIR. 2007 : 16-27.
5Yih W, Meek C. Improving similarity measures for short segments of text [ C ]// National Conference on Artificial Intelligence-AAAI. 2007 : 1489-1494.
6Phan Xuan-Hieu, Nguyen Le-Minh, Horiguchi Susumu. Learning to classify short and sparse Text&Web with hidden topics from large-scale data collections [ C ]// World Wide Web Conference Series-WWW. 2008:91-100.
7Tantanasiriwong Supaporn, Haruechaiyasak Choochart, Guha Sumanta. A comparative study of key phrase extraction for cross-domain document collections [ C ]// The 16th Interna- tional Conference on Asia-Pacific Digital Libraries. 2014:393- 398.
8Liu Dacheng, Peng Zhiyong, Liu Bin, et al. Technology effect phrase extraction in Chinese patent abstracts [ C ]// Web Technologies and Applications, Lecture Notes in Computer Science. 2014,8709 : 141-152.
9Bharti Kusum Kumari, Singh Pramod Kumar. Hybrid di- mension reduction by integrating feature selection with fea- ture extraction method for text clustering [ J ]. Expert Sys- tems with Applications, 2015,42(6) :3105-3114.
10王鹏,樊兴华.中文文本分类中利用依存关系的实验研究[J].计算机工程与应用,2010,46(3):131-133. 被引量：16

二级参考文献41

1王珏,袁小红,石纯一,郝继刚.关于知识表示的讨论[J].计算机学报,1995,18(3):212-224. 被引量：54
2王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
3陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：23
4樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
5YE Hui-min,CHENG Wei,DAI Guan-zhong.Design and Implementation of On-Line Hot Topic Discovery Model[J].Wuhan University Journal of Natural Sciences,2006,11(1):21-26. 被引量：14
6刘晓志,黄厚宽,尚文倩.带专业词库的特征选择[J].北京交通大学学报,2006,30(2):97-100. 被引量：4
7廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
8刘霞,卢苇.SVM在文本分类中的应用研究[J].计算机教育,2007(01X):72-74. 被引量：7
9孙晓霞,郑玉明,廖湖声.一种基于特征词句子环境的文本分类器[J].计算机应用研究,2007,24(2):116-119. 被引量：3
10刘华.基于文本分类中特征提取的领域词语聚类[J].语言文字应用,2007(1):139-144. 被引量：22

共引文献102

1伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
2叶明全,伍长荣.决策表分解及其最小属性约简研究[J].计算机工程与应用,2009,45(30):126-128. 被引量：1
3蔡月红,朱倩,孙萍,程显毅.基于属性选择的半监督短文本分类算法[J].计算机应用,2010,30(4):1015-1018. 被引量：8
4王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
5林小俊,张猛,暴筱,李军,吴玺宏.基于概念网络的短文本分类方法[J].计算机工程,2010,36(21):4-6. 被引量：9
6刘建波,杨峰.面向舆情分析的短文本频繁模式聚类算法[J].北京电子科技学院学报,2010,18(4):6-11. 被引量：7
7钟珞,梅磊,郭翠翠,胡磊,苏永昌.粒矩阵属性约简的启发式算法[J].小型微型计算机系统,2011,32(3):516-520. 被引量：5
8陈学昌,韩佳珍,魏桂英.话题识别与跟踪技术发展研究[J].中国管理信息化,2011,14(9):56-59. 被引量：5
9朱艳辉,栗春亮,徐叶强,柳位平.一种基于多重词典的中文文本情感特征抽取方法[J].湖南工业大学学报,2011,25(2):42-46. 被引量：10
10丁军平,蔡皖东.面向元信息分类的支持向量机改进技术[J].西安交通大学学报,2011,45(8):37-42. 被引量：1

1陈晓红.基于GATE的中文领域信息抽取研究[J].计算机光盘软件与应用,2014,17(19):30-30. 被引量：1
2朱靖波,姚天顺.中文信息自动抽取[J].东北大学学报（自然科学版）,1998,19(1):52-54. 被引量：24
3强静,张建.基于短语的统计机器翻译中短语抽取算法改进[J].计算机工程与应用,2008,44(13):147-149. 被引量：3
4诺明花,张立强,刘汇丹,吴健,丁治明.汉藏短语抽取[J].中文信息学报,2011,25(2):105-110. 被引量：5
5张燕梅,潘夕威,赵志坚.基于KL-S专用协议的串口通信[J].计算机应用,2009,29(B06):51-52.
6唐亮,李倩,许洪波,易绵竹.基于多策略过滤的汉日多词短语抽取和对齐[J].山东大学学报（理学版）,2015,50(9):21-28. 被引量：4
7邓擘,郑彦宁,樊孝忠.汉语信息抽取中事件的定位与分类[J].情报理论与实践,2009,32(10):104-107. 被引量：2
8阿力木江·艾沙,吐尔根·依布拉音,库尔班·吾布力,李哲.基于短语的维吾尔文文本分类[J].计算机应用,2012,32(10):2923-2926. 被引量：5
9任高举,吐尔根.伊布拉音,艾山.吾买尔.基于短语的统计机器翻译中汉维短语对抽取算法改进[J].现代计算机,2010,16(5):9-11.
10刘振.社交媒体的语义标注应用现状研究[J].图书与情报,2013(5):95-99. 被引量：1

计算机与现代化

2015年第12期

浏览历史

内容加载中请稍等...

基于双层语料过滤器的短语抽取方法

参考文献14

二级参考文献41

共引文献102

相关作者

相关机构

相关主题

浏览历史