基于伪相关反馈的短文本扩展与分类被引量：6

Short text expansion and classification based on pseudo-relevance feedback

下载PDF

导出

摘要针对短文本分类问题,提出基于伪相关反馈(PFR)的短文本扩展与分类方法.在保持语义不变的情况下,利用互联网中的相似语料对短文本的内容进行了扩展.对现有的仅使用局部特征的扩展语料特征抽取方法进行改进,引入全局特征抽取,将全局特征与局部特征相结合得到了更好的特征向量,有效地解决了分类过程中由短文本长度有限导致的特征矩阵高度稀疏的问题.通过在开放数据集上的测试和与其他文献的结果比对,验证了该方法在短文本分类的问题上可以取得较好的效果. A novel classification method based on pseudo-relevance feedback （PFR） was proposed in order to solve the sparseness problems in short text classification. The short texts were expanded using the web pages which are similar to them in semantic level. The feature vector generation algorithm was modified to extract both the local features and the global features. The method can alleviate the sparseness problem of the final feature matrix, which is common in short text classification because of the limited length of the texts. The experimental results on an open dataset show that the method can significantly improve the short text classification effect compared with state-of-the-art methods.

作者王蒙林兰芬王锋

机构地区浙江大学计算机科学与技术学院

出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2014年第10期1835-1842,共8页 Journal of Zhejiang University：Engineering Science

基金博士点基金资助项目(20110101110065) 国家"十二五"科技支撑计划资助项目(2012BAD35B01-3 2013BAF02B10)

关键词伪相关反馈短文本分类特征提取 pseudo-relevance feedback short text classification feature extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1SRIRAM B, FUHRY D, DEMIR E, et al. Short text classification in twitter to improve information filtering [C]// Proceedings of the 33rd international ACM SIGIR Conference on Research and Development in Information Retrieval. Geneva: ACM, 2010: 841- 842.
2SUN A. Short text classification using very few words [C]// Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval. Portland: ACM, 2012: 1145- 1146.
3YUAN Q, CONG G, THALMANN N M. Enhancing Naive Bayes with various smoothing methods for short text classification [C]// Proceedings of the 21st Interna- tional Conference on World Wide Web. Seoul: ACM, 2012:645 - 646.
4李卫疆,赵铁军,王宪刚.基于上下文的查询扩展[J].计算机研究与发展,2010,47(2):300-304. 被引量：32
5BANERJEE S, RAMANATHAN K, GUPTA A. Clus- tering short texts using Wikipedia [C]// Proceedings of the 30th International ACM SIGIR Conference on Research and Development in Information Retrieval. Amsterdam:ACM, 2007: 787- 788.
6HU X, SUN N, ZHANG C, et al. Exploiting internal and external semantics for the clustering of short texts using world knowledge [C] // Proceedings of the 18th ACM Conference on Information and Knowledge Manage- ment. HongKong: ACM, 2009: 919-928.
7PHAN X H, NGUYEN L M, HORIGUCHI S. Learn- ing to classify short and sparse text : web with hidden topics from large-scale data collections[C]/// Proceed- ings of the 17th International Conference on World Wide Web. Beijing: ACM, 2008:91-100.
8CHEN M, JIN X, SHEN D. Short text classification improved by learning multi-granularity topics [C] // Proceedings of the 22nd International Joint Conference on Ar- tificial Intelligence. Barcelona: AAAI, 2011:1776 - 1781.
9SAHAMI M, HEILMAN T D. A web-based kernel function for measuring the similarity of short text snip- pets [C]//Proceedings of the 15th International Confer- ence on World Wide Web. Edinburgh: ACM, 2006:377 -386.
10YIH W T, CHRISTOPHER M. Improving similarity measures for short segments of text [C]//Proceedings of the 22nd Conference on Artificial Intelligence. Van- couver: AAAI, 2007: 1489- 1494.

二级参考文献17

1张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法[J].计算机学报,2004,27(10):1395-1401. 被引量：55
2丁国栋,白硕,王斌.文本检索的统计语言建模方法综述[J].计算机研究与发展,2006,43(5):769-776. 被引量：19
3丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息学报,2006,20(3):84-91. 被引量：43
4Ponte J, Croft W. A language modeling approach to information retrieval [C] //Proc of the 21st ACM Conf on Research and Development in Information Retrieval (SIGIR'98). New York: ACM, 1998:222-229.
5Richardson R, Smeaton A. Using Wordnet in a knowledgebased approach to information retrieval, ca-0395 [R]. Dublin: Trinity College Dublin, 1995.
6Lin D-K, Zhao S-J. Identifying synonyms among distributionally similar words [C]//Proc of Int Joint Conf of Artificial Intelligence (IJCAI2003). Acapuleo: Elsevier, 2003:Ⅰ492-Ⅰ493.
7Xu J, Croft W. Query expansion using local and global document analysis [C] //Proc of the 19th Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1996:4-11.
8Li Dekang. Dependency-based evaluation of MINIPAR [C] // Proc of the Workshop on the Evaluation of Parsing Systems. Granada: ELAR, 1998:298-312.
9Peat H, Willett P. The limitations of term co-occurrence data for query expansion in document retrieval systems [J]. Journal of the American Society for Information Science, 1991, 42(5) : 378-383.
10Voorhees E. Query expansion using lexical semantic relations[C]//Proe of ACM Conf on Research and Development in Information Retrieval 1994. New York: ACM, 1994:61-69.

共引文献31

1安俊秀.基于服务器集群的云检索系统的研究与示范[J].计算机科学,2010,37(7):179-182. 被引量：7
2刘金岭.基于查询词扩展的中文垃圾短信检索[J].计算机工程,2011,37(8):52-54. 被引量：6
3刘金岭,严云洋.基于上下文的短信文本分类方法[J].计算机工程,2011,37(10):41-43. 被引量：13
4王海云,刘金岭.基于查询词扩展的文本检索算法研究[J].计算机与数字工程,2011,39(6):15-17. 被引量：1
5涂俊翔,朱晓林.协同企业产品生命周期管理系统信息的检索[J].中国工程机械学报,2011,9(2):244-248.
6杨石,邹国奇,杨作为.一种扩展功能可选取的文本检索系统[J].大众科技,2011,13(10):22-24.
7黄名选.负关联规则挖掘与特征词抽取融合的局部反馈查询扩展[J].计算机工程与科学,2011,33(11):144-148. 被引量：2
8王力,李培峰,朱巧明.一种面向主题的关键词查询扩展方法[J].计算机应用与软件,2011,28(12):29-31. 被引量：3
9苏俊杰,陈俊.基于半监督学习的查询扩展模型[J].计算机系统应用,2012,21(3):181-184. 被引量：1
10王旭阳,萧波.基于本体和局部上下文分析的查询扩展方法[J].计算机工程,2012,38(7):57-59. 被引量：10

同被引文献51

1谢强,张磊.基于任务类知识需求模板和用户模型的知识需求研究[J].武汉大学学报（工学版）,2006,39(2):36-41. 被引量：5
2杨震,段立娟,赖英旭.基于字符串相似性聚类的网络短文本舆情热点发现技术[J].北京工业大学学报,2010,36(5):669-673. 被引量：25
3黄高辉,姚天昉,刘全升.基于CRF算法的汉语比较句识别和关系抽取[J].计算机应用研究,2010,27(6):2061-2064. 被引量：22
4郝媛媛,叶强,李一军.基于影评数据的在线评论有用性影响因素研究[J].管理科学学报,2010,13(8):78-88. 被引量：238
5王锦,王会珍,张俐.基于维基百科类别的文本特征表示[J].中文信息学报,2011,25(2):27-31. 被引量：16
6周傲英,周敏奇,宫学庆.计算广告:以数据为核心的Web综合应用[J].计算机学报,2011,34(10):1805-1819. 被引量：59
7杨震,赖英旭,段立娟,李玉鑑.基于上下文重构的短文本情感极性判别研究[J].自动化学报,2012,38(1):55-67. 被引量：21
8陈琳,王箭.三种中文文本自动分类算法的比较和研究[J].计算机与现代化,2012(2):1-4. 被引量：6
9张成功,刘培玉,朱振方,方明.一种基于极性词典的情感分析方法[J].山东大学学报（理学版）,2012,47(3):47-50. 被引量：52
10杨铭,祁巍,闫相斌,李一军.在线商品评论的效用分析研究[J].管理科学学报,2012,15(5):65-75. 被引量：85

引证文献6

1魏超,罗森林,张竞,潘丽敏.自编码网络短文本流形表示方法[J].浙江大学学报（工学版）,2015,49(8):1591-1599. 被引量：6
2王伟,王洪伟.面向竞争力的特征比较网络:情感分析方法[J].管理科学学报,2016,19(9):109-126. 被引量：18
3胡杨,冯旭鹏,黄青松,付晓东,刘骊,刘利军.面向短文本情感分类的特征拓扑聚合模型[J].中文信息学报,2016,30(5):28-35. 被引量：3
4杜永萍,陈守钦,赵晓铮.基于特征扩展与深度学习的短文本情感判定方法[J].计算机科学,2017,44(10):283-288. 被引量：4
5郭小芬,刘聪,李炜.SVM在中文广告分类中的应用[J].电信技术,2017(10):73-76. 被引量：1
6梁野,裘乐淼,刘晓健,张树有,谭建荣.基于设计情境与脑机反馈融合的产品设计知识需求感知技术[J].机械工程学报,2020,56(7):151-163. 被引量：8

二级引证文献40

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2孙瑞安,张云华.结合AdaBERT的TextCNN垃圾弹幕识别和过滤算法[J].智能计算机与应用,2021,11(4):9-13. 被引量：4
3贺敏,陈宏君.图形化程序特征码的算法设计与应用[J].单片机与嵌入式系统应用,2017,17(2):7-10. 被引量：5
4吴应良,黄媛,王选飞.在线中文用户评论研究综述:基于情感计算的视角[J].情报科学,2017,35(6):159-163. 被引量：17
5刘晓君,那日萨,崔雪莲.基于隐含狄利克雷分配模型的消费者在线评论复杂网络构建及其应用[J].系统工程学报,2017,32(3):305-312. 被引量：10
6俸世洲,周尚波.基于深度自编码网络的高校招生咨询算法[J].计算机应用,2017,37(11):3323-3329. 被引量：2
7陈果,朱茜凌,肖璐.任务分解视角下企业产品多源融合型竞争情报研究[J].图书情报工作,2017,61(22):127-133. 被引量：7
8黄贤英,熊李媛,刘英涛,李沁东.基于类别特征改进的KNN短文本分类算法[J].计算机工程与科学,2018,40(1):148-154. 被引量：23
9卢伟聪,徐健.基于二分网络的网络用户评论情感分析[J].情报理论与实践,2018,41(2):121-126. 被引量：11
10王树义,廖桦涛,吴查科.基于情感分类的竞争企业新闻文本主题挖掘[J].数据分析与知识发现,2018,2(3):70-78. 被引量：31

1研扬科技PC／104 CPU模块又添新品--PFR-540I[J].可编程控制器与工厂自动化（PLC FA）,2006(12):24-24.
2卢志翔,蒙丽莉.文本分类中特征项权重算法的改进[J].柳州师专学报,2011,26(4):128-131. 被引量：1
3张佳明,王波,唐浩浩,李天彩.基于Biterm主题模型的无监督微博情感倾向性分析[J].计算机工程,2015,41(7):219-223. 被引量：13
4王颖,杨义先,钮心忻,谷利泽.基于控制流序位比对的智能Fuzzing测试方法[J].通信学报,2013,34(4):114-121. 被引量：6
5王岁花,张晓丹,王越.基于关系数据库的OWL本体存储及查询方法[J].河南师范大学学报（自然科学版）,2012,40(2):159-163. 被引量：2
6邬皓天.微博在网络营销中的应用[J].河南科技,2012,31(6):16-17. 被引量：2
7刘燕,孙利民,杨晓东,王志英.PFR:一个基于平面的完全自适应路由器[J].计算机学报,1998,21(10):865-872.
8雷一鸣,刘勇,霍华.面向网络语言基于微博语料的新词发现方法[J].计算机工程与设计,2017,38(3):789-794. 被引量：11
9师智斌,黄厚宽,刘红敏.一种保持语义的压缩数据立方体结构[J].计算机工程,2008,34(13):37-39. 被引量：2
10薛婧,李斌.基于硅光电池的电荷放大器性能测试信号发生器[J].仪表技术与传感器,2009(7):60-62. 被引量：4

浙江大学学报（工学版）

2014年第10期

浏览历史

内容加载中请稍等...

基于伪相关反馈的短文本扩展与分类被引量：6

参考文献13

二级参考文献17

共引文献31

同被引文献51

引证文献6

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于伪相关反馈的短文本扩展与分类 被引量：6

参考文献13

二级参考文献17

共引文献31

同被引文献51

引证文献6

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于伪相关反馈的短文本扩展与分类被引量：6