一种融合Wikipedia类图和主题特征的短文本检索方法被引量：1

A short text retrieval method combining Wikipedia category graph and topic features

下载PDF

导出

摘要社交网络的快速发展催生出大量短文本数据.鉴于短文本具有长度短、信息量少、特征稀疏、语法不规则等特点,根据Wikipedia类图(Wikipedia Category Graph,WCG)中包含的结构信息,通过分析其中的主题特征,提出一种语义特征选择及关联度计算方法.以此为基础,通过计算用户查询与目标短文本之间的语义关联度,实现对短文本的检索和排序.最后通过在Twitter子集上的实验结果表明,融合Wikipedia类图和主题特征的短文本检索方法比现有一些检索方法在评估指标MAP,P@k及R-Prec上具有更好的效果. The rapid development of social networks has resulted in a large number of short text data.Considering the short length,little information,sparse features and irregular grammar,a semantic feature selection and relatedness computation method are proposed in this paper,which is based on the analysis of the topic features of the structural information contained in the Wikipedia category graph(WCG).On this basis,according to computing the semantic relatedness between user queries and the target short text,a short text retrieval and sorting method is realized.Finally,the experimental results on twitter subsets show that the short text retrieval method combining Wikipedia category graph and topic features outperforms other current retrieval methods on MAP,P@k and R-Prec.

作者李璞肖宝孙玉胜张志锋邓璐娟 Li Pu;Xiao Bao;Sun Yusheng;Zhang Zhifeng;Deng Lujuan(Software Engineering College,Zhengzhou University of Light Industry,Zhengzhou 450000,China;School of Electronics and Information Engineering,Beibu Gulf University,Qinzhou 535000,China)

机构地区郑州轻工业大学软件学院北部湾大学电子与信息工程学院

出处《河南师范大学学报（自然科学版）》 CAS 北大核心 2019年第6期22-30,共9页 Journal of Henan Normal University(Natural Science Edition)

基金国家自然科学基金青年科学基金(61802352) 国家自然科学基金(61772210 61872439) 郑州轻工业大学博士科研基金资助(0215/13501050015) 郑州轻工业大学校级青年骨干教师培养对象资助计划(2018XGGJS006) 钦州市科学研究与技术开发计划项目(20189903) 广西高校中青年教师基础能力提升项目(KY2019KY0463)

关键词 Wikipedia类图主题特征短文本信息检索 Wikipedia category graph topic features short text information retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Jiliang TANG Xufei WANG Huiji GAO Xia HU Huan LIU.Enriching short text representation in microblog for clustering[J].Frontiers of Computer Science,2012,6(1):88-101. 被引量：14
2肖宝,李璞,胡娇娇,蒋运承.基于潜在语义与图结构的微博语义检索[J].计算机工程,2017,34(6):182-188. 被引量：4
3刘德喜,付淇,韦亚雄,万常选,刘喜平,钟敏娟,邱家洪.基于多重增强图和主题分析的社交短文本检索方法[J].中文信息学报,2018,32(3):110-119. 被引量：5
4李璞,张志锋,杨百冰,肖宝,蒋运承.融合Wikipedia分类结构及显式语义特征的短文本检索[J].河南农业大学学报,2019,53(2):257-265. 被引量：1
5王仲远,程健鹏,王海勋,文继荣.短文本理解研究[J].计算机研究与发展,2016,53(2):262-269. 被引量：50
6韩中元,杨沐昀,孔蕾蕾,齐浩亮,李生.基于词汇时间分布的微博查询扩展[J].计算机学报,2016,39(10):2031-2044. 被引量：10

二级参考文献68

1Adamic L A,Zhang J,Bakshy E,Ackerman M S. Knowledge sharing and yahoo answers:everyone knows something[A].2008.665-674.
2Hotho A,Staab S,Stumme G. Wordnet improves text document clustering[A].2003.541-544.
3Reforgiato Recupero D. A new unsupervised method for document clustering by using WordNet lexical and conceptual relations[J].Informarion Retrieval,2007,(06):563-579.doi:10.1007/s10791-007-9035-7.
4Hu J,Fang L,Cao Y,Zeng H J,Li H,Yang Q,Chen Z. Enhancing text clustering by leveraging Wikipedia semantics[A].2008.179-186.
5Hu X,Zhang X,Lu C,Park E K,Zhou X. Exploiting Wikipedia as external knowledge for document clustering[A].2009.389-396.
6Blei D M,Ng A Y,Jordan M I. Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003.993-1022.
7Hofraann T. Probabilistic latent semantic indexing[A].1999.50-57.
8Xu W,Liu X,Gong Y. Document clustering based on non-negative matrix factorization[A].2003.267-273.
9Lin C J. Projected gradient methods for non-negative matrix factorization[J].Neural Computation,2007,(10):2756-2779.doi:10.1162/neco.2007.19.10.2756.
10Cutting D R,Pedersen J O,Karger D R,Tukey J W. Scatter/gather:a cluster-based approach to browsing large document collections[A].1992.318-329.

共引文献76

1孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
2文莎.基于神经网络的文本分类[J].信息通信,2019,0(12):173-174.
3王连喜.微博短文本预处理及学习研究综述[J].图书情报工作,2013,57(11):125-131. 被引量：36
4刘勘,袁蕴英.基于自动编码器的短文本特征提取及聚类研究[J].北京大学学报（自然科学版）,2015,51(2):282-288. 被引量：33
5田刚,何克清,高莹,黄颖.迁移知识辅助的语义稀疏服务聚类方法[J].四川大学学报（工程科学版）,2015,47(5):116-122. 被引量：1
6刘磊,许志刚,蔡海博,王石.基于转发评论的微博语义扩充和分类方法[J].北京工业大学学报,2015,41(10):1528-1536.
7马慧芳,贾美惠子,李晓红,鲁小勇.一种基于标签关联关系的微博推荐方法[J].计算机工程,2016,42(4):197-201. 被引量：9
8Xueliang LIU,Meng WANG,Benoit HUET.Event analysis in social multimedia： a survey[J].Frontiers of Computer Science,2016,10(3):433-446. 被引量：1
9张海涛,王斌君,王靖亚.基于背景重构与边缘相关短文本特征选择方法[J].武汉大学学报（工学版）,2016,49(3):469-475. 被引量：1
10张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):27-35. 被引量：40

同被引文献10

1姚丽华,于广州.关系型数据库信息资源检索结果分类方法仿真[J].计算机仿真,2019,36(1):445-448. 被引量：5
2张倩倩,田学东,杨芳,李新福.基于数学文本和表达式转换的融合检索模型[J].计算机工程,2019,45(3):175-181. 被引量：4
3覃遵跃,汤庸,徐洪智,黄云.基于关键字密度的XML关键字检索[J].软件学报,2019,30(4):1062-1077. 被引量：6
4邵丝媞.基于空间信息支持的图书馆个性化资源集成系统设计[J].现代电子技术,2019,42(18):112-115. 被引量：7
5黄名选,夏国恩,高荣,蒋曹清.融合加权模式挖掘与规则混合扩展的跨语言检索[J].小型微型计算机系统,2019,40(9):2013-2020. 被引量：11
6李牧闲,桂志鹏,成晓强,吴华意,秦昆.多核学习与用户反馈结合的WMS图层检索方法[J].测绘学报,2019,48(10):1320-1330. 被引量：7
7王留洋,俞扬信,陈伯伦,章慧.基于共识和分类改善文档聚类的识别信息方法[J].计算机应用,2020,40(4):1069-1073. 被引量：6
8李茜,周华健,杨浩运,殷海兵.一种基于listwise的在线学习书目排序检索算法[J].计算机工程与科学,2020,42(4):749-754. 被引量：6
9马路遥,夏博,肖叶,荀恩东.面向句法结构的文本检索方法研究[J].电子学报,2020,48(5):833-839. 被引量：4
10于晓明,史胜楠,甘克勤.基于Solr的标准信息检索技术及其优化[J].科学技术与工程,2020,20(4):1504-1508. 被引量：13

引证文献1

1顾志芹.图书馆信息库资源自动检索方法研究[J].自动化技术与应用,2023,42(11):77-81. 被引量：1

二级引证文献1

1谢颖.基于哈希学习算法的专业课程资源库安全检索方法[J].计算机应用文摘,2024,40(17):191-194.

1电竞视野[J].微型计算机,2019,0(22):72-73.
2本刊编辑部.CINITY影院系统落地百老汇李安《双子杀手》成首批放映影片——百老汇与华夏电影CINITY影院系统签约仪式圆满举行[J].影视制作,2019,25(8):38-39. 被引量：3
3ZHANG Lifeng,SHEN Kechao,JIANG Yongtao,GUO Yu,LIU Yi,GUO Shouwu.Direct Pyrolysis of Molybdophosphate-based Ionic Salt for One-step Synthesis of N,P Co-doped Carbon/Mo03-x Hybrids with Superior Lithium Storage Performance[J].Chemical Research in Chinese Universities,2019,35(5):842-847.

河南师范大学学报（自然科学版）

2019年第6期

浏览历史

内容加载中请稍等...

一种融合Wikipedia类图和主题特征的短文本检索方法被引量：1

参考文献6

二级参考文献68

共引文献76

同被引文献10

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种融合Wikipedia类图和主题特征的短文本检索方法 被引量：1

参考文献6

二级参考文献68

共引文献76

同被引文献10

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种融合Wikipedia类图和主题特征的短文本检索方法被引量：1