考虑主题兴趣和领域权威的问答社区专家推荐研究

Expert Recommendation in Q&A Community Based on Topic Interest and Domain Authority

导出

摘要【目的】对用户历史问答文本实现考虑上下文语义信息的主题识别,进而提升问答社区专家推荐的准确度。【方法】通过构建BERT-LLDA模型,将BERT模型与Labeled-LDA主题模型相结合,充分利用标签信息对用户历史问答文本进行向量化,通过降维和主题聚类实现考虑上下文语义信息的主题识别,获得用户的主题兴趣概率分布;根据主题兴趣挖掘结果构建主题敏感PageRank算法(TSPR),并加入用户质量权重迭代计算用户的领域权威;基于此得到考虑主题兴趣和领域权威的问答社区专家推荐算法TIDARank,为新问题推荐潜在回答专家。【结果】基于Stack Exchange公开数据集,BERT-LLDA模型经过主题聚类后相比TF-IDF、BERT、BERT-LDA等对比模型具有更高的轮廓系数(0.5756)和主题连贯性(0.4766);TIDARank算法的最佳回答者命中率ACC@20和平均倒数排名MRR@20分别为0.5807和0.2430,相比于表现最优的对比模型BiLSTM+TSPR分别提升0.145和0.081。【局限】在链接分析中未考虑用户的活跃情况。【结论】BERT-LLDA模型不仅可以优化主题聚类的效果,且有助于提升问答社区专家推荐的性能。 [Objective]This paper aims to enhance the accuracy of expert recommendations in Q&A communities based on topics of users’historical Q&A texts and contextual information.[Methods]First,we combined the BERT model with the Labeled-LDA model.Then,we utilized the label information to vectorize users’historical Q&A texts.Third,we identified contextual topics with dimension reduction and topic clustering.We also obtained the probability distribution of the expert’s topic interests.Fourth,based on the results of topic interest mining,we constructed the Topic Sensitive PageRank Algorithm(TSPR).We used the users’quality weight to calculate their domain authority iteratively.From this,we proposed the TIDARank algorithm for expert recommendation.[Results]Based on the Stack Exchange public dataset,the BERT-LLDA model outperformed TF-IDF,BERT,and BERT-LDA models on silhouette coefficient(0.5756)and topic coherence(0.4766).The ACC@20 and MRR@20 of TIDARank reached 0.5807 and 0.2430,respectively,improved by 0.145 and 0.081 compared with the bestperforming Bi-LSTM+TSPR baseline algorithm.[Limitations]We did not consider user activity in link analysis.[Conclusions]The BERT-LLDA model could optimize topic clustering for question-answering texts and improve the performances of expert recommendations in Q&A communities.

作者李明珠米传民苟小义肖琳 Li Mingzhu;Mi Chuanmin;Gou Xiaoyi;Xiao Lin(College of Economics and Management,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)

机构地区南京航空航天大学经济与管理学院

出处《数据分析与知识发现》 EI CSCD 北大核心 2024年第5期68-79,共12页 Data Analysis and Knowledge Discovery

基金教育部人文社会科学基金项目(项目编号:20YJC630163)的研究成果之一。

关键词社区问答专家推荐 BERT Labeled-LDA PAGERANK Community Question Answering Expert Recommendation BERT Labeled-LDA PageRank

分类号 G203 [文化科学—传播学] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1Jian WANG,Jiqing SUN,Hongfei LIN,Hualei DONG,Shaowu ZHANG.Convolutional neural networks for expert recommendation in community question answering[J].Science China(Information Sciences),2017,60(11):15-23. 被引量：12
2庄穆妮,李勇,谭旭,毛太田,蓝凯城,邢立宁.基于BERT-LDA模型的新冠肺炎疫情网络舆情演化仿真[J].系统仿真学报,2021,33(1):24-36. 被引量：28
3阮光册,黄韵莹.融合Sentence-BERT和LDA的评论文本主题识别[J].现代情报,2023,43(5):46-53. 被引量：10
4王秀红,高敏.基于BERT-LDA的关键技术识别方法及其实证研究——以农业机器人为例[J].图书情报工作,2021,65(22):114-125. 被引量：44
5潘有能,倪秀丽.基于Labeled-LDA模型的在线医疗专家推荐研究[J].数据分析与知识发现,2020,4(4):34-43. 被引量：13
6Hong Li,Jianjun Li,Guohui Li,Rong Gao,Lingyu Yan.Expert Recommendation in Community Question Answering via Heterogeneous Content Network Embedding[J].Computers, Materials & Continua,2023(4):1687-1709. 被引量：1
7Xianzhi Wang,Chaoran Huang,Lina Yao,Boualem Benatallah,Manqing Dong.A Survey on Expert Recommendation in Community Question Answering[J].Journal of Computer Science & Technology,2018,33(4):625-653. 被引量：13
8唐果媛.基于共词分析法的学科主题演化研究方法的构建[J].图书情报工作,2017,61(23):100-107. 被引量：25
9董文慧,熊回香,杜瑾,王妞妞.基于学者画像的科研合作者推荐研究[J].数据分析与知识发现,2022,6(10):20-34. 被引量：8

二级参考文献63

1张学梅.h_m指数——对h指数的修正[J].图书情报工作,2007,51(10):116-118. 被引量：43
2郭景萍.社会公共安全视野下的情感安全调控[J].湖南师范大学社会科学学报,2009,38(2):87-90. 被引量：10
3肖明,杨楠,李国俊.基于共词分析的我国用户信息行为研究结构探讨[J].情报杂志,2010,29(B12):12-15. 被引量：15
4赵蓉英,温芳芳.科研合作与知识交流[J].图书情报工作,2011,55(20):6-10. 被引量：79
5邱均平,刘艳玲.近10年我国合著现象的研究进展[J].图书情报工作,2011,55(20):11-14. 被引量：19
6杨爱青,马秀峰,张风燕,薛卫双.g指数在共词分析主题词选取中的应用研究[J].情报杂志,2012,31(2):52-55. 被引量：117
7朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012,41(2):163-175. 被引量：250
8周玉芳.知识图谱视野下科技查新研究的发展分析[J].现代情报,2012,32(6):25-28. 被引量：8
9邓少伟,罗泽,李树仁,阎保平.基于论文共同作者学术关系的学者推荐系统[J].计算机工程,2013,39(2):12-17. 被引量：7
10郭颍涛,杨思洛,邝飘.中外图书情报学科合作模式比较研究[J].情报理论与实践,2013,36(10):120-123. 被引量：18

共引文献141

1王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
2张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40.
3王秀红,王同玉.融合SAO和BERT-LDA的古籍保护关键技术识别研究[J].汉字文化,2024(4):198-201.
4Yunpeng XIAO,Xixi LI,Yuanni LIU,Hong LIU,Qian LI.Correlations multiplexing for link prediction in multidimensional network spaces[J].Science China(Information Sciences),2018,61(11):44-62. 被引量：1
5何伟林,奉国和,谢红玲.基于CSToT模型的科技文献主题发现与演化研究[J].数据分析与知识发现,2018,2(11):64-72. 被引量：6
6黄晓斌,罗海媛.国内竞争情报研究主题的演化与热点发展——基于中国科技情报学会竞争情报分会年会论文分析[J].现代情报,2019,39(1):126-136. 被引量：6
7刘玉琴,刘晶,张勇斌.中国图书情报领域专利研究的计量分析[J].情报工程,2018,4(6):87-97. 被引量：12
8于丰畅,陆伟.关键词共现网络视角下的学科基础词汇发现[J].图书情报工作,2019,63(9):95-100. 被引量：8
9刘晶.3D打印金属骨骼植入物专利分析[J].北京印刷学院学报,2019,27(3):92-99. 被引量：2
10刘迎春,朱旭,谢年春,李佳.基于数据挖掘的专业可信回答者个性化推荐——以Stack Overflow问答社区为例[J].现代教育技术,2019,29(5):78-84. 被引量：4

1田枫,刘超,刘芳,姜文文,徐昕,赵玲.基于改进PointPillars的激光雷达三维目标检测[J].激光与光电子学进展,2024,61(8):225-234.
2赵涵,李康.基于主题建模和NLP预测MOOC学习者的课程兴趣[J].科技与创新,2023(15):129-132.
3技术前沿[J].金融电子化,2024(1):93-93.
4罗文华,许中华.融合主题聚类与层次分析的涉警舆情意见领袖影响力研究[J].中国刑警学院学报,2023(3):112-120. 被引量：1
5丁凯孟,徐楠,吕东,徐琴,马冀.面向高分影像完整性认证的主题敏感哈希算法[J].地理与地理信息科学,2023,39(4):23-28. 被引量：2
62023年度全国老年人权益保护典型案例[J].中国老年,2024(12):8-9.
7刘宝川,张莉,刘桢炜,蒋竞.开源软件缺陷的跨项目相关问题推荐方法[J].软件学报,2024,35(5):2340-2358.
8刘晓旭.主题网络爬虫研究综述[J].电脑知识与技术,2024,20(8):97-99. 被引量：1
9许中华,罗文华.基于PAD模型的涉警舆情意见领袖影响力分析[J].佛山科学技术学院学报（自然科学版）,2023,41(4):72-80.
10陶天然.面向用水结构研究领域的多阶段实体关系联合抽取方法[J].现代计算机,2024,30(8):103-107.

数据分析与知识发现

2024年第5期

浏览历史

内容加载中请稍等...

考虑主题兴趣和领域权威的问答社区专家推荐研究

参考文献9

二级参考文献63

共引文献141

相关作者

相关机构

相关主题

浏览历史