期刊文献+

融入新闻标题信息的新闻文本与评论的语义相似度计算方法

Semantic Similarity Calculation Method of News Text and Comment Integrated with News Title Information
下载PDF
导出
摘要 针对预训练模型在处理新闻这种长文本时会截断一部分文本,导致文本信息缺失的问题,提出一种在融入新闻标题信息基础上将TextRank算法、隐含Dirichlet分布主题模型与预训练模型相结合的方法构建模型,并将该模型与其他语义相似度计算方法进行对比.结果表明,该模型准确率为82.46%,召回率为87.43%,精确率为82.68%,F 1值为84.99%,取得了最优结果,从而有效提高了新闻文本与评论的语义相似度计算性能. Aiming at the problem that the pre-training model would cut off part of text when dealing with long text such as news,which led to the loss of text infomation,we proposed a method to build a model by combining TextRank algorithm,implicit Dirichlet distribution topic model and pre-training model on the basis of integrating news title information,and compared the model with other semantic similarity calculation methods.The results show that the accuracy rate of the model is 82.46%,the recall rate is 87.43%,the accuracy rate is 82.68%,and the F 1 value is 84.99%,the optimal results are obtained,which effectively improves the performance of semantic similarity calculation between news texts and comments.
作者 李伊仝 王红斌 程良 LI Yitong;WANG Hongbin;CHENG Liang(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650504,China;College of City,Kunming University of Science and Technology,Kunming 650051,China)
出处 《吉林大学学报(理学版)》 CAS 北大核心 2022年第6期1399-1406,共8页 Journal of Jilin University:Science Edition
基金 国家自然科学基金(批准号:61966020) 云南省基础研究计划面上项目(批准号:CB22052C143A) 云南省教育厅科学研究基金(批准号:2018JS035).
关键词 语义相似度 预训练模型 隐含Dirichlet分布 新闻评论 semantic similarity pre-training model implicit Dirichlet distribution news comment
  • 相关文献

参考文献10

二级参考文献84

  • 1于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量:17
  • 2王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量:9
  • 3刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量:37
  • 4谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
  • 5胡春光,高燕,李颖.一种扩展滑动窗口算法[J].微电子学与计算机,2007,24(8):106-109. 被引量:6
  • 6Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
  • 7Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
  • 8Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
  • 9Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
  • 10Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.

共引文献347

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部