基于集成学习的跨语言文本主题发现方法研究

Cross-lingual Text Topic Discovery Based on Ensemble Learning

下载PDF

导出

摘要跨语言文本主题发现是跨语言文本挖掘领域的重要研究方向,对跨语言文本分析和组织各种文本数据具有较高的应用价值。基于Bagging和跨语言词嵌入改进LDA主题模型,提出跨语言文本主题发现方法BCL-LDA(Bagging,Cross-lingual word embedding with LDA),从多语言文本中挖掘关键信息。该方法首先将Bagging集成学习思想与LDA主题模型结合生成混合语言子主题集;然后利用跨语言词嵌入和K-means算法对混合子主题进行聚类分组;最后使用TF-IDF算法对主题词进行过滤排序。汉语-德语、汉语-法语主题发现实验表明,该方法在主题连贯性和多样性方面均表现优异,能够提取出语义更加相关且主题更加连贯多样的双语主题。 Cross-lingual text topic discovery is an important research direction in the field of cross-lingual text mining,and it has high application value for cross-lingual text analysis and organization of various text data.Based on Bagging and cross-lingual word embedding to improve the LDA topic model,a cross-lingual text topic discovery method BCL-LDA(Bagging,cross-lingual word embedding with LDA)is proposed to mine key information from multilingual text.This method first combines the Bagging integrated learning idea with the LDA topic model to generate a mixed language subtopic set.Then it uses cross-lingual word embedding and K-means algorithm to cluster and group the mixed subtopics.Finally,the TF-IDF algorithm is used to filter and sort the subject words.The Chinese-German and Chinese-French topic discovery experiments show that this method performs well in terms of topic coherence and diversity,and can extract bilingual topics with more relevant semantics and more coherent and diverse topics.

作者李帅于娟巫邵诚 LI Shuai;YU Juan;WU Shaocheng(School of Economics and Management,Fuzhou University,Fuzhou 350108,China)

机构地区福州大学经济与管理学院

出处《计算机科学》 CSCD 北大核心 2024年第S01期182-189,共8页 Computer Science

基金国家自然科学基金(71771054,72171090)。

关键词主题发现跨语言 LDA 主题聚类德语法语 Topic discovery Cross-lingual LDA Topic clustering German French

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1戴宏亮,钟国金,游志铭,戴宏明.基于Spark的舆情情感大数据分析集成方法[J].计算机科学,2021,48(9):118-124. 被引量：12
2梁兵涛,倪云峰.基于集成学习的中文命名实体识别方法[J].南京师大学报（自然科学版）,2022,45(3):123-131. 被引量：3
3杨威亚,余正涛,高盛祥,宋燃.基于跨语言神经主题模型的汉越新闻话题发现方法[J].计算机应用,2021,41(10):2879-2884. 被引量：6
4陈兴蜀,罗梁,王海舟,王文贤,高悦.基于ICE-LDA模型的中英文跨语言话题发现研究[J].工程科学与技术,2017,49(2):100-106. 被引量：7
5余圆圆,巢文涵,何跃鹰,李舟军.基于双语主题模型和双语词向量的跨语言知识链接[J].计算机科学,2019,46(1):238-244. 被引量：6
6简梓炜,于娟.基于特征词配对的德语文本聚类方法研究[J].情报探索,2022(9):86-93. 被引量：1
7冯笑,杨雅婷,董瑞,艾孜麦提·艾尼瓦尔,马博.基于回译和集成学习的维汉神经机器翻译方法[J].兰州理工大学学报,2022,48(5):99-106. 被引量：4

二级参考文献30

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
2徐晓日.网络舆情事件的应急处理研究[J].华北电力大学学报（社会科学版）,2007(1):89-93. 被引量：141
3章成志,王惠临.多语言文本聚类研究综述[J].现代图书情报技术,2009(6):31-36. 被引量：4
4于娟,党延忠.结合词性分析与串频统计的词语提取方法[J].系统工程理论与实践,2010,30(1):105-111. 被引量：19
5李睿,张九蕊,毛莉.基于AdaBoost的弱分类器选择和整合算法[J].兰州理工大学学报,2012,38(2):87-90. 被引量：6
6周刚,邹鸿程,熊小兵,黄永忠.MB-SinglePass:基于组合相似度的微博话题检测[J].计算机科学,2012,39(10):198-202. 被引量：24
7刘乐平,高磊,杨娜.MCMC方法的发展与现代贝叶斯的复兴——纪念贝叶斯定理发现250周年[J].统计与信息论坛,2014,29(2):3-11. 被引量：11
8高盛祥,余正涛,龙文旭,丁硙,闫春婷.基于全局/局部共现词对分布的汉越双语新闻事件线索分析[J].中文信息学报,2015,29(6):90-97. 被引量：1
9夏青,严馨,余正涛,汪建成,高盛祥,洪旭东.融合要素及主题的汉越双语新闻话题分析[J].计算机工程,2016,42(9):186-191. 被引量：3
10陈兴蜀,罗梁,王海舟,王文贤,高悦.基于ICE-LDA模型的中英文跨语言话题发现研究[J].工程科学与技术,2017,49(2):100-106. 被引量：7

共引文献32

1邹统钎,李艳,王怡宁.国家文化公园视域下长江精神价值诠释与传播研究[J].中华文化与传播研究,2023(1):86-96. 被引量：1
2孙明溪,刘春琦.基于DBSCAN算法与句间关系的热点话题发现研究[J].图书情报工作,2017,61(12):113-121. 被引量：7
3刘伟.“一带一路”倡议下国内外新闻舆情及其演化分析[J].统计与信息论坛,2018,33(6):34-42. 被引量：6
4李开成,王翼娴.基于双语LDA的列控系统需求规范差异性分析[J].铁道通信信号,2019,55(4):1-5. 被引量：1
5代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀,王海舟,罗梁.基于层次聚类的子话题检测算法[J].华南理工大学学报（自然科学版）,2019,47(8):84-95. 被引量：11
6韩肖赟,侯再恩,孙绵.主题模型在短文本上的应用研究[J].计算机工程与科学,2020,42(1):144-152. 被引量：1
7余传明,王曼怡,安璐.跨语言情境下基于对抗的实体关系抽取模型研究[J].图书情报工作,2020,64(17):131-144.
8余传明,王峰,安璐.基于深度学习的跨语言词汇对齐模型研究[J].情报理论与实践,2020,43(9):150-158. 被引量：3
9杨威亚,余正涛,高盛祥,宋燃.基于跨语言神经主题模型的汉越新闻话题发现方法[J].计算机应用,2021,41(10):2879-2884. 被引量：6
10王浩.基于深度学习的情感分析系统设计[J].信息与电脑,2021,33(19):80-82.

1车志宏,吕峰.基于随机森林的集成算法研究[J].电脑编程技巧与维护,2024(5):48-50. 被引量：2
2于曦.基于CWTS排名的论文层面主题分布研究——以图书情报学国际期刊为例[J].中国科技期刊研究,2024,35(3):400-407.
3曹玲静,张志强.二十一世纪以来美国科技政策主题分析及发展态势研判[J].情报学报,2024,43(5):616-632.
4盘育丹,刘霄,杨满思,王人玉.漫步与情境营造言子书院设计笔记[J].时代建筑,2024(1):130-135.
5Transformative Translation[J].Women of China,2024(5):10-10.
6王志雄.基于深度学习的目标说话人语音提取[J].电脑知识与技术,2024,20(10):37-40.
7李云兵.五屯话的比较结构[J].民族语文,2023(6):58-72.
8Vaishali Amarlal Sadhwani,Nilima Prakash,GLPradeep,Rekha Patil,Shubhechha Anand Khivsara,Sabiha Mokashi Khan.Nonmetric Traits in Permanent Teeth as Clues to Ethnicity in Vidarbha Subpopulation to Aid Forensic Profiling:Pilot Study[J].Journal of Forensic Science and Medicine,2024,10(1):11-19.

计算机科学

2024年第S01期

浏览历史

内容加载中请稍等...

基于集成学习的跨语言文本主题发现方法研究

参考文献7

二级参考文献30

共引文献32

相关作者

相关机构

相关主题

浏览历史