基于种子词汇的话题标签抽取研究被引量：7

Topic Label Extraction Based on Seed Words

下载PDF

导出

摘要传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足。该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法。首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapping思想,迭代产生包含种子词汇的关键短语集合,最后根据短语的完整性和泛化度选择话题标签。该文对两会报告话题和新闻事件话题进行实验,通过结果展示和人工评测,该方法抽取的话题标签能够较准确地表达话题的语义信息。 Traditional topic models use word probability distribution to represent topics.These words are difficult to be understandable and express a consistent meaning.This paper proposed a topic label extraction method based on seed words.The method first extracts topic seed words according to weight formulas,then uses bootstrapping algorithm to generate a key phrase set that contains seed words.Finally,the method selects topic label from the key phrase set according to the integrity and generalization of a phrase.The experiments were made on two corpora.One is topic oriented reports,the other is event based news reports.According to the experimental results,the method work well in extracting a meaningful phrase to represent a topic.

作者寇宛秋李芳

机构地区上海交通大学计算机科学与工程系

出处《中文信息学报》 CSCD 北大核心 2013年第5期114-121,143,共9页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60873134)

关键词话题标签种子词抽取 bootstrapping算法 topic labelling seed words extraction bootstrapping method

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Blei David,Ng Andrew,Jordan Michael.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.
2徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：233
3Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]//Proceedings of the 20th conference on uncertainty in artificial intelligence.AUAI Press,2004:487-494.
4Ruifeng XU,Lu YE.Reader's Emotion Prediction Based on Weighted Latent Dirichlet Allocation and Multi-label k-nearest Neighbor Model[J].Journal of Computational Information System,2013,9:6.
5Johri N,Roth D,Tu Y.Experts' retrieval with multiword-enhanced author topic model.Proceedings of the NAACL HLT 2010 workshop on semantic search[C]//Proceedings of Association for Computational Linguistics,2010:10-18.
6William Darling,Fei Song.Probabilistic Topic and Syntax Modeling with Part-of-Speech LDA[C]//Proceedings of Association for Computational Linguistics.2005.
7Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[J].Advances in neural information processing systems,2005,17:537-544.
8Allison J.B.Chaney,David M.Blei.Visualizing Topic Models[C]//Proceedings of Association for the Advancement of Artificial Intelligence.2012.
9Teh Y W,Jordan M I,Beal M J,et al.Hierarchical dirichlet processes[J].Journal of the American Statistical Association,2006,101(476).
10Blei D M,Lafferty J D.Visualizing topics with multiword expressions[J].arXiv preprint arXiv:0907.1013,2009.

二级参考文献62

1Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990.
2Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57.
3Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022.
4Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235.
5Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006.
6Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchical dirichlet processes. Technical Report 653. UC Berkeley Statistics, 2004.
7Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, 1977, B39(1): 1-38.
8Bishop C M. Pattern Recognition and Machine Learning. New York, USA: Springer, 2006.
9Roweis S. EM algorithms for PCA and SPCA//Advances in Neural Information Processing Systems. Cambridge, MA, USA: The MIT Press, 1998, 10.
10Hofmann T. Probabilistic latent semantic analysis//Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence. Stockholm, Sweden, 1999:289- 296.

共引文献232

1刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
2汤雁冰.氧化铜铁矿石中伴生金银的回收[J].有色矿山,2000,29(3):28-31. 被引量：2
3阳小兰,钱程.基于主题提取和记忆模型的新闻推荐系统设计[J].计算机与数字工程,2012,40(6):47-50. 被引量：1
4周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
5陈叶旺,王华珍,李海波,钟必能,陈锻生.基于百度百科与文本分类的网络文本语义主题抽取方法[J].小型微型计算机系统,2012,33(12):2605-2610. 被引量：9
6乐小虬,洪娜.面向社会文本流数据探测爆发主题方法浅析[J].现代图书情报技术,2012(10):21-27.
7朱然,李德华.新闻聚合系统中的数据挖掘技术初探[J].电脑知识与技术,2013(1):148-151. 被引量：2
8许冶冰,刘超.基于主题的文档与代码间关联关系的提取研究[J].计算机工程与应用,2013,49(5):70-76. 被引量：3
9方锴.专家检索研究综述[J].科协论坛（下半月）,2013(2):102-104. 被引量：1
10李春英,汤庸,陈国华,汤志康.面向学术社区的专家推荐模型[J].智能系统学报,2012,7(4):365-369. 被引量：11

同被引文献52

1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
2贺敏,王丽宏,杜攀,张瑾,程学旗.基于有意义串聚类的微博热点话题发现方法[J].通信学报,2013,34(S1):256-262. 被引量：12
3于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
4雷震,吴玲达,雷蕾,黄炎焱.初始化类中心的增量K均值法及其在新闻事件探测中的应用[J].情报学报,2006,25(3):289-295. 被引量：25
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
7伍星,何中市,黄永文.基于弱监督学习的产品特征抽取[J].计算机工程,2009,35(13):199-201. 被引量：10
8李凯,王兰.层次聚类的簇集成方法研究[J].计算机工程与应用,2010,46(27):120-123. 被引量：11
9钟晓旭,胡学钢.基于数据挖掘的Web招聘信息相关性分析[J].安徽建筑工业学院学报（自然科学版）,2010,18(4):93-96. 被引量：11
10徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：233

引证文献7

1姚兆旭,马静.面向微博话题的“主题+观点”词条抽取算法研究[J].现代图书情报技术,2016(7):78-86. 被引量：6
2陈斌,马静.基于HLDA-IDF模型的网络文本主题挖掘研究[J].情报理论与实践,2017,40(10):117-122. 被引量：2
3郎冬冬,刘晨晨,冯旭鹏,刘利军,黄青松.一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现[J].计算机应用与软件,2018,35(3):54-60. 被引量：6
4刘耘,袁华.基于大数据的需求驱动的职业能力培养研究[J].电子科技大学学报（社科版）,2018,20(2):8-14. 被引量：4
5袁华,徐华林,钱宇,罗谦.域内海量数据中热点话题及其特征词抽取方法[J].管理工程学报,2018,32(4):133-140. 被引量：2
6魏家泽,董诚,何彦青,刘志辉,彭柯芸.基于均衡段落和分话题向量的新闻热点话题检测研究[J].数据分析与知识发现,2020,4(10):70-79. 被引量：1
7侯博元,崔喆,谢欣冉.BERT-Single:半监督的话题检测与追踪方法[J].计算机应用,2022,42(S01):21-27. 被引量：1

二级引证文献22

1李真,丁晟春,王楠.网络舆情观点主题识别研究[J].数据分析与知识发现,2017,1(8):18-30. 被引量：11
2周昕,高俊峰,潘逸尘.网络舆情场内信息受众观点的“三体”可视化框架构建[J].情报科学,2018,36(11):126-131. 被引量：4
3伊惠芳,吴红,李昌,冀方燕.基于主题生命周期与技术熵的石墨烯技术主题演化研究[J].情报杂志,2019,38(2):64-70. 被引量：10
4周俊辉.能力本位教育视角下高职院校学生职业能力培养困境及应对策略[J].教育与职业,2019,0(14):101-104. 被引量：9
5张少迪,艾山·吾买尔,郑炅,石刚.高并发汉英信息抽取系统的设计与实现[J].现代电子技术,2019,42(16):104-107. 被引量：4
6曾庆田,胡晓慧,李超.融合主题词嵌入和网络结构分析的主题关键词提取方法[J].数据分析与知识发现,2019,3(7):52-60. 被引量：15
7李志强,潘苏含,戴娟,胡佳佳.一种改进的TextRank关键词提取算法[J].计算机技术与发展,2020,30(3):77-81. 被引量：8
8郭蓓蓓,张雪琴.基于市场需求的BIM职位文本挖掘[J].价值工程,2020,39(7):225-229.
9胡伏湘,陈超群.基于大数据的学生职业能力评价指标体系研究[J].软件工程,2020,23(6):55-59. 被引量：7
10柴悦,赵彤洲,江逸琪,高佩东.基于Att-iBi-LSTM的新闻主题词提取方法研究[J].武汉工程大学学报,2020,42(5):575-580.

1乌吉斯古愣,刘晓影,鄢楚平.基于事件关联网络的用户兴趣话题发现算法[J].现代电子技术,2015,38(6):7-12.
2李丕绩,马军,张冬梅,韩晓晖.用户评论中的标签抽取以及排序[J].中文信息学报,2012,26(5):14-19. 被引量：11
3王梦溪,王斌.基于标签的垂直搜索研究及在视频搜索中的应用[J].仪表技术,2011(5):59-61. 被引量：1
4段祥超,禹龙,田生伟,吐尔根.依布拉音,艾斯卡尔.艾木都拉.维吾尔语意见挖掘关系抽取研究[J].计算机工程与设计,2013,34(9):3260-3265. 被引量：1
5牛耘,张黎,王世泓,魏欧.基于多层次语言特征的弱监督评论倾向性分析[J].中文信息学报,2015,29(4):80-88. 被引量：3
6伍星,何中市,黄永文.基于弱监督学习的产品特征抽取[J].计算机工程,2009,35(13):199-201. 被引量：10
7张素香,文娟,秦颖,袁彩霞,钟义信.实体关系的自动抽取研究[J].哈尔滨工程大学学报,2006,27(B07):370-373. 被引量：10
8牟光灿.软件测试是软件质量保证的重要手段[J].计算机应用研究,1997,14(2):3-5. 被引量：7
9钟军,禹龙,田生伟,吐尔根.依布拉音.基于双层模型的维吾尔语突发事件因果关系抽取[J].自动化学报,2014,40(4):771-779. 被引量：11
10刘金岭.基于降维的短信文本语义分类及主题提取[J].计算机工程与应用,2010,46(23):159-161. 被引量：18

中文信息学报

2013年第5期

浏览历史

内容加载中请稍等...

基于种子词汇的话题标签抽取研究被引量：7

参考文献16

二级参考文献62

共引文献232

同被引文献52

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于种子词汇的话题标签抽取研究 被引量：7

参考文献16

二级参考文献62

共引文献232

同被引文献52

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于种子词汇的话题标签抽取研究被引量：7