面向词权重的主题识别应用研究被引量：9

Research of Topic Recognition Based on Term Weighting

下载PDF

导出

摘要 [目的/意义]在文本主题求解时,LDA模型更倾向于高频率的词项,造成主题的语义特征和内容区分度不高.[方法/过程]从文本的词权重入手,综合考虑词项在文本集合中的全局统计特征和局部语义特征,衡量词语在文本中的重要性,并将词语的特征值作为LDA主题模型的输入,改变LDA模型生成词的概率.[结果/结论]实验表明,结合词权重的LDA模型,具有更好的模型拟合度,同时能够较好的识别语料库中主要话题,提高了主题词分布的广度和主题的语义区分度.通过新闻文本数据验证了该方法的可行性与有效性.[局限]对词语的局部语义特征描述需要大数据量的计算. [Purpose/significance]In order to recognize the text topics,LDA model tends to use high-frequency terms,which results in low semantics and content discrimination.[Method/process]Starting from the term weighting,the paper measures importance of words in text,considering both the overall statistical features and local semantic features of words in text set.Then the word feature values are used as input of LDA topic model to change the probability of LDA model generating words.[Result/conclusion]Experiments show that the LDA model combined with term weighting has better model fitting degree,and can identify the main topics in the corpus,and improve the breadth of the distribution of topic words and the semantics of topic.The feasibility and validity of this method are verified by news text data.[Limitations]A large amount of data is needed to describe the local semantic features of words.

作者阮光册夏磊

机构地区华东师范大学经济与管理学部信息管理系华东师范大学一带一路与全球发展研究院上海图书馆会展中心

出处《情报理论与实践》 CSSCI 北大核心 2019年第12期144-149,共6页 Information Studies:Theory & Application

基金上海哲学社会科学一般项目“基于主题模型的学科交叉知识发现研究”的成果之一,项目编号:2016BTQ002

关键词主题模型 LDA模型 FTIDF N-GRAM 权重主题识别 topic model LDA model TFIDF N-gram weight topic identification

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献3

1阮光册,任金玥.基于主题层次关系的文献检索结果可视化应用研究[J].图书馆杂志,2019,38(5):71-78. 被引量：7
2谢靖,陈静,王东波.齐普夫定律在中文短语知识中的呈现[J].情报学报,2014,33(1):11-22. 被引量：5
3李晓超,赵书良,罗燕,陈敏,柳萌萌.中文文本同频词统计规律及在关键词提取中的应用[J].计算机应用研究,2016,33(4):1007-1012. 被引量：4

二级参考文献57

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2陈小荷.从自动句法分析角度看汉语词类问题[J].语言教学与研究,1999(3):63-72. 被引量：23
3潘庆超.近几年国内信息检索可视化研究综述[J].图书馆学研究（应用版）,2010(6):7-9. 被引量：5
4冯志伟.汉语词组型术语的结构[J].科技术语研究,2004,6(2):35-37. 被引量：9
5化柏林.基于NLP的知识抽取系统架构研究[J].现代图书情报技术,2007(10):38-41. 被引量：16
6顾铖.图情档术语自动提取研究[D].南京:南京大学,硕土学位论文,情报学专业,2011:3842.
7Kang N, van Mulligen E M, Kors J A. Comparing and combining chunkers of biomedical text [ J ]. Journal of Biomedical lnformatics, 2011, 44 ( 2 ) : 354-60.
8Thomas Lippincott , Laura Rimell , Karin Verspoor, et al. Approaches to verb subcategorization for biomedicine [ J ]. Journal of Biomedical Informatics, 2013, 46 (2) : 212-227.
9Zipf G K. The psycho-biology of language : An Introduction to Dynamic Philiology [ M ]. Boston: Houghton Mifflin Company, 1935.
10Joos M. Review of Zipfs the psycho-biology of language [J]. Language, 1936, 12(3):196-210.

共引文献13

1徐李华.曲项向天歌──浅谈江苏鹅业发展[J].中国禽业导刊,2000,17(6):4-5.
2刘泽,潘思静,李霞,姜峰.我国对医患沟通研究热点的共词聚类分析[J].中国卫生产业,2017,14(3):7-10. 被引量：1
3丁亮,何彦青.融合领域知识与深度学习的机器翻译领域自适应研究[J].情报科学,2017,35(10):125-132. 被引量：7
4李雄,丁治明,苏醒,郭黎敏.基于词项聚类的文本语义标签抽取研究[J].计算机科学,2018,45(B11):417-421.
5袁美娇,王春艳,蔡学联.我国中心静脉导管相关性血流感染研究的文献计量学分析[J].护士进修杂志,2019,34(7):602-605. 被引量：7
6秦克霄.齐夫定律对《十九大报告》文本的适用性研究[J].晋中学院学报,2020,37(3):72-75.
7秦克霄.齐夫定律在古汉语文本中的适用性研究——以《梦溪笔谈杂志一》的文献计量为例[J].晋图学刊,2020(4):52-59. 被引量：2
8司莉,周璟.“一带一路”多语种共享型数据库的跨语言检索功能分析与开发策略[J].图书情报工作,2021,65(3):20-27. 被引量：11
9王洪鑫,闫志明,陈效玉,张铭锐.面向MOOC课程评论的主题挖掘与情感分析研究[J].开放学习研究,2021,26(4):16-23. 被引量：9
10丁玲.基于深度学习的图书馆文献自动检索机器人研究[J].自动化与仪器仪表,2022(3):177-181. 被引量：3

同被引文献150

1祝锡永,潘旭伟,王正成.基于情境的知识共享与重用方法研究[J].情报学报,2007,26(2):179-184. 被引量：22
2毛荐其.全球技术链的一个初步分析[J].科研管理,2007,28(6):85-92. 被引量：26
3王朝晖.专利文献的特点及其利用[J].现代情报,2008,28(9):151-152. 被引量：46
4曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：83
5王发明,毛荐其.技术链、产业技术链与产业升级研究——以我国半导体照明产业为例[J].研究与发展管理,2010,22(3):19-28. 被引量：22
6赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：547
7孙军华,苏强,霍佳震.中国快递服务质量体系的构建与模糊综合评价[J].工业工程与管理,2010,15(4):112-116. 被引量：65
8胡慕海,蔡淑琴,张宇.面向个性化推荐的情境化用户偏好研究[J].情报杂志,2010,29(10):157-162. 被引量：24
9徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：239
10张明慧,王红玲,周国栋.基于LDA主题特征的自动文摘方法[J].计算机应用与软件,2011,28(10):20-22. 被引量：24

引证文献9

1丰米宁,魏凤,李健,郑雷.产业链视角下的主题识别与技术演化研究——以3D打印领域为例[J].情报杂志,2020,39(8):46-52. 被引量：16
2赵凯,王鸿源.LDA最优主题数选取方法研究:以CNKI文献为例[J].统计与决策,2020(16):175-179. 被引量：28
3闫翔宇,王雪纯,李永杰,王泽昆,张波,贾忠伟.潜在狄利克雷分布模型在医学研究中的应用[J].现代预防医学,2021,48(14):2502-2506. 被引量：4
4李亚梅,秦春秀,马续补.基于科研人员情境化主题偏好的科技文献协同推荐研究[J].情报理论与实践,2021,44(12):180-189. 被引量：8
5张杨,廉吉庆,张扬,高德毅.国内网络舆情情感研究热点分析[J].网络安全与数据治理,2022,41(7):47-55.
6肖明,商慧语,肖毅,廖莉莉.基于LDA模型的统计学热门主题挖掘及知识图谱分析[J].华中师范大学学报（自然科学版）,2022,56(5):781-788. 被引量：6
7丁平,王宝义,王寒寒.快递服务缺陷诊断识别与质量改进[J].山东交通学院学报,2023,31(2):57-66.
8兰海波,宋瑛瑛,曹之玉,朱小祥,沈晨笛,王然.基于N-gram模型的多层融合气象灾害预警文本检验方法[J].武汉理工大学学报（信息与管理工程版）,2023,45(6):961-966. 被引量：1
9阮光册,周萌葳.基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例[J].情报杂志,2024,43(2):110-117. 被引量：5

二级引证文献67

1王成新.卵蛋白与鸡蛋质量[J].中国禽业导刊,2000,17(6):12-13.
2毛卫东,朱秀娟.互联网+3D打印服务平台关键技术研发及应用[J].机电工程技术,2020,49(8):160-162. 被引量：3
3李剑飞,吴红,崔哲,韩盟.产品/技术纵向延伸视域下的高校专利转移对象识别研究——以气凝胶领域为例[J].图书情报工作,2021,65(3):67-74. 被引量：4
4赵绘存,高田,任立业,李小芬.产业链重构模式与产业集群培育研究——以天津滨海高新区信息产业为例[J].经济论坛,2021(3):78-87. 被引量：2
5来能烨,汪明艳,周成阳.基于主题挖掘的突发公共卫生事件舆情分析研究[J].艺术科技,2021,34(8):115-117.
6但琼洁.基于转移专利的国内校企技术流动多维特征分析——以废水处理领域为例[J].图书情报导刊,2021,6(5):62-69. 被引量：1
7杨波,邵婉婷.面向企业竞争情报的弱信号识别研究[J].现代情报,2021,41(9):53-63. 被引量：4
8孙青云,刘吉华.基于文本挖掘的MOOC差评意愿的影响因素研究[J].统计与管理,2021,36(9):105-112. 被引量：2
9杨波,邵婉婷.基于LDA-BERT融合模型的弱信号识别研究[J].图书情报工作,2021,65(16):98-107. 被引量：3
10马铭,王超,周勇,许海云,胡正银,熊广华.基于语义信息的核心技术主题识别与演化趋势分析方法研究[J].情报理论与实践,2021,44(9):106-113. 被引量：24

1徐成虎.分析融媒时代媒体新闻叙事策略的创新方式[J].科技传播,2019,11(23):35-36. 被引量：8
2张加惠,陈致远,赵峰,安志勇,谢青松.基于深层融合的股票文本主题识别[J].计算机科学,2019,46(S11):122-126.
3孙微.核心素养视角下如何开展小学数学教学[J].数学大世界（中旬）,2019,0(11):55-55.
4毛文山,赵红莉,蒋云钟,段浩,郝震.基于文献计量学的国内水生态环境研究知识图谱构建与应用[J].水利学报,2019,50(11):1400-1416. 被引量：28
5陈泽宇,黄勃.改进词向量模型的用户画像研究[J].计算机工程与应用,2020,56(1):180-184. 被引量：12
6卢浩哲.城市游憩型绿道特色空间营造策略探讨[J].现代园艺,2019,0(23):93-95. 被引量：1
7文勇立,赵佳琦.牦牛的泌乳量测定及其乳特性[J].中国乳业,2019,0(11):12-18. 被引量：22
8郎竞宁.转变叙事策略讲好中国故事——从新闻叙事学角度探讨国际传播能力建设[J].传媒论坛,2019,0(23):100-101. 被引量：5
9陈寒.作文教学中核心关键词的鉴定和表达策略[J].中学语文,2019,0(31):82-84.
10赵增普.提高分析能力强化探究意识——2018年全国Ⅰ卷语文第9题简析[J].考试与招生,2019,0(12):31-33.

情报理论与实践

2019年第12期

浏览历史

内容加载中请稍等...

面向词权重的主题识别应用研究被引量：9

参考文献3

二级参考文献57

共引文献13

同被引文献150

引证文献9

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

面向词权重的主题识别应用研究 被引量：9

参考文献3

二级参考文献57

共引文献13

同被引文献150

引证文献9

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

面向词权重的主题识别应用研究被引量：9