-
题名基于LDA和语步标注的主题识别与分析方法研究
- 1
-
-
作者
张辉
串丽敏
郑怀国
赵静娟
齐世杰
-
机构
北京市农林科学院数据科学与农业经济研究所
-
出处
《数据与计算发展前沿》
CSCD
2023年第5期107-118,共12页
-
基金
北京市农林科学院创新能力建设专项:“基于多源数据融合的农业热点前沿主题识别与实证研究”(KJCX20200403)
“智库型农业情报研究与服务能力提升”(KJCX20230208)
+1 种基金
“面向科研管理的情报研究与服务能力提升”(KJCX20230210)
“国家新闻出版署农业融合出版知识挖掘与知识服务重点实验室开放基金”(2023KMKS01)
-
文摘
【目的】从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性。【方法】采用LDA模型进行主题识别,利用Sentence Transformer模型对主题词短语进行提取,同时构建句子功能分类模型进行语步标注,识别文本句子功能类型,从句子功能维度对主题内容进行细粒度分析。【结果】以农业资源与环境领域论文数据为例进行实证研究,结果表明,相比传统LDA模型,经过提取主题词短语后,识别出的主题表征词可读性和解释性更强,进一步结合语步标注后,主题句子内容分析更为深入。【局限】主题短语表征词扩展内容存在含义相同问题,有待进一步改进表征词的多样性,以整合相同含义的主题短语表征词。【结论】本研究所提方法在主题表征词抽取、主题内容分析方面具有较好的效果,可以提高文本主题挖掘的效率与深度。
-
关键词
LDA模型
语步标注
主题短语
主题分析
-
Keywords
LDA model
move tagging
subject phrase
subject analysis
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-