-
题名基于LDA模型的文本时间窗口划分研究
被引量:1
- 1
-
-
作者
龙艺璇
王晓刚
周子威
王荣笙
伊惠芳
-
机构
中国铁道科学研究院集团有限公司、科学技术信息研究所
中国铁路西安局集团有限公司
青岛大学图书馆
-
出处
《科学观察》
2024年第2期34-45,共12页
-
基金
中国国家铁路集团有限公司科技研究开发项目“以提升创新效能为导向的铁路企业创新能力评价指标体系及实证研究”(J2022Z004)
中国铁路西安局集团有限公司科技研究开发计划“科技管理体系创新优化、实践及示范应用研究”(N2023092)。
-
文摘
[目的/意义]鉴于静态主题模型难以满足用户动态分析需求,为解决现有动态主题模型存在计算成本高或者受主观因素影响深等问题,从时间窗口相似度出发,以LDA模型为基础,提出一种文本时间窗口划分算法。[方法/过程]构建集时间窗口间差异性和时间窗口内一致性于一体的时间窗口相似度指标,基于该指标构建文本时间窗口划分算法,并以创新研究领域为例开展实证研究。[结果/结论]综合每一个时间窗口内最优主题个数下主题之间的平均JS散度和相邻时间窗口间不同主题之间的平均JS散度两个指标结果来看,使用本文提出的算法得出的划分结果明显优于多种固定时间窗口长度划分的结果,验证了本研究提出的文本时间窗口划分算法的有效性。该算法在一定程度上解决了现有动态主题模型计算成本高、主观性强等缺点,增加了文本时间窗口划分结果的客观性与准确性,可以为主题演化等相关研究提供技术支持。
-
关键词
LDA模型
时间窗口
动态主题模型
文本相似度
创新研究
-
Keywords
LDA model
time window
dynamic topic model
text similarity
innovation research
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-