-
题名基于改进LDA和K-means算法的主题句聚类
被引量:4
- 1
-
-
作者
刘子平
李学明
-
机构
重庆大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第A02期239-241,250,共4页
-
基金
国家自然科学基金资助项目(60873200
90818028)
-
文摘
针对隐含狄利克雷分布(LDA)主题个数的随机选定和传统K-means算法初始聚类中心选择的随机性等缺陷,提出一种新颖启发式的主题句聚类方法。该方法利用文档集聚类簇数与拆分为句子集中隐藏的主题数目一致特点,先通过层次聚类分析出文档集聚类簇,采用最小描述长度(MDL)剪枝算法来确定最佳聚类数n个,然后将n作为隐含狄利克雷分布的主题数目的先验参数,计算n个主题所在维度上的重要句子作为初始聚类中心,最终完成隐含主题句聚类。实验结果表明改进后聚类算法克服了噪声数据的干扰,避免了主题数的经验误差,聚类结果更精确。
-
关键词
潜在狄立克雷分布
K-MEANS算法
最小描述长度算法
句子聚类
-
Keywords
Latent Dirichlet Allocation (LDA)
K-means algorithm
Minimal Dscription Length (MDL) algorithm
sentence clustering
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于依存关系与主题差异的非遗知识元抽取方法研究
- 2
-
-
作者
董坤
-
机构
中南民族大学图书馆
-
出处
《图书情报导刊》
2023年第1期72-79,共8页
-
基金
中南民族大学教研项目“双一流背景下面向教学、研究工作的文献资源保障体系建设研究”(项目编号:JYX20123)
湖北省高等学校图书情报工作委员会重点项目“高校图书馆文献资源建设现状及其优化策略研究”(项目编号:2020-ZD-04)
中央高校基本科研业务费专项资金项目“基于依存句法分析的民族文献知识元及其语义关系抽取研究”(项目编号:CSY20029)。
-
文摘
为准确抽取出细粒度非遗知识元,实现非遗知识的深度揭示与有效利用,提出了一种基于依存句法关系与主题差异的知识元抽取方法。该方法分为3个阶段:第一阶段根据统计特征识别出非遗术语;第二阶段根据非遗术语及其依存关系实现非遗知识元知识项的半自动抽取;第三阶段基于知识元的主题结构实现对冗余、噪声数据的过滤。该方法在非遗项目“摆手舞”文档集上进行了实验验证,表明了其可行性与有效性。
-
关键词
非物质文化遗产
依存分析
潜在狄立克雷分布
-
Keywords
intangible cultural heritage
dependency relation
Latent Dirichlet Allocation(LDA)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-