-
题名基于PMI与BTM的船舶事故原因文本挖掘
被引量:5
- 1
-
-
作者
于卫红
付飘云
任月
王庆武
-
机构
大连海事大学航运经济与管理学院
大连海事大学航海学院
-
出处
《交通信息与安全》
CSCD
北大核心
2021年第1期35-44,共10页
-
基金
国家重点研发计划资助项目(2019YFB1600602)
中央高校基本科研业务费专项资金(3132020139)资助。
-
文摘
为了实现从海量的船舶事故调查报告中自动提取出水上交通安全知识,提出了从词语和主题2个层面对船舶事故调查报告进行语义挖掘的方法,并以100份船舶自沉事故调查报告为语料进行具体挖掘。在词语层面,使用PMI算法从事故原因文本中挖掘频繁共现的词语模式,通过文本特征词的共现揭示事故致因要素间的关联。在主题层面,使用BTM算法对事故原因文本进行主题建模,通过主题对数似然、主题一致性评估建模结果的优劣。通过主题建模,对表征自沉事故原因的特征词进行聚类,并根据主题在文档集合中的分布初步量化出每种原因的发生概率。根据使用500组新数据集对主题模型预测能力的测试,所构建的主题模型能够100%识别出领域无关的词并自动忽略;对于语料库中85.6%的词语,所构建的主题模型能够明确地将其归属于代表某一原因的主题;另14.4%的词主题边界不明显,难以将其单独以较大的可能性明确归属到某一主题下。
-
关键词
交通安全
船舶事故调查报告
文本挖掘
主题模型
词共现
PMI算法
btm算法
-
Keywords
traffic safety
ship accident investigation reports
text mining
topic model
word co-occurrence
PMI algo⁃rithm
btm algorithm
-
分类号
U698.6
[交通运输工程—港口、海岸及近海工程]
-
-
题名基于BTM模型和改进聚类算法的热点话题检测
被引量:4
- 2
-
-
作者
徐菲菲
陈赛红
田宇
-
机构
上海电力大学计算机科学与技术学院
-
出处
《计算机应用与软件》
北大核心
2022年第5期283-290,共8页
-
基金
国家自然科学基金项目(61272437,61305094)
上海市教育发展基金会和上海市教育委员会“晨光计划”项目(13CG58)。
-
文摘
随着网络中出现大量的新闻内容,如何在短期内为用户及时发现新闻热点话题越来越受到学者们的关注。提出一种基于BTM模型和改进K-Means聚类算法的中文新闻话题检测模型。对网易新闻语料库引入BTM模型,发现与主题相关的话题词,从而推断热点话题;针对K-Means算法初始值敏感等问题,将基于共轭梯度的人工鱼群算法引入传统的K-Means算法;利用改进K-Means聚类算法对得到的话题词进行聚类。实验结果表明,所提方法与传统方法相比可有效、准确提高话题的准确性。
-
关键词
btm模型
话题检测
K-MEANS聚类
共轭梯度
人工鱼群
-
Keywords
btm model
Topic detection
K-Means clustering algorithm
Conjugate gradient
Artificial fish
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词对主题模型的题名信息自动分类方法研究
- 3
-
-
作者
刘爱琴
董婕
梁雅琨
-
机构
山西大学经济与管理学院
东北大学秦皇岛分校管理学院
山西大学文学院
-
出处
《晋图学刊》
2023年第4期29-38,共10页
-
文摘
从题名抽取关键词,把题名作为基于本体自动分类的文本主体,实现海量科技论文高效、精准地分类,已经成为图书馆事业发展的重要课题。本文利用文本内部词汇的语义关联特性,在高频词和隐含主题两个不同粒度层面,构建了基于BTM模型的题名信息自动分类方法:首先从细粒度层面进行词频统计,提取领域高频词;随后从粗粒度层面进行BTM模型分析,得到主题关键词;之后,将两者去重合并获得领域核心词集;最后,利用SVM算法进行文本分类。该方法有效地实现了知识的快速聚类和关联自动分类,为用户提供了满意度更高的知识发现及相关扩展服务。
-
关键词
题名分类
词对主题模型
支持向量机算法
-
Keywords
title classification
btm model
SVM algorithm
-
分类号
G254.1
[文化科学—图书馆学]
-