基于CoSENT和改进K-means的冒犯性评论文本主题识别

Text Topic Recognition of Offensive Comments Based on CoSENT and Improved K-means

下载PDF

导出

摘要为快速识别冒犯性评论文本中的用户热点主题,解决传统主题模型在处理评论文本时语义描述不充分、上下文信息丢失和主题连贯性不强,以及K-means聚类算法对K值和初始中心点敏感的问题。使用CoSENT(cosine sentence)模型获取包含冒犯性语言的评论文本的句子级向量特征,对通过统一流形逼近与投影算法即UMAP(uniform manifold approximation and projection)模型降维后的向量矩阵使用基于Canopy+的改进K-means算法进行类簇划分,用(class term frequency-inverse document frequency,c-TF-IDF)识别各主题簇的主题特征,进行主题建模。通过对比冒犯性评论文本数据集以及普通评论数据集的实验验证了方法有效性。结果表明本文方法能够得到更好的主题一致性。 To quickly identify users'hot topics in offensive comment texts and solve the problems of insufficient semantic description,loss of contextual information,and weak topic coherence of traditional topic models when dealing with comment texts,as well as the sensitivity of K-value and initial centroid of K-means clustering algorithm.The CoSENT(cosine sentence)model was used in this paper to obtain sentence-level vector features of comment texts containing offensive language.An improved K-means algorithm based on Canopy+was used for class clustering on the vector-matrix after dimensionality reduction through the UMAP(uniform manifold approximation and projection)model.c-TF-IDF(class term frequency-inverse document frequency)was used to identify the thematic features of each thematic cluster for thematic modeling.The validity of the method is verified through experiments comparing the offensive comment text dataset as well as the ordinary comment dataset.The results show that the method in this paper can get better topic consistency.

作者陈健飞卜凡亮王一帆 CHEN Jian-fei;BU Fan-liang;WANG Yi-fan(School of Information Network Security,People's Public Security University of China,Beijing 100038,China)

机构地区中国人民公安大学信息网络安全学院

出处《科学技术与工程》北大核心 2024年第31期13442-13449,共8页 Science Technology and Engineering

基金中国人民公安大学安全防范工程双一流专项(2023SYL08)。

关键词自然语言处理主题模型 CoSENT K-MEANS natural language processing topic modelling CoSENT K-means

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

1董同强,朱彦君,马秀峰.基于中文文本类别信息的主题生成模型构建研究[J].情报科学,2024,42(4):36-42.
2白如江,张亚辉,张玉洁,鞠孜涵,冯梦莹.基于引文-主题双重测度的交叉前沿识别研究[J].现代情报,2024,44(10):27-40.
3伊国通,赵辉,王红君,岳有军.基于分布鲁棒优化的风光氢微电网容量配置方法研究[J].可再生能源,2024,42(11):1519-1526.
4曾曦.基于改进k-means聚类算法的上市公司信用风险评估[J].高师理科学刊,2024,44(11):20-25.
5朱辉.被冒犯的父亲[J].金秋,2024(22):57-57.
6皮志贤,任俊达,李开阳,陈思宇.基于深度学习的电力设备智能运行方式研究[J].电子设计工程,2024,32(23):122-126.
729岁女子被叫“大姐”,该不该生气[J].家庭医生,2024(23):70-70.
8曹书乐,石闵龙,何威.玩法为器,文化为魂:《黑神话:悟空》的国际传播与游戏推动文化走出去的创新机制[J].福建师范大学学报（哲学社会科学版）,2024(6):119-131.
9王娜.中国农村教育议题的国际呈现:主题流变与文化差异——基于国际新闻报道的主题建模[J].教育传媒研究,2024(6):89-97.
10张金金.宽恕的道德理由——基于第二人称立场的分析[J].北京社会科学,2024(11):50-59.

科学技术与工程

2024年第31期

浏览历史

内容加载中请稍等...

基于CoSENT和改进K-means的冒犯性评论文本主题识别

相关作者

相关机构

相关主题

浏览历史