基于NLP和机器学习的短文本作者识别算法被引量：4

Author Identification Algorithm of Short Text Based on Natural Language Processing and Machine Learning

下载PDF

导出

摘要针对当前垃圾邮件账户撰写虚假在线评论,降低评论网站可信度的问题,提出一种基于自然语言处理和机器学习的短文本作者识别算法,该算法将自然语言处理技术(Natural Language Processing,NLP)与不同的机器分类器相结合,根据多个不同的语言特征解决了简短嘈杂的评论文本的作者识别问题.实验结果表明,相对于基线模型而言,本文算法在引入NLP技术后,仅采用一元语法和一元与二元语法相结合的两个N-gram模型的分类精度均有明显提高,充分说明本文算法的有效性. In order to reduce the credibility of comment websites,an author identification algorithm of short text based on natural language processing and machine learning has been proposed.This algorithm combines natural language processing(NLP)with different machine classifiers,and solves the author recognition problem of short and noisy comment text according to different language features.The experimental results show that,compared with the baseline model,the proposed algorithm combines with either unigram only or both unigram and bigram by introducing NLP technology,and the classification accuracy is significantly improved,which fully shows the effectiveness of the algorithm.

作者吴桂玲 WU Gui-ling(College of Information Engineering, Xinyang Agriculture and Forestry University, Xinyang Henan 464007, China)

机构地区信阳农林学院信息工程学院

出处《西南师范大学学报（自然科学版）》 CAS 2021年第1期32-37,共6页 Journal of Southwest China Normal University(Natural Science Edition)

基金河南省科技攻关计划项目(182102210533).

关键词自然语言处理机器学习作者识别 N-GRAM模型 natural language processing machine learning author identification N-gram model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献38

1郭恒川.人工智能中的机器学习技术应用[J].电子技术（上海）,2021,50(10):294-296. 被引量：2
2沈竞.基于信息增益的LDA模型的短文本分类[J].重庆文理学院学报（自然科学版）,2011,30(6):64-66. 被引量：6
3金碧漪,许鑫.网络健康社区中的主题特征研究[J].图书情报工作,2015,59(12):100-105. 被引量：48
4杨扬,张驰.基于图编码的网络拓扑语义挖掘[J].通信技术,2018,51(11):2631-2638. 被引量：1
5王序文,李姣,吴英杰,李军莲.基于BiLSTM-CRF的中文生物医学开放式概念关系抽取[J].中华医学图书情报杂志,2018,27(11):33-39. 被引量：4
6王正存,肖中俊,严志国.逻辑回归分类识别优化研究[J].齐鲁工业大学学报,2019,33(5):47-51. 被引量：11
7梁柯,李健,陈颖雪,刘志钢.基于朴素贝叶斯的文本情感分类及实现[J].智能计算机与应用,2019,9(5):150-153. 被引量：14
8李育贤,李玓,臧金环.车载语音交互技术发展现状及趋势展望[J].智能网联汽车,2019,0(6):84-89. 被引量：7
9马玲,罗晓曙,蒋品群.基于模板匹配和支持向量机的点阵字符识别研究[J].计算机工程与应用,2020,56(4):134-139. 被引量：18
10侯春萍,张倩文,王晓燕,王致芃.轮廓匹配的复杂背景中目标检测算法[J].哈尔滨工业大学学报,2020,52(5):121-128. 被引量：17

引证文献4

1陈燕,龚庆悦,戴彩艳.基于句法抽取与图结构编码的患者问询意图识别[J].计算机与数字工程,2021,49(11):2276-2281. 被引量：1
2刘威,张森,宋冠谕,丁晓雯.基于多种机器学习算法的车载语音文本分类研究[J].信息与电脑,2021,33(23):68-70. 被引量：2
3苏圆婷.基于NLP的PS图像模板匹配智能识别算法[J].信息技术,2024,48(4):161-165.
4刘玉虎,张妮.ChatGPT赋能高校图书馆学科服务[J].文化产业,2024(20):148-150.

二级引证文献3

1文谧.社区问答系统中机器学习分类算法的应用研究[J].信息与电脑,2022,34(17):74-76. 被引量：1
2张森,程登,宋冠谕,刘威,丁晓雯,磨春妗.自然语言处理在车企中的运用[J].汽车电器,2023(7):58-60.
3李文博,董青,刘超,张奇.基于对比学习的儿科问诊对话细粒度意图识别[J].广西师范大学学报（自然科学版）,2024,42(4):1-10.

1蒋萍.基于深度学习方面自然语言处理技术(NLP)的研究[J].数字通信世界,2021(1):31-33. 被引量：5
2屈庆涛,刘其成,牟春晓.基于N-Gram语言模型的并行自适应新闻话题追踪算法[J].山东大学学报（工学版）,2018,48(6):37-43. 被引量：10
3《上海医药》编辑部.协会召开《窄治疗指数药物文献汇编》编撰启动会[J].上海医药,2020,41(23):34-34. 被引量：3
4胡立.保护账户安全的方法[J].计算机与网络,2020,46(13):46-48.
5徐峰,李平.基于FFTNet-GAN的音频超分辨率方法研究[J].信号处理,2021,37(1):59-65. 被引量：2
6Raogo Kabore,Adlès Kouassi,Rodrigue N’goran,Olivier Asseu,Yvon Kermarrec,Philippe Lenca.Review of Anomaly Detection Systems in Industrial Control Systems Using Deep Feature Learning Approach[J].Engineering（科研）,2021,13(1):30-44. 被引量：1

西南师范大学学报（自然科学版）

2021年第1期

浏览历史

内容加载中请稍等...

基于NLP和机器学习的短文本作者识别算法被引量：4

同被引文献38

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于NLP和机器学习的短文本作者识别算法 被引量：4

同被引文献38

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于NLP和机器学习的短文本作者识别算法被引量：4