期刊文献+

中文政治隐喻自动识别系统的设计与实现

下载PDF
导出
摘要 本文以中文政治隐喻为主要研究对象,通过爬取大量国家领导人讲话文稿作为基础语料库,再通过搭建人工标注系统对讲话的语句进行人工标注,词向量训练以及使用机器学习经典算法,实现了对政治语句的自动识别。该系统将人工标注和自动识别为一体,方便更多研究人员对隐喻识别进行学习修改和标注。系统以使用selenium和正则表达式爬取数据。利用jieba、Pandas和Numpy进行数据清洗和分词,使用Word2Vec构建中文词向量模型,K-Means对词向量进行聚类,运用随机森林算法进行建模对测试数据进行预测,使用Django框架完成对Web项目的搭建。
作者 朱毅 郭乐诗
出处 《电子技术与软件工程》 2020年第9期180-181,共2页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
基金 2018年辽宁省重点研发计划指导计划项目,“一带五基地背景下科教兴省知识图谱创新人才培养模式的研究”(项目编号:61801007)研究成果之一。
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部