MWEC:一种基于多语义词向量的中文新词发现方法被引量：4

Discovering Chinese New Words Based on Multi-sense Word Embedding

导出

摘要【目的】提出一种基于多语义词向量的中文新词发现方法(MWEC),解决多领域社交媒体文本的分词不准确问题。【方法】利用社交媒体文本,结合中文知网和汉字笔画数据库训练多语义词向量,以解决语义混淆问题。使用N-gram频繁字符串挖掘方法识别相关度高的子词集合,以此获取新词候选集。利用多语义词向量的语义相似度评估候选词进而获得新词。【结果】在金融、体育、旅游和音乐4个领域数据集上进行实验,结果表明本文方法的F1指标较对比方法分别提升了2.0(金融)、3.0(体育)、2.6(旅游)、11.3(音乐)个百分点。【局限】候选词生成策略着重关注子词的热度,低频词很难被识别出来。【结论】通过增强词向量的语义理解能力,利用多语义词向量对新词候选词进行剪枝,能有效提升针对中文社交媒体文本的新词发现能力。 [Objective] This paper proposes a method to discover Chinese new words based on multi-sense word embedding, aiming to improve the word segmentation of social media texts. [Methods] Firstly, we trained the MWEC with social media texts, as well as data from Chinese HowNet and Chinese character stroke database to reduce the semantic confusion. Then, we used the n-gram frequent string mining method to identify the highly relevant sub-word set, and created the new candidate set. Finally, we used the semantic similarity of multi-sense word embedding to evaluate candidates and identified the new words. [Results] We examined the model with datasets of finance, sports, tourism and music. The MWEC improved the F1 value by 2.0, 3.0, 2.6 and 11.3 percentage points respectively compared with the existing methods. [Limitations] We generated candidate words based on the popularity of sub-words, which was difficult to identify the low-frequency words. [Conclusions] The multi-sense word embedding algorithm could effectively discover new words from Chinese social media texts.

作者张乐冷基栋吕学强袁梦龙游新冬 Zhang Le;Leng Jidong;Lv Xueqiang;Yuan Menglong;You Xindong(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China)

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第1期113-121,共9页 Data Analysis and Knowledge Discovery

基金北京市自然科学基金项目(项目编号:4212020) 青海省藏文信息处理与机器翻译重点实验室/藏文信息处理教育部重点实验室开放课题基金项目(项目编号:2019Z002) 国家自然科学基金项目(项目编号:61671070)的研究成果之一。

关键词向量新词分词 N-GRAM 多语义词向量语义相似度 Word Embedding New Word Word Segmentation N-gram Multi-sense Word Embedding Semantic Similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术] G35 [文化科学—情报学]

引文网络
相关文献

参考文献11

1孙晓,黄德根,宋海玉,任福继.Chinese New Word Identification:A Latent Discriminative Model with Global Features[J].Journal of Computer Science & Technology,2011,26(1):14-24. 被引量：11
2张华平,商建云.面向社会媒体的开放领域新词发现[J].中文信息学报,2017,31(3):55-61. 被引量：15
3刘昱彤,吴斌,谢韬,王柏.基于古汉语语料的新词发现方法[J].中文信息学报,2019,33(1):46-55. 被引量：12
4陈梅婕,谢振平,陈晓琪,许鹏.专利新词发现的双向聚合度特征提取新方法[J].计算机应用,2020,40(3):631-637. 被引量：6
5王馨,王煜,王亮.基于新词发现的网络新闻热点排名[J].图书情报工作,2015,59(6):68-74. 被引量：11
6彭郴,吕学强,孙宁,张乐,姜肇财,宋黎.基于CNN的消费品缺陷领域词典构建方法研究[J].数据分析与知识发现,2020,4(11):112-120. 被引量：9
7董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：98
8王博,代翔,时聪,刘洋.一种基于主动学习的中文新词识别算法[J].电讯技术,2020,60(11):1265-1270. 被引量：2
9唐共波,于东,荀恩东.基于知网义原词向量表示的无监督词义消歧方法[J].中文信息学报,2015,29(6):23-29. 被引量：14
10孙茂松,陈新雄.借重于人工知识库的词和义项的向量表示：以HowNet为例[J].中文信息学报,2016,30(6):1-6. 被引量：11

二级参考文献72

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2孙霞,郑庆华,王朝静,张素娟.一种基于生语料的领域词典生成方法[J].小型微型计算机系统,2005,26(6):1088-1092. 被引量：11
3陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：22
4崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
6余晓峰,刘鹏远,赵铁军.一种基于《知网》的汉语词语词义消歧方法[C]//第二届学生计算机语言学研讨会.北京:中国中文信息学会,2004.
7刘群,李素建.基于《知网》的词汇语义相似度的计算[C].台北:第三届汉语词汇语义学研讨会,2002.
8Dong.Zhendong.Knowledge description:what,how,and who?[A].Manuscript & Program of International Symposium on Electronic Dictionary[C].Tokyo:1988.18.
9http://afflatus.ucd.ie The Creative Language System Group
10www.is.sinica.edu.tw/pages/kchen/publications-e.html.

共引文献180

1钱小飞.语言数据资源建设中的关键问题及对策[J].语料库语言学,2021,8(2):94-105. 被引量：1
2张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
3陈锐,张蕾,卢春俊,牟力科.基于概念图的信息检索的查询扩展模型[J].计算机应用,2009,29(2):545-548.
4周波,蔡东风.基于条件随机场的中文组织机构名识别研究[J].沈阳航空工业学院学报,2009,26(1):49-52. 被引量：8
5张瑞霞,朱贵良,杨国增.基于知识图的汉语词汇语义相似度计算[J].中文信息学报,2009,23(3):116-120. 被引量：11
6苏晓路,李景,孟宪学,胡海燕,钱平.OWL Full表示的顶级本体到OWL DL的转换研究[J].现代图书情报技术,2009(2):39-45. 被引量：1
7王石,曹存根.WNCT:一种WordNet概念自动翻译方法[J].中文信息学报,2009,23(4):63-70. 被引量：6
8刘兴林.词汇语义知识库浅述[J].福建电脑,2009,25(9):47-48. 被引量：2
9周蓝海,蔡东风.多策略英汉词对齐方法的研究[J].计算机工程与设计,2009,30(17):4138-4140. 被引量：5
10陈锐,张蕾,胡艳华.基于语义的信息检索模型[J].计算机工程与应用,2009,45(26):141-143. 被引量：6

同被引文献67

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
5曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].情报科学,2007,25(11):1687-1691. 被引量：7
6王文荣,乔晓东,朱礼军.针对特定领域的新词发现和新技术发现[J].现代图书情报技术,2008(2):35-40. 被引量：7
7仲云云,侯汉清,杜慧平.电子政务主题词表自动构建研究[J].中国图书馆学报,2008,34(3):97-102. 被引量：20
8李燕萍,吴绍棠,郜斐,张海雯.改革开放以来我国科研经费管理政策的变迁、评介与走向——基于政策文本的内容分析[J].科学学研究,2009,27(10):1441-1447. 被引量：104
9孙晓,黄德根,宋海玉,任福继.Chinese New Word Identification:A Latent Discriminative Model with Global Features[J].Journal of Computer Science & Technology,2011,26(1):14-24. 被引量：11
10陈飞,刘奕群,魏超,张云亮,张敏,马少平.基于条件随机场方法的开放领域新词发现[J].软件学报,2013,24(5):1051-1060. 被引量：43

引证文献4

1曹秀娟,马志柔,朱涛,张庆文,杨燕,叶丹.语义增强的多策略政策术语抽取系统[J].计算机系统应用,2022,31(9):152-158.
2常兵.融合多维度特征的特定领域新词发现方法[J].自动化应用,2023,64(8):159-162. 被引量：1
3王巍洁,任慧玲,李晓瑛,王勖,张颖.融合汉字多语义与文本统计特征的中文医学新词发现研究[J].图书情报工作,2024,68(6):119-128.
4刘清民,王芳,黄梅银.我国人工智能政策新词发现与演化研究——一个多特征融合的算法[J].现代情报,2024,44(6):18-32. 被引量：1

二级引证文献2

1陈翀旻,余泓夫,朱迪,唐超,符华,莫梁媛.基于k-means聚类算法与多维特征融合的群体划分模型[J].粘接,2023,50(11):193-196. 被引量：1
2刘勇,柴靖.AIGC在智慧图书馆文本挖掘与知识服务中的应用研究[J].图书情报导刊,2024,9(6):26-36.

1曹玮.基于人工智能的初中信息技术教学探析[J].世纪之星—交流版,2021(14):107-108.
2罗贤昌,薛吟兴.基于BERT的提示学习实现软件需求精确分类[J].信息技术与网络安全,2022,41(2):39-45. 被引量：4
3陈燕君.小学道德与法治课堂“儿童好问题”教学策略谈[J].新课程研究,2022(4):81-83.
4陈强.非结构化智能金融投研平台的开发与行业应用[J].计算机系统应用,2022,31(2):78-87. 被引量：1
5宋敦江,杨霖,钟少波.基于BERT的灾害三元组信息抽取优化研究[J].中国安全科学学报,2022,32(2):115-120. 被引量：4
6孙强,赵东波,王良涛,王孝卿,刘洋.基于小波分解改进算法和峭度最大原则的滚动轴承故障诊断研究[J].铁道车辆,2022,60(1):23-27. 被引量：2
7卢晓燕.项目化主题单元教学的探索[J].河南教育（教师教育）（下）,2022(3):69-70. 被引量：4
8李树臣,曹秀丽.经历完整探索过程培养学生数学素养——北师大版《探索三角形全等的条件》教学研究[J].山东教育,2021(46):25-28.
9白静.生物医药“浦东方案”出炉瞄准世界级产业集群——上海浦东新区推动生物医药产业“加速跑”[J].中国科技产业,2022(2):46-47. 被引量：1
10张敬伟,刘绍建,杨青,周娅.DMFUCP:大规模轨迹数据通用伴随模式分布式挖掘框架[J].计算机研究与发展,2022,59(3):647-660. 被引量：2

数据分析与知识发现

2022年第1期

浏览历史

内容加载中请稍等...

MWEC:一种基于多语义词向量的中文新词发现方法被引量：4

参考文献11

二级参考文献72

共引文献180

同被引文献67

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

MWEC:一种基于多语义词向量的中文新词发现方法 被引量：4

参考文献11

二级参考文献72

共引文献180

同被引文献67

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

MWEC:一种基于多语义词向量的中文新词发现方法被引量：4