基于异构数据联合训练的中文分词法被引量：6

Chinese Word Segmentation Based on Joint Training of Heterogeneous Data

下载PDF

导出

摘要中文分词技术作为中文信息处理中的关键基础技术之一,基于深度学习模型的中文分词法受到广泛关注。然而,深度学习模型需要大规模数据训练才能获得良好的性能,而当前中文分词语料数据相对缺乏且标准不一。文中提出了一种简单有效的异构数据处理方法,对不同语料数据加上两个人工设定的标识符,使用处理过的数据应用于双向长短期记忆网络结合条件随机场(Bi-LSTM-CRF)的中文分词模型的联合训练。实验结果表明,基于异构数据联合训练的Bi-LSTM-CRF模型比单一数据训练的模型具有更好的分词性能。 Chinese word segmentation technology is one of the key basic technologies in Chinese information processing.The Chinese word segmentation method based on deep learning model is widely concerned.However,the deep learning model requires large-scale data training to obtain good performance,but the current Chinese sub-word data is relatively lacking and the standards are not the same.This paper proposes a simple and effective method of heterogeneous data processing.Firstly,two artificially-set identifiers are added to different corpus data,and then the processed data is applied to the joint training of Bi-LSTM-CRF Chinese word segmentation model.Experimental results show that the Bi-LSTM-CRF model based on heterogeneous data joint training has better segmentation performance than the single data training model.

作者姜猛王子牛高建瓴 JIANG Meng;WANG Ziniu;GAO Jianling(School of Big Data & Information Engineering,Guizhou University,Guiyang 550025,China;Network and Information Management Center,Guizhou University,Guiyang 550025,China)

机构地区贵州大学大数据与信息工程学院贵州大学网络与信息化管理中心

出处《电子科技》 2019年第4期29-32,59,共5页 Electronic Science and Technology

基金贵州省科学技术基金(黔科合J字[2015]2045) 贵州大学研究生创新基金(研理工2017016)~~

关键词中文分词深度学习 Bi-LSTM-CRF 异构数据联合训练语料库 Chinese word segmentation deep learning Bi-LSTM-CRF heterogeneous data joint training corpus

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1王贵新,郑孝宗,张浩然,张小川.基于Word2vec的短信向量化算法[J].电子科技,2016,29(4):49-52. 被引量：4

二级参考文献13

1万晓枫,惠孛.基于贝叶斯分类法的智能垃圾短信过滤系统[J].实验科学与技术,2013,11(5):44-47,76.
2Schmidhuber J. Deep learning in neural networks:an over- view [ J]. Neural Networks,2015,61 ( 1 ) :85 - 117.
3Bengio, Ducharme R, Vincent P, et al. A neural probabilistic language model [ J ]. Journal of Machine Learning Research, 2003(3) :1137 - 1155.
4Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space [ C]. Scottsdale, Arizo- na : ICLR Workshop ,2013.
5Hinton G E, Osindero S, The Y W. A fast learning algorithm for deep belief nets [ J ]. Neural Computation, 2006 ( 18 ) : 1527 - 1554.
6Tieleman. Training restricted bohzmann machines using ap- preximations to the likelihood gradient [ C]. Helsinki, Fin- land : ICML, 2008.
7Kazuhiro Shin - ike. A two phase method for determining the number of neurons in the hidden layer of a 3 - Layer neural network [ C ]. Taipei, Taiwan: SICE Annual Conference,2010.
8何蔓微,袁锐,刘建胜,王贵新.垃圾短信的智能识别和实时处理[J].电信科学,2008,24(8):61-64. 被引量：7
9刘金岭,严云洋.基于上下文的短信文本分类方法[J].计算机工程,2011,37(10):41-43. 被引量：13
10李慧,叶鸿,潘学瑞,段震,张燕平.基于SVM的垃圾短信过滤系统[J].计算机安全,2012(6):34-38. 被引量：13

共引文献3

1刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：10
2王睿,赵勇.基于Dubbo框架的短信平台的开发与设计[J].电子设计工程,2018,26(18):118-122. 被引量：1
3卢佳伟,陈玮,尹钟.融合TextRank算法的中文短文本相似度计算[J].电子科技,2020,33(10):51-56. 被引量：5

同被引文献66

1廖志芳,周国恩,李俊锋,刘飞,蔡飞.中文短文本语法语义相似度算法[J].湖南大学学报（自然科学版）,2016,43(2):135-140. 被引量：13
2方欣欣,龚如宾,李大为.基于余弦距离的多目标粒子群优化算法[J].电子科技,2016,29(3):48-52. 被引量：4
3王贵新,郑孝宗,张浩然,张小川.基于Word2vec的短信向量化算法[J].电子科技,2016,29(4):49-52. 被引量：4
4宋春雪,文萍,张学晨.基于5G无线通信的稀疏码多址接入系统的FPGA实现[J].电子技术应用,2016,42(7):8-12. 被引量：3
5曹靖,陈陆燊,邱剑,王慧芳,应高亮,张波.基于语义框架的电网缺陷文本挖掘技术及其应用[J].电网技术,2017,41(2):637-643. 被引量：83
6李雪莲,段鸿,许牧.基于门循环单元神经网络的中文分词法[J].厦门大学学报（自然科学版）,2017,56(2):237-243. 被引量：22
7段华琼,唐宾徽.基于线性多尺度模型的计算机网络数据流量预测[J].沈阳工业大学学报,2017,39(3):322-327. 被引量：12
8张洪刚,李焕.基于双向长短时记忆模型的中文分词方法[J].华南理工大学学报（自然科学版）,2017,45(3):61-67. 被引量：12
9张子睿,刘云清.基于BI-LSTM-CRF模型的中文分词法[J].长春理工大学学报（自然科学版）,2017,40(4):87-92. 被引量：21
10谷重阳,徐浩煜,周晗,张俊杰.基于词汇语义信息的文本相似度计算[J].计算机应用研究,2018,35(2):391-395. 被引量：29

引证文献6

1黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(二)——深度学习自动分词模型构建[J].图书情报工作,2019,63(23):5-12. 被引量：9
2卢佳伟,陈玮,尹钟.融合TextRank算法的中文短文本相似度计算[J].电子科技,2020,33(10):51-56. 被引量：5
3赵巍.基于改进长短时记忆神经网络的5G通信网络流量预测[J].沈阳工业大学学报,2022,44(6):672-676. 被引量：7
4高晓娟,张爱华,杨姣.基于改进神经网络的医疗大数据智能处理算法设计[J].电子设计工程,2023,31(9):34-38.
5马行星,左军辉,池俊.基于文本分类与语义识别的电力运营数据智能处理[J].电子设计工程,2023,31(9):104-108.
6张艳.基于融合LSTM的电力工程标签提取与识别算法设计[J].电子设计工程,2024,32(16):125-129.

二级引证文献21

1李宁.基于WordSmith软件的平行语料库加工处理系统设计[J].自动化与仪器仪表,2021(2):131-134.
2黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17. 被引量：48
3周瑛,张晓宇,虞小芳.基于产品评论挖掘的消费者偏好分析[J].情报科学,2022,40(1):58-65. 被引量：11
4任常青.数字人文视角下县志作物类物产实体识别研究——以雄安县志为例[J].信息与电脑,2022,34(1):74-76. 被引量：2
5王旭雯,佘万卫.基于电子商务平台标注的区域产品发展影响因素研究[J].互联网周刊,2022(13):20-23.
6胡雪若白,黄洁,王建涛,李一鸣.基于高斯层次感知的知识图谱链接预测[J].电子科技,2022,35(12):91-96. 被引量：1
7邬彤,于莲芝.融入注意力网络的深度分解机推荐算法[J].电子科技,2023,36(1):38-43. 被引量：1
8何传鹏,尹玲,黄勃,王明胜,郭茹燕,张帅,巨家骥.基于BERT和LightGBM的文本关键词提取方法[J].电子科技,2023,36(3):7-13. 被引量：5
9刘玉威,曹民,冯浩甲.基于自然语言处理的CNAS认可准则自动对标系统[J].电子科技,2023,36(5):28-33.
10黄水清,刘浏,王东波.计算人文学科的内涵、体系及机遇[J].图书与情报,2023(1):1-11. 被引量：6

1沈龙骧,邹博伟,叶静,周国栋,朱巧明.基于双向LSTM与CRF融合模型的否定聚焦点识别[J].中文信息学报,2019,33(1):25-34. 被引量：4
2王洪浩.中文分词算法在搜索引擎应用中的研究[J].中小企业管理与科技,2019,3(3):103-104. 被引量：1
3桑杰端珠,才让加.神经网络藏文分词方法研究[J].青海科技,2018,25(6):15-21. 被引量：7
4杨海燕.基于MOOC资源学生自主学习的实践与反思——以高一年级历史学科个性化作业为例[J].中小学信息技术教育,2019,0(2):88-90. 被引量：1
5姚茂建,李晗静,吕会华,姚登峰.基于BI＿LSTM＿CRF神经网络的序列标注中文分词方法[J].现代电子技术,2019,42(1):95-99. 被引量：14
6冯雪.中文分词模型词典融入方法比较[J].计算机应用研究,2019,36(1):8-10. 被引量：6
7韩威.英日语谈话结构和表现方式的对比分析——以谈话标识的对比研究为中心[J].北方文学（中）,2018,0(12):232-233.
8沈威.基于UML的小句本体模型研究[J].四川文理学院学报,2019,29(2):57-61.
9李源,黄文灿,胡金柱.一种结构和语义兼顾的综合分析思想在复句依存句法分析中的运用[J].计算机与数字工程,2019,47(3):587-592. 被引量：2
10欢迎订阅《中文信息学报》[J].中文信息学报,2019,0(1):132-132.

电子科技

2019年第4期

浏览历史

内容加载中请稍等...

基于异构数据联合训练的中文分词法被引量：6

参考文献1

二级参考文献13

共引文献3

同被引文献66

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于异构数据联合训练的中文分词法 被引量：6

参考文献1

二级参考文献13

共引文献3

同被引文献66

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于异构数据联合训练的中文分词法被引量：6