基于门循环单元神经网络的中文分词法被引量：22

A Gated Recurrent Unit Neural Network for Chinese Word Segmentation

下载PDF

导出

摘要目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神经网络应用于中文分词任务的方法,该方法可以自动学习特征,并有效建模长距离依赖信息,但是该模型较为复杂,存在模型训练和预测时间长的缺陷.针对该问题,提出了基于门循环单元(gated recurrent unit,GRU)神经网络的中文分词法,该方法继承了LSTM模型可自动学习特征、能有效建立长距离依赖信息的优点,具有与基于LSTM神经网络中文分词法相当的性能,并在速度上有显著提升. Currently, the common method for Chinese word segmentation is traditional machine learning on character-based sequence labeling.However,this method faces disadvantages such as manual feature engineering and sparse features.With the increasing re- search and application of deep learning,researchers have proposed a method by applying long short-term memory （LSTM） to Chi- nese word segmentation task. This method is capable of learning features automatically and capturing long-distance dependence as well.However, this method is complicated,and has defects in speed.Therefore,we propose a gated recurrent unit （GRU） neural net- work for Chinese word segmentation,which are also associated with advantages of learning features automatically and the ability of capturing long-distance dependence.Finally,our method performs comparably well as the LSTM neural network for Chinese word segmentation,and exhibits a great improvement in training and predicting speeds.

作者李雪莲段鸿许牧 LI Xuelian DUAN Hong XU Mu(Software School of Xiamen University, Xiamen 361005,China)

机构地区厦门大学软件学院

出处《厦门大学学报（自然科学版）》 CAS CSCD 北大核心 2017年第2期237-243,共7页 Journal of Xiamen University：Natural Science

基金福建省自然科学基金(2013J01250)

关键词自然语言处理中文分词门循环单元字嵌入循环神经网络 natural language processing Chinese word segmentation gated recurrent unit （GRU） character embedding recurrent neural networks

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
2张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99
3吴春颖,王士同.基于二元语法的N-最大概率中文粗分模型[J].计算机应用,2007,27(12):2902-2905. 被引量：12

二级参考文献31

1陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
2周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
3王峰,游志胜,曼丽春,高燕,汤丽萍.Dijkstra及基于Dijkstra的前N条最短路径算法在智能交通系统中的应用[J].计算机应用研究,2006,23(9):203-205. 被引量：41
4陈小荷.现代汉语自动分析[M].北京：北京语言文化大学出版社,2000..
5冯志伟，中文信息处理与汉语研究，1992年
6张国煊，计算机研究与发展，1991年，1期
7黄祥熹，计算机应用与软件，1991年，6期
8贺银云，计算机杂志，1991年，1期
9贺银云，计算机杂志，1991年，2期
10贺银云，计算机杂志，1991年，3期

共引文献131

1战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
2隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
3张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
4王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
7李文翔,晏蒲柳,夏德麟,张滨.基于差异相似矩阵算法的词语用法知识发现[J].计算机应用与软件,2005,22(1):90-92.
8刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
9黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
10夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24

同被引文献215

1李健,王作英.HMM转移概率的新的重估算法[J].电子学报,2001,29(z1):1833-1835. 被引量：5
2龙万学,林剑,许湘华,廖秀英,彭小平.Verhulst反函数模型滑坡起始预测时刻的选择[J].岩石力学与工程学报,2008,27(S1):3298-3304. 被引量：9
3贺小黑,王思敬,肖锐铧,饶枭宇,罗斌.Verhulst滑坡预测预报模型的改进及其应用[J].岩土力学,2013,34(S1):355-364. 被引量：22
4樊智,张世英.非线性协整建模研究及沪深股市实证分析[J].管理科学学报,2005,8(1):73-77. 被引量：21
5温文,吴旭彬.Verhulst 模型在黄茨滑坡临滑预测中的应用[J].人民珠江,2005,26(5):38-40. 被引量：12
6曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
7尹光志,张卫中,张东明,康钦容.基于指数平滑法与回归分析相结合的滑坡预测[J].岩土力学,2007,28(8):1725-1728. 被引量：63
8许启发,蒋翠侠,张世英.基于小波多分辨分析的协整建模理论与方法的扩展[J].统计研究,2007,24(8):92-96. 被引量：8
9樊伟,张晶,周为峰.南太平洋长鳍金枪鱼延绳钓渔场与海水表层温度的关系分析[J].大连水产学院学报,2007,22(5):366-371. 被引量：35
10钱盛友,许慧燕.基于动态时间规整和神经网络的方言辨识研究[J].计算机工程与应用,2008,44(10):211-213. 被引量：9

引证文献22

1余本功,张培行,许庆堂.基于F-BiGRU情感分析的产品选择方法[J].数据分析与知识发现,2018,2(9):22-30. 被引量：4
2王志超,孙建斌,秦瑞丽.基于分词的关联规则预测系统研究[J].计算机应用与软件,2018,35(12):140-143. 被引量：4
3余培,行鸿彦,刘刚.中文评论情感分析方法研究[J].电子测量与仪器学报,2018,32(12):197-203. 被引量：5
4汤鲲,陈思思.基于GRU+LDA的群聊主题挖掘[J].计算机与现代化,2018(12):72-76. 被引量：1
5谢可欣,董胡,邹孝,汤琛,钱盛友.基于GRU-HMM声学模型的湖南方言辨识[J].计算机与数字工程,2019,47(3):493-496. 被引量：2
6徐鹏,刘嘉勇,林波,孙慧颖,雷斌.基于循环神经网络的模糊测试用例生成[J].计算机应用研究,2019,36(9):2679-2685. 被引量：6
7孙宝山,李玮.窥视孔连接的循环网络在中文分词上的研究[J].计算机工程与应用,2019,55(19):160-165. 被引量：1
8袁红春,陈骢昊.基于融合深度学习模型的长鳍金枪鱼渔情预测研究[J].渔业现代化,2019,46(5):74-81. 被引量：8
9黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(二)——深度学习自动分词模型构建[J].图书情报工作,2019,63(23):5-12. 被引量：9
10邓天民,岳云霞,杨其芝,方芳.基于LSTM智能网联汽车高精度定位方法[J].计算机工程与设计,2020,41(3):867-873. 被引量：3

二级引证文献111

1尹诗,侯国莲,胡晓东,周继威,弓林娟.风力发电机组发电机前轴承故障预警及辨识[J].仪器仪表学报,2020(5):242-251. 被引量：27
2杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
3李博嘉,张仰森,陈若愚.一种可指定分布的海量数据生成方法[J].计算机科学,2019,46(8):56-63.
4崔建峰,张晓云,陈金鑫.面向神经网络的模糊测试算法优化[J].厦门理工学院学报,2019,27(5):41-46.
5何伟,李云飞.智慧照明监控系统[J].计算机系统应用,2019,28(12):72-78. 被引量：3
6王德广,黄浩洋.基于MHPSO优化GRU神经网络的短时交通流预测[J].大连交通大学学报,2020,41(1):12-17. 被引量：2
7朱芳鹏,王晓峰.面向船舶工业新闻的文本分类[J].电子测量与仪器学报,2020,32(1):149-155. 被引量：11
8沈卓,李艳.基于PreLM-FT细粒度情感分析的餐饮业用户评论挖掘[J].数据分析与知识发现,2020,4(4):63-71. 被引量：13
9袁红春,毛瑞,杨蒙召.基于改进A*算法的人工智能鱼路径规划研究[J].渔业现代化,2020,47(3):89-96. 被引量：3
10敖盛,徐岚,敖清文.NLP中文分词技术在桥梁报告数据处理中的应用[J].交通世界,2020(17):3-5. 被引量：2

1王琪,鲍丽丹,张铁军,王东辉,侯朝焕.软硬件协同循环优化方法的设计与实现[J].计算机辅助设计与图形学学报,2013,25(10):1574-1581. 被引量：1
2Guo-Bing Zhou,Jianxin Wu,Chen-Lin Zhang,Zhi-Hua Zhou.Minimal Gated Unit for Recurrent Neural Networks[J].International Journal of Automation and computing,2016,13(3):226-234. 被引量：38
3杨晓红.云计算的定义和体系结构以及应用分析[J].信息与电脑（理论版）,2012(11):46-47. 被引量：1
4董晓婷.大数据的定义特征及其应用分析[J].硅谷,2013,6(11):120-120. 被引量：33
5李莹,李雪安.智能代理及其在网络管理中的应用[J].计算机工程,2000,26(S1):401-405.
6郭群,万立,钟毅芳,周济.基于层次结构的特征及其在CAD/CAM中的应用[J].计算机工程,1997,23(6):68-70.
7刘海泉,张永强.一种基于粗糙集理论的特征选取方法[J].科技资讯,2007,5(28):204-206.
8Zhang Yongjun(Institute of Command and Technology, COSTIND, Beijing 101407)Chen Zongzhi (Institute of Electronics, Academia Sinica, Beijing 100080).ANALYSIS AND IMPROVEMENT OF RECURRENT CORRELATION NEURAL NETWORKS[J].Journal of Electronics(China),1997,14(3):215-219.
9王博立,史晓东,苏劲松.一种基于循环神经网络的古文断句方法[J].北京大学学报（自然科学版）,2017,53(2):255-261. 被引量：21
10李春生.一种体现长距离依赖关系的语言模型[J].科技视界,2014(5):55-56. 被引量：4

厦门大学学报（自然科学版）

2017年第2期

浏览历史

内容加载中请稍等...

基于门循环单元神经网络的中文分词法被引量：22

参考文献3

二级参考文献31

共引文献131

同被引文献215

引证文献22

二级引证文献111

相关作者

相关机构

相关主题

浏览历史

基于门循环单元神经网络的中文分词法 被引量：22

参考文献3

二级参考文献31

共引文献131

同被引文献215

引证文献22

二级引证文献111

相关作者

相关机构

相关主题

浏览历史

基于门循环单元神经网络的中文分词法被引量：22