期刊文献+

基于双向LSTM神经网络模型的中文分词 被引量:38

Bi-directional Long Short-term Memory Neural Networks for Chinese Word Segmentation
下载PDF
导出
摘要 中文分词是中文自然语言处理的基础。分词质量的好坏直接影响之后的自然语言处理任务。目前主流的分词是基于传统的机器学习模型。近年来,随着人工智能大潮的又一次兴起,长短期记忆(LSTM)神经网络模型改进了普通循环神经网络模型无法长期依赖信息的缺点,被广泛应用于自然语言处理的各种任务中,并取得了不错的效果。对中文分词,该文在经典单向LSTM模型上进行改进,增加了自后向前的LSTM层,设计了双向LSTM模型,改进了单向LSTM对后文依赖性不足的缺点;并引入了贡献率α,对前传LSTM层和后传LSTM层的权重矩阵进行调节,并设计了四个实验,验证了所建模型的正确性和优越性。 Chinese word segmentation(CWS)is a fundamental issue of Chinese language processing(NLP).which affects the subsequent NLP tasks substantially.At present,the state-of-the-art solution is based on the classical machine learning model.Recently,Long Short-term Memory(LSTM)model has been proposed to solve the long-term dependencies in classical RNN model,and already well daapted in various kinds of NLP tasks.As for CWS task,we add a layer of backward LSTM based on unidirectional classical LSTM to build a Bi-directional Long Short-term Memory Neural Network model(Bi-LSTM).And we also propose a contribution rate to balance the matrix's value in forward LSTM layer and backward LSTM layer.We design four experiments to demonstrate that our model is reliable and preferable.
作者 金宸 李维华 姬晨 金绪泽 郭延哺 JIN Chen;LI Weihua;JI Chen;JIN Xuze;GUO Yanbu(Science and Engineering Department of YunnanUniversity, Kunming, Yunnan 650503, China;Education Department of Henan Normal University, Xinxiang, Henan 453007, China)
出处 《中文信息学报》 CSCD 北大核心 2018年第2期29-37,共9页 Journal of Chinese Information Processing
基金 国家自然科学基金(11661081)
关键词 中文分词 自然语言处理 双向LSTM 贡献率 CWS NLP Bi-LSTM contribution rate
  • 相关文献

参考文献6

二级参考文献47

共引文献329

同被引文献325

引证文献38

二级引证文献189

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部