-
题名基于循环神经网络序列标注的中文分词研究
被引量:4
- 1
-
-
作者
刁琦
古丽米拉·克孜尔别克
钟丽峰
张健
张志强
-
机构
新疆农业大学计算机与信息工程学院
新疆维吾尔自治区图书馆
新疆虹联软件有限公司
-
出处
《计算机技术与发展》
2017年第10期65-68,共4页
-
基金
新疆维吾尔自治区科技计划项目(2015X0106)
-
文摘
分词是中文自然语言处理中的关键技术。在自然语言处理中,序列标注在中文分词中有着极其重要的应用。当前主流的中文分词方法是基于监督学习,从中文文本中提取特征信息。这些方法未能充分地利用上下文信息对中文进行分割,缺乏长距离信息约束能力。针对上述问题进行研究,提出在序列标注的前提下利用双向循环神经网络模型进行中文分词,避免了窗口对上下文大小的限制,可以获得一个词的前面和后面的上下文信息,通过增加上下文能够有效地解决梯度爆炸和爆的问题,然后再在输入层加入训练好的上下文词向量,取得相对较好的分词效果。实验结果表明,该算法的使用可以达到97.3%的中文分词准确率,与传统机器学习分词算法相比,效果较为显著。
-
关键词
自然语言处理
循环神经网络
序列标注
中文分词
监督学习
-
Keywords
natural language processing
recurrent neural network
sequence annotation
Chinese word segmentation
supervised learning
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-