基于BI-LSTM-CRF模型的中文分词法被引量：21

Chinese Word Segmentation Based on Bi-directional LSTM-CRF Model

下载PDF

导出

摘要递归神经网络能够很好地处理序列标记问题,已被广泛应用到自然语言处理(NLP)任务中。提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短期记忆条件随机场(BI-LSTM-CRF)模型,不仅保留了LSTM能够利用上下文信息的特性,同时能够通过CRF层考虑输出标签之间前后的依赖关系。利用该分词模型,通过加入预训练的字嵌入向量,以及使用不同词位标注集在Bakeoff2005数据集上进行的分词实验,结果表明:BI-LSTM-CRF模型比LSTM和双向LSTM模型具有更好的分词性能,同时具有很好地泛化能力;相比四词位,采用六词位标注集的神经网络模型能够取得更好的分词性能。 Recurrent neural network had been broadly applied to natural language processing（NLP） problems,because they deal well with the problem of sequence labeling. In this paper, we propose to use bidirectional LSTM CRF（BI-LSTM-CRF） model for Chinese word segmentation, which is based on long short-term memory（LSTM）units. This model not only can keep the contextual information in both directions,but also through the CRF layer to consider the dependency between the output tag. By using different tag set and adding pre-trained character embeddings, and using the model in the Bakeoff2005 data set on the word segmentation experiment results show that：BI-LSTM-CRF model has better segmentation performance than LSTM and bidirectional LSTM model,and has good generalization ability;Compared with the four-tag-set,the neural network model with the six-tag-set can achieve better segmentation performance.

作者张子睿刘云清

机构地区长春理工大学电子信息工程学院

出处《长春理工大学学报（自然科学版）》 2017年第4期87-92,共6页 Journal of Changchun University of Science and Technology(Natural Science Edition)

基金吉林省科技攻关项目(No.20160204003GX)

关键词中文分词 BI-LSTM-CRF 词位标注 Chinese word segment BI-LSTM-CRF tag set

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
2刘一佳,车万翔,刘挺,张梅山.基于序列标注的中文分词、词性标注模型比较分析[J].中文信息学报,2013,27(4):30-36. 被引量：12

二级参考文献17

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
7Nianwen Xue. Chinese word segmentation as character tagging[J]. InternationalJournal of Computational Linguistics and Chinese Language Processing. 2003. 8 0): 29-48.
8Tseng H. Chang P. Andrew G. et al. A conditional random field word segmenter for sighan bakeoff 2005[CJ/ /Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing. 2005: 17l.
9Yue Zhang. Stephen Clark. Chinese segmentation with a word-based perceptron algorithm[CJ/ /Proceedings of the 45 th ACL. 2007: 840-847.
10Collins M. Discriminative training methods for hidden markov models: Theory and experiments with percep?tron algorithms[CJ/ /Proceedings of the ACL-02 con?ference on Empirical methods innatural language pro?cessing-Volume 10. 2002: 1-8.

共引文献258

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
7李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
8麦范金,王挺.基于双向最大匹配和HMM的分词消歧模型[J].现代图书情报技术,2008(8):37-41. 被引量：9
9王凡秀.基于条件随机场的中文地名识别[J].中国西部科技,2008,7(28):8-8.
10王凡秀,王自强.汉语自动分词技术研究[J].计算机与数字工程,2008,36(11):57-59. 被引量：3

同被引文献192

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
3王献昌,史晓东,陈火旺.机器翻译与自然语言处理的现状与趋势[J].计算机科学,1992,19(3):1-3. 被引量：3
4丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6贺前华,徐秉铮.机器翻译综述[J].情报科学,1993,14(04X):60-67. 被引量：4
7杨立才,贾磊,何立琴,孔庆杰.基于混沌小波网络的交通流预测算法研究[J].山东大学学报（工学版）,2005,35(2):46-49. 被引量：12
8孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
9李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
10刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68

引证文献21

1万倩,朱里越,欧阳峰.基于人工智能的广电舆情分析系统[J].广播与电视技术,2019,0(12):46-52. 被引量：6
2王东波,高瑞卿,苏新宁,朱丹浩.面向情报学课程设置的数据科学技能素养自动抽取及分析研究[J].情报理论与实践,2018,41(12):61-66. 被引量：13
3王东波,陆昊翔,周鑫,朱丹浩.面向摘要结构功能划分的模型性能比较研究[J].图书情报工作,2018,62(12):84-90. 被引量：10
4冯国明,张晓冬,刘素辉.基于自主学习的专业领域文本DBLC分词模型[J].数据分析与知识发现,2018,2(5):40-47. 被引量：2
5张晨,钱涛,姬东鸿.基于神经网络的微博情绪识别与诱因抽取联合模型[J].计算机应用,2018,38(9):2464-2468. 被引量：5
6汪文妃,徐豪杰,杨文珍,吴新丽.中文分词算法研究综述[J].成组技术与生产现代化,2018,35(3):1-8. 被引量：10
7成于思,施云涛.基于深度学习和迁移学习的领域自适应中文分词[J].中文信息学报,2019,33(9):9-16. 被引量：14
8李曙军,张宏杰,王海棠,王秋爽.基于场景理论的STAC课程数据库自动检索系统[J].吉林大学学报（信息科学版）,2019,37(4):457-462. 被引量：1
9李俭兵,刘栗材.基于改进型神经网络的影评文本情感分析算法[J].计算机工程与科学,2019,41(12):2261-2269. 被引量：7
10黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(二)——深度学习自动分词模型构建[J].图书情报工作,2019,63(23):5-12. 被引量：9

二级引证文献130

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2王知津,樊振佳,张宁.新时代我国情报学教育的国际化与本土化[J].情报学进展,2022(1):1-49.
3苏新宁,杨国立.我国情报学学科建设研究进展[J].情报学进展,2020(1):1-38. 被引量：14
4秦帅波.中医知识智能诊断系统的研究[J].计算机产品与流通,2020,9(1):142-142.
5冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
6张胡,李树青,丁晓蔚,胡桓.面向数据科学的情报学学科研究方法及学科教育内容设计[J].图书与情报,2021(5):115-122. 被引量：8
7李振,周东岱,王勇.“人工智能+”视域下的教育知识图谱:内涵、技术框架与应用研究[J].远程教育杂志,2019,37(4):42-53. 被引量：125
8杨建林,苗蕾.情报学学科建设面临的主要问题与发展方向[J].科技情报研究,2019,1(1):29-50. 被引量：32
9李楠,方丽,张逸飞.学术文本结构功能深度学习识别方法的多学科对比分析[J].现代情报,2019,39(12):55-63. 被引量：6
10潘峻.基于双向LSTM的图书分类系统的设计与实现[J].信息技术,2020,44(1):67-70. 被引量：7

1王茵,周学广,陆健.基于条件随机场的中文情感分析方法比较研究[J].计算机与数字工程,2017,45(9):1703-1707. 被引量：1
2杨云.基于句法结构的评价对象抽取方法研究[J].长春教育学院学报,2017,33(6):67-71.
3刁琦,古丽米拉·克孜尔别克,钟丽峰,张健,张志强.基于循环神经网络序列标注的中文分词研究[J].计算机技术与发展,2017,27(10):65-68. 被引量：4
4邓丽萍,罗智勇.基于半监督CRF的跨领域中文分词[J].中文信息学报,2017,31(4):9-19. 被引量：19
5王林峰,晏峻峰,刘欢庆.基于Web数据挖掘的失眠症人群特征分析[J].医学信息学杂志,2017,38(8):64-68. 被引量：1
6吕鹏飞,王春宁,周峰,朱月琴.基于文献的知识发现在成矿预测领域的应用研究[J].中国矿业,2017,26(9):85-91. 被引量：2
7谢婷婷,严柯.基于统计的中文地址位置语义解析方法研究[J].软件导刊,2017,16(10):19-21. 被引量：8
8刘彤,黄修添,马建设,苏萍.基于完全联系的条件随机场的图像标注[J].计算机应用,2017,37(10):2841-2846. 被引量：5
9张学亮.以心灵自治引行为自治——NLP技术应用于班级管理的初步尝试[J].中国德育,2017,12(19):67-70.
10徐子淇,李煜.打造NLP文本分类深度学习方法库[J].机器人产业,2017(5):50-57. 被引量：2

长春理工大学学报（自然科学版）

2017年第4期

浏览历史

内容加载中请稍等...

基于BI-LSTM-CRF模型的中文分词法被引量：21

参考文献2

二级参考文献17

共引文献258

同被引文献192

引证文献21

二级引证文献130

相关作者

相关机构

相关主题

浏览历史

基于BI-LSTM-CRF模型的中文分词法 被引量：21

参考文献2

二级参考文献17

共引文献258

同被引文献192

引证文献21

二级引证文献130

相关作者

相关机构

相关主题

浏览历史

基于BI-LSTM-CRF模型的中文分词法被引量：21