基于表示学习的中文分词算法探索被引量：34

Chinese Word Segment Based on Character Representation Learning

下载PDF

导出

摘要分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。 Word segmentation is a fundamental technology of Chinese natural language processing.Using characterbased statistical machine learning methods to perform Chinese word segmentation is the main trendcurrently.However,conventional machine learning methods heavily rely on manually designed features,which require intensive labor to modify the features and verify their effectiveness.With the rapid develop of neural-network-based representation learning,it becomes realistic to learn featuresautomatically.This paper investigates a Chinese word segment method based on representation learning.We first learn embedding vectors for Chinese characters from a large corpus unsupervisedly,and then apply them to neural-network-based Chinese word segmentation supervisedly.Experimental results show that representation learning is an effective method for Chinese word segmentation.However,due to the limitation of corpus size,it still cannot replace conventional machine learning methods whichbased on manually designed features.

作者来斯惟徐立恒陈玉博刘康赵军

机构地区中国科学院自动化研究所模式识别国家重点实验室

出处《中文信息学报》 CSCD 北大核心 2013年第5期8-14,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(61070106,61272332,61202329) 国家高技术研究发展计划资助项目(863计划)(2012AA011102) 国家重点基础研究发展计划资助项目(973计划)(2012CB316300) 网络文化与数字传播北京市重点实验室开放课题资助项目(ICDD201201)

关键词表示学习中文分词 representation learning Chinese word segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1汉语信息处理词汇01部分:基本术语(GB12200.1-90)6[s],中国标准出版社,1991.
2Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
3Bengio Y,Schwenk H,Senécal J S,et al.Neural probabilistic language models[M].Innovations in Machine Learning.Springer Berlin Heidelberg,2006:137-186.
4Collobert R,Weston J,Bottou L,et al.Natural language processing (almost) from scratch[J].The Journal of Machine Learning Research,2011,12:2493-2537.
5Xue N.Chinese word segmentation as character tagging[J].Computational Linguistics and Chinese Language Processing,2003,8(1):29-48.
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
7Peng F,Feng F,McCallum A.Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004:562.
8Tang B,Wang X,Wang X.Chinese Word Segmentation Based on Large Margin Methods[J].Int.J.of Asian Lang.Proc.,2009,19(2):55-68.
9ZhaoH,Huang C N,Li M,et al.Effective tag set selection in Chinese word segmentation via conditional random field modeling[C]//Proceedings of PACLIC.2006,20:87-94.
10Wang K,Zong C,Su K Y.A character-based joint model for Chinese word segmentation[C]//Proceedings of the 23rd International Conference on Computational Linguistics.Association for Computational Linguistics,2010:1173-1181.

二级参考文献33

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
7H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
8Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
9S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
10J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002

共引文献428

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
3唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
4李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
5王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
6宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
7陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
8尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
9于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
10于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1

同被引文献322

1李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：54
2张良,秦雪.基于气象的特大城市运行风险治理多层次联动响应体系研究——以上海市徐汇区为例[J].风险灾害危机研究,2020(1):169-188. 被引量：1
3薛阳,张宁,吴海东,俞志程,李蕊.基于UTCI-MIC与振幅压缩灰色模型的用户侧微电网短期负荷预测方法[J].电网技术,2020,44(2):556-563. 被引量：25
4李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
5孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
6韦永壮,袁春风,黄宜华.CCDet:一种高效的大规模中文重复网页检测方法[J].计算机研究与发展,2013,50(S2):140-152. 被引量：4
7刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
8李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
9孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
10储荷婷.索引工作自动化:自动标引的主要方法[J].情报学报,1993,12(3):218-229. 被引量：10

引证文献34

1李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
2丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
3张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
4李国臣,党帅兵,王瑞波,李济洪.基于字的分布表征的汉语基本块识别[J].中文信息学报,2014,28(6):18-25. 被引量：6
5胡侯立,魏维,谢青松.深层自动编码机的文本分类算法改进[J].计算机应用研究,2015,32(4):992-995. 被引量：1
6饶齐,王裴岩,张桂平.面向中文专利SAO结构抽取的文本特征比较研究[J].北京大学学报（自然科学版）,2015,51(2):349-356. 被引量：16
7梁喜涛,顾磊.基于分层选择策略的主动学习分词方法[J].计算机应用研究,2015,32(5):1353-1356.
8李岩,Zhang Yinghua,Huang Xiaoping,Yin Xucheng,Hao Hongwei.Chinese word segmentation with local and global context representation learning[J].High Technology Letters,2015,21(1):71-77. 被引量：2
9梁喜涛,顾磊.基于最近邻的主动学习分词方法[J].计算机科学,2015,42(6):228-232. 被引量：1
10滕秋霞,杨金霄,方永佳.基于投票混合模型的中文地址分词研究[J].工业控制计算机,2015,28(11):105-106. 被引量：2

二级引证文献155

1熊欣,王昊,张海潮,张宝隆.中文术语粒度对其区分能力测度的影响分析[J].数据分析与知识发现,2020,4(2):143-152. 被引量：2
2秦帅波.中医知识智能诊断系统的研究[J].计算机产品与流通,2020,9(1):142-142.
3李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
4那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
5蔡君,张淋辉.通向三代移动通信的桥梁：GPRS技术及其解决方案概览[J].互联网世界,2000(4):26-31.
6俞世安.关于今年生猪产销情况的预测[J].肉品卫生,2000(4):31-31.
7康静涵.入情入境感悟运用——《颐和园》一课教学谈[J].小学语文教学,2000(7):106-107.
8马建红,张明月,赵亚男.面向创新设计的专利知识抽取方法[J].计算机应用,2016,36(2):465-471. 被引量：8
9赵越,李红.极大似然优化EM算法的汉语分词认知模型[J].科技通报,2016,32(4):178-181. 被引量：2
10李国臣,刘展鹏,王瑞波,李济洪.融合分词隐层特征的汉语基本块识别[J].中文信息学报,2016,30(2):12-17.

1冯楠.基于GPU和CPU协同处理实现的Canopy算法探索[J].硅谷,2012(9):21-22. 被引量：1
2王清辉.基于随机数的计算机智能组卷算法探索[J].福建电脑,2006,22(11):125-125. 被引量：3
3牛振喜.一种基于流密码和遗传算法的高效数字图像加密算法探索[J].西北工业大学学报,2011,29(6):859-863. 被引量：1
4张明玉,倪志伟.基于机器学习的智能决策支持系统[J].淮南师范学院学报,2005,7(3):38-41. 被引量：4
5车金星,舒方帅,赵云.基于集成学习的支持向量回归预测模型[J].南昌工程学院学报,2016,35(3):66-70. 被引量：3
6谢志妮.一种新的自适应中文网页聚类算法[J].现代计算机,2009,15(12):51-57.
7刘俊平,李书振,张志毅.智能搜索引擎实例分析[J].计算机应用研究,2003,20(1):82-84. 被引量：10
8张菲菲,李宗海,周晓辉,李晓戈.基于层次聚类的跨文本中文人名消歧研究[J].计算机工程与应用,2014,50(6):106-111. 被引量：8
9申晓宁,郭毓,陈庆伟,胡维礼.一种保持群体多样性的多目标遗传算法[J].控制与决策,2008,23(12):1435-1440. 被引量：10
10曾军,周国富.基于机器学习的多语言文本抽取系统实现[J].计算机应用与软件,2017,34(4):87-92. 被引量：4

中文信息学报

2013年第5期

浏览历史

内容加载中请稍等...

基于表示学习的中文分词算法探索被引量：34

参考文献20

二级参考文献33

共引文献428

同被引文献322

引证文献34

二级引证文献155

相关作者

相关机构

相关主题

浏览历史

基于表示学习的中文分词算法探索 被引量：34

参考文献20

二级参考文献33

共引文献428

同被引文献322

引证文献34

二级引证文献155

相关作者

相关机构

相关主题

浏览历史

基于表示学习的中文分词算法探索被引量：34