使用无监督学习改进中文分词被引量：8

Improving Chinese Word Segmentation Via Unsupervised Learning

下载PDF

导出

摘要针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文分词改进算法.使用基准分词器对未标注的语料进行分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未登录词,修正分词结果.在传统中文语料上与互联网语料上,比较了基于字典的字符串匹配模型与基于字符标注的机器学习模型的分词效果.实验结果表明,改进算法可以提升中文分词效果,在互联网语料上的提升效果尤为明显.改进算法在PKU语料上取得了最多1.1%的F值提升,在MSR语料上取得了最多1.2%的F值提升,在互联网语料上取得了最多5%的F值提升. The challenge of out-of-vocabulary （ OOV ） words makes Chinese word segmentation （ CWS ） tools behave poorly when processing internet corpus. An unsupervised learning-based algorithm was proposed to improve CWS performance. A baseline CWS tool was used to generate temporal segmentation results over unlabeled corpus and the temporal segmentation results were used to learn distributed word representations. Finally, the distributed word representations were used to tune the segmentation results in a greedy way. Dictionary-based phrase matching approach and character-based machine learning approach were compared on traditional corpus and internet corpus. The experiment results show that the proposed approach will improve CWS performance, especially over the inter- net corpus. It is shown that the proposed approach will improve the F-score over the PKU corpus by up to 1.1%, will improve the F- score over the MSR corpus by up to 1.2% ,and will improve the F-score over the intemet corpus by up to 5%.

作者沈翔翔李小勇

机构地区上海交通大学信息安全工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2017年第4期744-748,共5页 Journal of Chinese Computer Systems

关键词中文分词词向量无监督学习未登陆词分词优化互联网语料 Chinese word segmentation （ CWS ） word embeddings unsupervised learning out-of-vocabulary （ OOV ） words CWS optimization intemet corpus

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：248

二级参考文献6

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16

共引文献247

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
4于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
5赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
6李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
7麦范金,王挺.基于双向最大匹配和HMM的分词消歧模型[J].现代图书情报技术,2008(8):37-41. 被引量：9
8王凡秀.基于条件随机场的中文地名识别[J].中国西部科技,2008,7(28):8-8.
9王凡秀,王自强.汉语自动分词技术研究[J].计算机与数字工程,2008,36(11):57-59. 被引量：3
10明小娜,龙毅,钱程扬,张翎.基于受限自然语言的GIS命令解析方法[J].地球信息科学,2009,11(2):183-188. 被引量：3

同被引文献85

1傅隆生,宋珍珍,Zhang Xin,李瑞,王东,崔永杰.深度学习方法在农业信息中的研究进展与应用现状[J].中国农业大学学报,2020,25(2):105-120. 被引量：49
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
4丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
6费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
7孔东林,罗向阳,邓崎皓,罗军勇.基于AC自动机匹配算法的入侵检测系统研究[J].微电子学与计算机,2005,22(3):89-92. 被引量：7
8孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
9李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
10刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67

引证文献8

1王若佳,赵常煜,王继民.中文电子病历的分词及实体识别研究[J].图书情报工作,2019,63(2):34-42. 被引量：18
2李健龙,王盼卿,韩琪宇.面向军事领域的中文分词技术研究[J].计算机与现代化,2018(11):115-118. 被引量：2
3汪文妃,徐豪杰,杨文珍,吴新丽.中文分词算法研究综述[J].成组技术与生产现代化,2018,35(3):1-8. 被引量：10
4许峰,张雪芬,忻展红.基于深度神经网络模型的中文分词方案[J].哈尔滨工程大学学报,2019,40(9):1662-1666. 被引量：12
5敖盛,徐岚,敖清文.NLP中文分词技术在桥梁报告数据处理中的应用[J].交通世界,2020(17):3-5. 被引量：2
6来纯晓,李艳翠,金松林,韩博,闫思尧,刘明久.基于深度学习的小麦抗寒性识别系统设计[J].河南科技学院学报（自然科学版）,2020,48(6):59-67.
7李海艳,王文东,江丛君.机器学习下的新冠疫情新闻文本分类[J].延安大学学报（自然科学版）,2023,42(1):79-82. 被引量：1
8周凯,焦龄霄,胡志坚,严利雄,毕如玉,王勇杰.基于注意力机制的CNN-BiLSTM操作票自动校核方法[J].武汉大学学报（工学版）,2023,56(9):1114-1123. 被引量：2

二级引证文献47

1赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：1
2屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：5
3秦帅波.中医知识智能诊断系统的研究[J].计算机产品与流通,2020,9(1):142-142.
4崔建峰,张晓云,陈金鑫.面向神经网络的模糊测试算法优化[J].厦门理工学院学报,2019,27(5):41-46.
5黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评[J].图书情报工作,2019,63(22):5-12. 被引量：15
6漆月,石璐.面向图书采选的语义化查重策略[J].数字图书馆论坛,2019,0(11):61-66. 被引量：1
7刘新,吕峰,孙玉明,李福顺.基于大数据的铁路安全信息与技术规章协同分析系统[J].铁路计算机应用,2020,29(2):34-37. 被引量：2
8赵己周,杨颖.城市公共交通发展热点议题分析[J].交通科技与经济,2020,22(3):24-28. 被引量：7
9熊健,翟紫姹.基于词性标注与分词消歧的中文分词方法[J].广州大学学报（自然科学版）,2019,18(5):27-33. 被引量：3
10齐玉东,丁海强,司维超,李程瑜.基于改进CNN的海军军事文本分类模型[J].电光与控制,2020,27(5):68-73. 被引量：9

1崔凯,周斌,贾焰,梁政.一种基于LDA的在线主题演化挖掘模型[J].计算机科学,2010,37(11):156-159. 被引量：34
2陈飞,刘奕群,魏超,张云亮,张敏,马少平.基于条件随机场方法的开放领域新词发现[J].软件学报,2013,24(5):1051-1060. 被引量：43
3李义连.OpenGL 3D API系统下CAD/GIS软件开发中字符标注设计[J].微型电脑应用,1999,15(5):43-44.
4赵丹丹,潘新,刘霞,郜晓晶.基于提升小波和深度学习的掌纹识别[J].计算机仿真,2016,33(10):338-342.
5舒正平.键控定位标注字符技术[J].电脑学习,1989(6):42-43.
6HUNG Chih-Cheng,XIANG Mei,Minh Pham,KUO Bor-Chen,Tommy L. Coleman.基于遗传算法的多光谱影像非监督训练分类系统(英文)[J].遥感学报,2007,11(5):702-709.
7康晓东,王昊,郭军,于文勇.无监督深度学习彩色图像识别方法[J].计算机应用,2015,35(9):2636-2639. 被引量：20
8贺鹏程.基于类别条件的受限玻尔兹曼机改进设计[J].计算机与数字工程,2016,44(8):1436-1438.
9尹远,廖敏江,李校林.基于无监督学习的行人检测算法[J].广东通信技术,2015,35(2):43-48. 被引量：2
10年梅,张兰芳.维吾尔文网络查询扩展词的构建研究[J].计算机工程,2015,41(4):187-189. 被引量：3

小型微型计算机系统

2017年第4期

浏览历史

内容加载中请稍等...

使用无监督学习改进中文分词被引量：8

参考文献1

二级参考文献6

共引文献247

同被引文献85

引证文献8

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

使用无监督学习改进中文分词 被引量：8

参考文献1

二级参考文献6

共引文献247

同被引文献85

引证文献8

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

使用无监督学习改进中文分词被引量：8