基于CRFs边缘概率的中文分词被引量：19

Chinese Word Segmentation Based on the Marginal Probabilities Generated by CRFs

下载PDF

导出

摘要将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串。在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度。 The method of treating the word segmentation issue as a sequence tagging problem and using CRFs has been widely applied recently. However, in this method, some wrong tags are produced by CRFs. To reduce the number of wrong tags, we propose a new method based on the marginal probabilities generated by CRFs for Chinese word segmentation. Firstly, the candidate words with high marginal probabilities are extracted from the tagging results. Then, the candidate words of low marginal probabilities in the tagging results are recombined. Finally, a mechanism of premium that is built on FMM is introduced to complement the sub-strings produced by the recombinant procedure. Evalued by the closed track of SXU and NCC corpora in the fourth SIGHAN Chinese Word Segmentation Bakeoff, this method produces an F-score of 96.41% and 94.30%, respectively.

作者罗彦彦黄德根

机构地区大连理工大学计算机科学与工程系

出处《中文信息学报》 CSCD 北大核心 2009年第5期3-8,共6页 Journal of Chinese Information Processing

基金国家863高技术资助项目(2006AA012140) 国家自然科学基金资助项目(60673039)

关键词计算机应用中文信息处理中文分词条件随机场(CRFs) 边缘概率最大向前匹配(FMM) 全局特征 computer application Chinese information processing Chinese word segmentation Conditional Random Fields（CRFs） Marginal probability Forward Maximum Matching（FMM） global feature

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Nianwen Xue.Chinese Word Segmentation as Character Tagging[J].Computational Linguistics and Chinese Language Processing,2003,8(1):29-48.
2Hai Zhao,Chang-Ning Huang and Mu Li.An Improved Chinese Word Segmentation System with Conditional Random Field[C]//Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing.Sydney,Australia:2006:108-117.
3John Lafferty,Andrew McCallum and Fernando Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proc.of ICML-18.Williams College,USA,2001:282-289.
4Fuchun Peng,Fangfang Feng and Andrew McCallum.Chinese Segmentation and New Word Detection using Conditional Random Fields[C]//COLING 2004.Geneva,Switzerland,2004:562-568.
5赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
6Ruiqiang Zhang,Genichiro Kitkui and Eiichiro Sumita.Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation[C]//HLT/NAACL-2006.New York,USA:2006,193-196.
7Yanxin Shi,Mengqiu Wang.A Dual-layer CRFs Based Joint Decoding Method for Cascaded Segmentation and Labeling Tasks[C]//Proc.of International Joint Con ferences on Artificial Intelligence.Hyderabad,India,2007:1707-1712.
8Zhou Jun-sheng,Dai Xin-yu,Ni Rui-yu and Chen jiajun.A Hybrid Approach to Chinese Word Segmentation around CRFs[C]//Proceedings of the Fouth SIGHAN Workshop on Chinese Language Processing.Jejulsland,Korea,2005:196-199.
9Dong Song and Anoop Sarkar.Voting between Dictionaray-based and Subword Tagging Models for Chinese Word Segmentation[C]//Proceedings of the Fifth SIGHAN Workshbp on Chinese Language Processing.Sydney,Australia,2006:126-129.
10Ruiqiang Zhang,Genichiro Kikui and Eiichiro Sumita.Subword-based tagging for confidence-dependent Chinese word segmentation[C]//Proc,of the COLING/ACL on Main conference poster sessions.Sydney,Australia,2006:961-968.

二级参考文献5

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：246

共引文献25

1于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
2张合,王晓东,杨建宇,周卫东.一种基于层叠CRF的古文断句与句读标记方法[J].计算机应用研究,2009,26(9):3326-3329. 被引量：9
3王川,张小红,韩采华.古汉语句子切分与句读标记方法研究[J].河南大学学报（自然科学版）,2009,39(5):525-529. 被引量：2
4宋彦,蔡东风,张桂平,赵海.一种基于字词联合解码的中文分词方法[J].软件学报,2009,20(9):2366-2375. 被引量：42
5王靖,徐向阳,符蓉.一种优化的用于中文分词的CRF机器学习模型[J].微计算机信息,2010,26(12):169-170. 被引量：1
6黄德根,焦世斗,周惠巍.基于子词的双层CRFs中文分词[J].计算机研究与发展,2010,47(5):962-968. 被引量：23
7于江德,睢丹,樊孝忠.基于字的词位标注汉语分词[J].山东大学学报（工学版）,2010,40(5):117-122. 被引量：10
8罗浩,魏祖宽,金在弘.面向GIS基于专有名词优先的中文分词方法[J].计算机应用,2010,30(7):1941-1943. 被引量：1
9于江德,王希杰.词位标注汉语分词技术详解[J].安阳师范学院学报,2010(5):1-5.
10于江德,王希杰,樊孝忠.汉语分词中上文和下文重要性比较[J].计算机工程与应用,2011,47(4):117-120. 被引量：2

同被引文献126

1于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
2孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
4李宏乔,樊孝忠.汉语文本中特殊符号串的自动识别技术[J].计算机工程,2004,30(12):114-115. 被引量：2
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
7么枕生.用于数值分类的聚类分析[J].海洋湖沼通报,1994(2):1-12. 被引量：34
8孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
9李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
10刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47

引证文献19

1于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
2于江德,睢丹,樊孝忠.基于字的词位标注汉语分词[J].山东大学学报（工学版）,2010,40(5):117-122. 被引量：10
3赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：13
4张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1
5于江德,王希杰,樊孝忠.基于最大熵模型的词位标注汉语分词[J].郑州大学学报（理学版）,2011,43(1):70-74. 被引量：8
6于江德,王希杰,樊孝忠.词位标注汉语分词中特征模板定量研究[J].计算机工程与设计,2012,33(3):1239-1244. 被引量：4
7罗彦彦,浅原正幸,松本裕治.Robust Integrated Models for Chinese Predicate-Argument Structure Analysis[J].China Communications,2012,9(3):10-18.
8王希杰.词位标注汉语分词中上下文有效范围定量分析[J].计算机应用,2012,32(5):1340-1342. 被引量：2
9周雪燕,韩建敏.基于条件随机场汉语分词的语料规模量化研究[J].电脑与电信,2012(7):56-59.
10高志华,贲可荣.基于多分类支持向量数据描述的噪声源识别研究[J].计算机科学,2012,39(11):233-236. 被引量：3

二级引证文献159

1贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
2秦帅波.中医知识智能诊断系统的研究[J].计算机产品与流通,2020,9(1):142-142.
3程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：16
4姜文斌,吴金星,乌日力嘎,那顺乌日图,刘群.蒙古语有向图形态分析器的判别式词干词缀切分[J].中文信息学报,2011,25(4):30-34. 被引量：5
5张聪品,赵理莉.统计模型中附加语言学规则的蒙古语词法分析[J].计算机工程与设计,2011,32(8):2861-2864.
6姜文斌,吴金星,长青,那顺乌日图,刘群,赵理莉.蒙古语词法分析的有向图模型[J].中文信息学报,2011,25(5):94-100. 被引量：3
7于江德,葛彦强,余正涛.基于条件随机场的汉语词性标注[J].微电子学与计算机,2011,28(10):63-66. 被引量：6
8于江德,王希杰,樊孝忠.词位标注汉语分词中特征模板定量研究[J].计算机工程与设计,2012,33(3):1239-1244. 被引量：4
9王希杰.词位标注汉语分词中上下文有效范围定量分析[J].计算机应用,2012,32(5):1340-1342. 被引量：2
10张黎,徐蔚然.中文分词研究[J].软件,2012,33(12):103-108. 被引量：6

1彻底隐藏MSN的标签页[J].计算机应用文摘,2005,21(9):125-125.
2奖励机制[J].计算机安全,2005(2):80-80.
3苏航.试析P2P网络群发通信算法的优化[J].通信技术,2013,46(5):61-63.
4徐清华,魏小磊,李中良.基于模板库的自动图像对象分割方法研究[J].舰船电子工程,2014,34(5):91-96.
5叶西宁,潘泉,陈鸣,于昕,张洪才.密集回波环境下多目标跟踪的一种新算法[J].西北工业大学学报,2004,22(3):388-391. 被引量：5
6郭晓冬,姜昱明,费非.文本特征选择方法的改进算法[J].吉林大学学报（信息科学版）,2012,30(5):544-548. 被引量：3
7王博,侯越先.Measurement of Incompatible Probability in Information Retrieval:A Case Study with User Clicks[J].Transactions of Tianjin University,2013,19(1):37-42. 被引量：1
8常洪花,张建奇.基于人眼视觉系统的红外背景杂波量化技术[J].红外技术,2004,26(5):13-17. 被引量：6
9鲁成岩.Windows 2000抢先尝新[J].电脑,2000(5):30-32.
10王永国,彭国华,杨东亮,王凌伟.改进的多尺度图谱和局部谱的目标提取算法[J].计算机工程与应用,2015,51(12):176-183.

中文信息学报

2009年第5期

浏览历史

内容加载中请稍等...

基于CRFs边缘概率的中文分词被引量：19

参考文献16

二级参考文献5

共引文献25

同被引文献126

引证文献19

二级引证文献159

相关作者

相关机构

相关主题

浏览历史

基于CRFs边缘概率的中文分词 被引量：19

参考文献16

二级参考文献5

共引文献25

同被引文献126

引证文献19

二级引证文献159

相关作者

相关机构

相关主题

浏览历史

基于CRFs边缘概率的中文分词被引量：19