基于最大间隔马尔可夫网模型的汉语分词方法被引量：8

Maximum Margin Markov Networks-Based Chinese Word Segmentation Method

下载PDF

导出

摘要分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中。最大间隔马尔可夫网(M3N)模型是近年来由B.Taskar等[1]人提出的一种新型结构学习模型。该文尝试将这一模型用于汉语分词建模并进行实验,实验结果显示,基于给定的训练语料与测试语料,分词精度可以达到95%,表明基于最大间隔马尔科夫网的汉语分词方法可以取得较高的分词精度,是一种有效的汉语分词方法。 Chinese Word Segmentation is a crucial step in the study of Chinese Natural Language Processing （NLP）. In previous researches, the Maximum Entropy model and Conditional Random Field（CRF） model have been widely used in the study of Chinese Word Segmentation. ]n this paper, we will apply the M3N（Max Margin Markov Networks） model, a structural model introduced by B. Taskar, to Chinese Word Segmentation. Experiments based on certain training and testing corpus show that the M3N is a very useful Chinese Word Segmentation Method with a fairly high precision of 95 %.

作者李月伦常宝宝

机构地区北京大学计算语言学研究所

出处《中文信息学报》 CSCD 北大核心 2010年第1期8-14,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60975054 60303003) 国家社会科学基金资助项目(06BYY048)

关键词计算机应用中文信息处理最大间隔马尔可夫网模型汉语分词机器学习 computer application Chinese information processing maximum margin Markov networks（M3N） Chinese Word Segmentation（CWS） machine learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
2N. Xue. Chinese Word Segmentation as Character Tagging[J]. Computational Linguistics and Chinese Language Processing, 2003, 8(1), 29-48.
3李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
4迟呈英,于长远,战学刚.基于条件随机场的中文分词方法[J].情报杂志,2008,27(5):79-81. 被引量：11
5Ben Taskar, Carlos Guestrin, Daphne Koller. Max- Margin Markov Networks[C]//Proceedings of Neural Information Processing Systems Conference ( NIPS), 2003.
6Huang Chu-Ren, Yo Ting-Shuo, Petr Simon and Hsieh Shu-Kai. A Realistic and Robust Model for Chinese Word Segmentation[C]//Proceedings of the 20th Conference on Computational Linguistics and Speech Processing(ROCLING), 2008.
7孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37

二级参考文献27

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
7金春实,丁晓青,彭良瑞,刘长松.基于词素的日文分词方法及其在OCR系统中的应用[J].微计算机信息,2006(01X):244-246. 被引量：2
8周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范大学学报（自然科学版）,2006,20(1):25-29. 被引量：16
9黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
10孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66

共引文献298

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
5张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
6于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
7熊回香.全文检索中的汉语自动分词及其歧义处理[J].中国图书馆学报,2005,31(5):54-57. 被引量：6
8刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
9赵彦斌,李庆华.汉字关联性量化方法及其在文本相似性分析中的应用[J].计算机应用,2006,26(6):1396-1397. 被引量：1
10谈文蓉,杨宪泽,谈进,刘莉.MIS智能接口中汉语分词系统的设计与应用[J].计算机科学,2006,33(7):204-206. 被引量：5

同被引文献49

1柯彼德.试论汉语语素的分类[J].世界汉语教学,1992,6(1):1-12. 被引量：5
2俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160
3周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
5陈小荷.现代汉语自动分析[M].北京：北京语言文化大学出版社,2000..
6庞永庆,庞丽娟.21天学通Java[M].北京:电子工业出版社,2008.
7李金发.彝语真人发音词典的开发.西南民族大学学报：自然科学版,2005,10:34-37.
8赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
9孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
10CHEN T, SANCHEZ-AARNOUTSE J C, BUFORD J. Petri net modeling of cyber-physical attacks on smart grid[J]. IEEE Transactions on Smart Grid, 2011, 2(4): 741-749.

引证文献8

1李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
2陈顺强.彝文自动分词技术研究[J].中文信息学报,2011,25(3):123-128. 被引量：3
3李健.面向智能电网的多领域海量文本过滤框架研究[J].电力信息与通信技术,2015,13(11):31-35. 被引量：1
4金宸,李维华,姬晨,金绪泽,郭延哺.基于双向LSTM神经网络模型的中文分词[J].中文信息学报,2018,32(2):29-37. 被引量：39
5孙安,于英香,罗永刚,王祺.序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例[J].图书情报工作,2018,62(11):103-111. 被引量：9
6宫法明,朱朋海.基于自适应隐马尔可夫模型的石油领域文档分词[J].计算机科学,2018,45(B06):97-100. 被引量：10
7黄丹丹,郭玉翠.融合attention机制的BI-LSTM-CRF中文分词模型[J].软件,2018,39(10):260-266. 被引量：8
8陆斯悦,张禄,李香龙,邢其敬,段大鹏,林华.基于BERT的电力领域无监督分词方法[J].信息技术,2024,48(1):96-103.

二级引证文献72

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
2程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：22
3吴漾,王鹏宇,缪新萍,柳林溪,田钺.基于改进深度强化学习算法的电网缺陷文本挖掘模型研究[J].科技通报,2021,37(2):47-55. 被引量：6
4陈顺强,马嘿玛伙.基于隐马尔科夫模型的彝文分词系统设计与开发[J].西南民族大学学报（自然科学版）,2012,38(1):146-149. 被引量：6
5陈顺强.信息处理用彝语词法分析研究[J].西南民族大学学报（自然科学版）,2013,39(4):639-642. 被引量：1
6董虎胜.基于长短时记忆网络的古诗词生成[J].现代计算机（中旬刊）,2018(11):18-21.
7周海华,曹春萍.基于BLSTM-CRF的领域知识点实体识别技术[J].软件,2019,40(2):1-5.
8县小平,马国俊.基于随机游走算法的中文文档信息处理模型[J].青海科技,2019,26(3):45-48.
9石文浩,孟军,张朋,刘婵娟.融合CNN和Bi-LSTM的miRNA-lncRNA互作关系预测模型[J].计算机研究与发展,2019,56(8):1652-1660. 被引量：8
10程博,李卫红,童昊昕.基于BiLSTM-CRF的中文层级地址分词[J].地球信息科学学报,2019,21(8):1143-1151. 被引量：16

1华硕简约时尚风[J].数码,2003(9):21-21.
2许振新.简约让笔记本更具人性化[J].中国计算机用户,2003(37):20-20.
3苏锋.外型设计大胆突破——Asus M3N 迅驰笔记本电脑[J].微电脑世界,2003(16):64-64.
4华硕M3N再掀简约时尚之风[J].信息系统工程,2003(9):48-48.
5华硕M3N再掀简约时尚之风[J].数码精品世界,2003(9):119-119.
6唐涛,周俏丽,张桂平.统计与规则相结合的术语抽取[J].沈阳航空航天大学学报,2011,28(5):71-74. 被引量：7
7骆正清,陈增武,王泽兵,胡上序.汉语自动分词研究综述[J].浙江大学学报（自然科学版）,1997,31(3):306-312. 被引量：16
8华硕时尚笔记本M3N[J].当代通信,2004(8):61-61.
9体验3路SLI的豪华华硕M3N-HT Deluxe Mempipe主板[J].微型计算机,2008(19):81-81.
10刘秉毅.办公事务自动化系统GLPMIS的汉语自然语言接口设计[J].计算机与现代化,1994(1):24-30.

中文信息学报

2010年第1期

浏览历史

内容加载中请稍等...

基于最大间隔马尔可夫网模型的汉语分词方法被引量：8

参考文献7

二级参考文献27

共引文献298

同被引文献49

引证文献8

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

基于最大间隔马尔可夫网模型的汉语分词方法 被引量：8

参考文献7

二级参考文献27

共引文献298

同被引文献49

引证文献8

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

基于最大间隔马尔可夫网模型的汉语分词方法被引量：8