基于最长次长匹配分词的一体化中文词法分析被引量：3

Chinese integrative lexical analysis based on maximum matching and second-maximum matching segmentation

下载PDF

导出

摘要针对当前大多数词法分析系统"流水线"式处理方式存在的不足,提出一种一体化同步词法分析机制.在最长次长匹配分词的基础上,在切分有向图中增加词性信息和候选未登录词节点,并拓展隐马尔可夫模型,在切分有向图内同步完成分词、歧义消解、未登录词识别和词性标注等词法分析任务.实现了分词与词性标注的一体化、未登录词识别与分词的一体化以及不确定词性未登录词处理的一体化.一体化机制使词法分析中各步骤实现真正意义上的同步完成,充分利用上下文词法信息提高整体精度并保证了系统的高效性,避免了各步骤间的冲突.开放测试表明,系统综合测试的F值为98.03%. An integrative lexical analysis mechanism is proposed in order to solve the limitation of mostly existing lexical analysis system with″pipelining″mechanism.Based on maximum matching and second-maximum matching（MMSM） model,in the directed graph built by MMSM model,candidate words,parts-of-speech（POS） tags and all the candidate unknown words are added and considered,hidden Markov model（HMM） is extended,so Chinese word segmentation,ambiguity resolution,unknown word recognition and POS tagging are solved synchronously.The integrations of word segmentation and POS tagging,unknown words recognition and known word segmentation,uncertain unknown words recognition are realized.All the tasks of lexical analysis are accomplished synchronously,the conflicts between all the tasks in the Chinese lexical analysis are avoided,and high precision can be gained.The open test indicates that the F-score of the system is 98.03%.

作者孙晓黄德根

机构地区大连理工大学计算机科学与技术学院大连民族学院计算机科学与工程学院

出处《大连理工大学学报》 EI CAS CSCD 北大核心 2010年第6期1028-1034,共7页 Journal of Dalian University of Technology

基金中央高校基本科研业务费专项资金资助项目(DUT10RW202)

关键词中文词法分析一体化模型最长次长匹配未登录词切分有向图 Chinese lexical analysis integrative model maximum matching and second-maximum matching unknown word segmentation directed graph

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1黄德根,朱和合,王昆仑,杨元生,钟万勰.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,39(6):831-835. 被引量：14
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3JIANG F, LIU H, CHEN Y Q, etal. An enhanced model for Chinese word segmentation and part-of- speech tagging [C] //ACL SIGHAN Workshop 2004. Barcelona:Association for Computational Linguistics, 2004:28-32.
4高山,张艳,徐波,等.基于三元统计模型的汉语分词及标注一体化研究[c]//自然语言理解与机器翻译一全国第六届计算语言学联合学术会议论文集,2001.
5SUN M S, XU D L, BENJAMIN K T. Integrated Chinese word segmentation and part-of-speech tagging based on the divide-and-conquer strategy [C] // Proceedings of 2003 International Conference on Natural Language Processing and Knowledge Engineering. Beijing: IEEE Computer Society, 2003: 610-615.
6ZHANG Y, CLARK S. Joint word segmentation and POS tagging using a single perceptron [C] // Proceedings of ACL2008. Columbus: Association for Computational Linguistics, 2008 : 888-896.
7GAO J F, LI M, HUANG C N. Improved source- channel models for Chinese word segmentation [C] // Proceedings of ACL2003. Sapporo: Association for Computational Linguistics, 2003:272-279.
8GAO J F, WU A D, LI M, et al. Adaptive Chinese word segmentation [C] // Proceedings of ACL2004. Morristown : Association for Computational Linguistics, 2004:462-469.
9黄德根,岳广玲,杨元生.基于统计的中文地名识别[J].中文信息学报,2003,17(2):36-41. 被引量：49
10黄德根朱和合杨元生.基于单词与双词可信度的汉语自动分词.计算机研究与发展,2001,:132-135.

二级参考文献45

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
2沈达阳孙茂松黄昌宁.中文地名的自动识别[A]..计算语言学进展与应用[C].北京:清华大学出版社,1995..
3H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
4Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
5S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
6J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
7Lawrence R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of IEEE, 1989,77(2): 257～286
8Shai Fine, Yoram Singer, Naftali Tishby. The hierarchical hidden Markov model: Analysis and applications. Machine Learning,1998, 32(1): 41～62
9Richard Sproat, Thomas Emerson. The first international Chinese word segmentation bakeoff. The First SIGHAN Workshop Attached with the ACL2003, Sapporo, Japan, 2003. 133～143
10J Hockenmaier, C Brew. Error-driven learning of Chinese word segmentation. In: J Guo, K T Lua, J Xu, eds. The 12th Pacific Conf on Language and Information, Singapore, 1998

共引文献347

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
3成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
6钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
7张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
8陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
9尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
10于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2

同被引文献26

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2白栓虎.汉语词切分及词性自动标注一体化方法[J].中文信息,1996(2):46-48. 被引量：2
3赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
4翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
5罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
6姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
7刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
8金在全,赵照,杜秀全,张东.一种改进的增字最大匹配算法[J].科学技术与工程,2007,7(18):4761-4764. 被引量：12
9王思力,王斌.基于双字耦合度的中文分词交叉歧义处理方法[J].中文信息学报,2007,21(5):14-17. 被引量：17
10Hwee Tou Ng, Jin Kiat Low. Chinese part-of-speech tagging.. One-at-a-time or all-at-once? Word-based or character-based? [C]//Proeeedings o[ the Conference on Empirical Methods in Natural Language Process- ing, Barcelona: ACL Press, 2004:277-284.

引证文献3

1胡阿明,王卫东.中文分词歧义识别算法的优化[J].现代电子技术,2012,35(8):107-109. 被引量：2
2孙晓,李承程,叶嘉麒,任福继.基于重复字串的微博新词非监督自动抽取[J].合肥工业大学学报（自然科学版）,2014,37(6):674-678. 被引量：4
3于江德,胡顺义,余正涛.三位一体字标注的汉语词法分析[J].中文信息学报,2015,29(6):1-7. 被引量：4

二级引证文献10

1程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
2孙晓,叶嘉麒,唐陈意,任福继.基于多策略的新浪微博大数据抓取及应用[J].合肥工业大学学报（自然科学版）,2014,37(10):1210-1215. 被引量：16
3孙晓,叶嘉麒,龙润田,任福继.基于情感语义词典与PAD模型的中文微博情感分析[J].山西大学学报（自然科学版）,2014,37(4):580-587. 被引量：11
4张昭楠,马亚蕾.基于SQL Server的中文分词系统设计及应用[J].电子设计工程,2016,24(17):39-41. 被引量：2
5郁小玲,张铁山,吴彤,方明哲,黄建一,胡长军.基于两位一体的中文电子病历命名实体识别[J].中国卫生信息管理杂志,2017,14(4):552-556. 被引量：7
6王雪瑞,刘渊.基于边界增强的中文直播弹幕新词发现[J].传感器与微系统,2018,37(7):142-146. 被引量：1
7李吉,黄微,郭苏琳,孙悦.网络口碑舆情情感强度测度模型研究——基于PAD三维情感模型[J].情报学报,2019,38(3):277-285. 被引量：24
8杨凡,任丹.基于知识图谱的自然语言中歧义字段切分系统设计[J].现代电子技术,2020,43(1):44-47.
9梁弼,赵文辉,杨斌,许晓红.一种基于游客选择景点的旅游拼团算法[J].微型电脑应用,2022,38(11):18-21.
10林立涛,王东波.古籍文本挖掘技术综述[J].科技情报研究,2023,5(1):78-91. 被引量：7

1郭晓云.ICTCLAS中文词法分析的Delphi调用研究[J].电脑编程技巧与维护,2011(24):10-11. 被引量：2
2崔健.基于Struts和Hibernate技术的OA系统设计与实现[J].电子技术（上海）,2013(3):41-44. 被引量：1
3江华丽.中文分词算法研究与分析[J].物联网技术,2016,6(1):87-89. 被引量：9
4孟凡东,徐金安,姜文斌,刘群.异种语料融合方法:基于统计的中文词法分析应用[J].中文信息学报,2012,26(2):3-7. 被引量：5
5赵长伟,孙素环,李晓培.基于语义相似度的文本表示降维方法[J].河南科技大学学报（自然科学版）,2008,29(5):36-39. 被引量：4
6黄莉.词法分析在自然语言处理中的地位和作用[J].价值工程,2010,29(10):157-157. 被引量：2
7马伟珍,陈硕,赵栋材.基于HMM的藏文词性标注的研究与实现[J].信息安全与技术,2016,0(2):33-35. 被引量：2
8朱聪慧,赵铁军,郑德权.基于无向图序列标注模型的中文分词词性标注一体化系统[J].电子与信息学报,2010,32(3):700-704. 被引量：12
9米海涛,熊德意,刘群.中文词法分析与句法分析融合策略研究[J].中文信息学报,2008,22(2):10-17. 被引量：13
10张卓云,陈晓芬.基于VB的电动机控制系统综合测试平台研制[J].电子工程师,2005,31(12):65-67. 被引量：3

大连理工大学学报

2010年第6期

浏览历史

内容加载中请稍等...

基于最长次长匹配分词的一体化中文词法分析被引量：3

参考文献16

二级参考文献45

共引文献347

同被引文献26

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于最长次长匹配分词的一体化中文词法分析 被引量：3

参考文献16

二级参考文献45

共引文献347

同被引文献26

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于最长次长匹配分词的一体化中文词法分析被引量：3