关于中文分词问题数据结构模型的讨论

A discussion on data structure model for Chinese word segmentation

下载PDF

导出

摘要在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、路径查找等工作分解为统一平台上相对独立的过程,能较好地配合多种常用分词算法,简化对各种算法的研究和描述。该模型与自然语言理解后续工作使用的数据结构如句法树等也有很好的相似性。 Based on the data structure model often used in Chinese Word Segmentation, a full segmentation network mod- el was proposed. The basic properties of the model were discussed. Basic algorithms for path searching in this model was given. This model can reflect the characteristics of Chinese word segmentation, and is convenient for analysing some uni- fied properties. Based on this model, tasks such as the omni--segmentation graph generation, graph modification, and path finding, can be decomposed into relatively independent processes on an unified platform. The model can match up well with many commonly used segmentation algorithms to simplify the research and description of these algorithms. The model also has similarity with data structures often used in follow--up natural language prcessing such as syntactic tree.

作者张青李大农

机构地区黄冈师范学院数学与计算机科学学院黄冈师范学院物理与电子信息科学学院

出处《黄冈师范学院学报》 2013年第6期72-76,共5页 Journal of Huanggang Normal University

基金湖北省自然科学基金项目(2011CDC028) 湖北省教育厅科研计划重点项目(D20122701)

关键词自然语言处理中文分词分词网络模型最大匹配算法最短路径算法 natural language processing Chinese word segmentation word segmentation network maximum matching al- gorithm shortest path algorithm

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献10

1王晓龙,王开铸,李仲荣,白小华.最少分词问题及其解法[J].科学通报,1989,34(13):1030-1032. 被引量：25
2刘挺,吴岩,王开铸.最大概率分词问题及其解法[J].哈尔滨工业大学学报,1998,30(6):37-41. 被引量：16
3张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99
4岑咏华.一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究[J].情报理论与实践,2009,32(3):110-114. 被引量：5
5陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
6黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
7张乃孝.算法与数据结构[M]北京:高等教育出版社,2002.
8孙惠泉.图论及其应用[M]北京:科学出版社,2004.
9李大农,董慧.汉语分词有向图的快速生成算法[J].情报学报,2004,23(1):36-39. 被引量：6
10刘开瑛.中文文本自动分词和标注[M]北京:商务印书馆,2000.

二级参考文献43

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
8骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
9杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
10李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息学报,2006,20(5):31-39. 被引量：25

共引文献387

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
6隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
7郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
8于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
9曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
10张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4

1高霞,李瑞俊.EM算法在不完全数据参数估计中的应用[J].集宁师范学院学报,2015,37(3):102-104. 被引量：3
2舒继武,est4.cs.tsinghua.edu.cn,郑纬民,沈美明,汪东升.大规模问题数据并行性能的分析[J].软件学报,2000,11(5):628-633. 被引量：14
3何黎明.快速定位网络故障[J].网管员世界,2006(11):115-117.
4杨则正.计算机安全问题数据库[J].管理观察,1996,0(9):49-49.
5于磊,罗谦,张林林.基于粒计算的数据分片算法的问题发现[J].计算机技术与发展,2011,21(6):32-35. 被引量：1
6佟冰.基于MVC架构的信息中心管理系统的设计和实现[J].电脑知识与技术（过刊）,2015,21(3X):70-71 77. 被引量：1
7孙健淞.基于.net平台的通信运营分析系统的设计与实现[J].才智,2010,0(33):268-268.
8陈孝明,阮羚,黄俊杰,熊宇.基于数据库层级的PMS实用化评价指标提升方法[J].湖北电力,2015,39(8):9-11.
9李天铎.新的商业和法律数据库[J].管理观察,1999,0(4):43-43.
10高科,刁兴春,曹建军.含缺失属性值的问题数据检测与修复[J].计算机工程与设计,2016,37(3):643-649. 被引量：9

黄冈师范学院学报

2013年第6期

浏览历史

内容加载中请稍等...

关于中文分词问题数据结构模型的讨论

参考文献10

二级参考文献43

共引文献387

相关作者

相关机构

相关主题

浏览历史