高频最大交集型歧义切分字段在汉语自动分词中的作用被引量：51

The Role of High Frequent Maximal Crossing Ambiguities in Chinese Word Segmentation

下载PDF

导出

摘要交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念，并将之区分为真、伪两种主要类型。考察一个约１亿字的汉语语料库，我们发现，最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性：前４，６１９个的覆盖率为５９．２０％，且覆盖率受领域变化的影响不大。而其中４，２７９个为伪歧义型，覆盖率高达５３．３５％。根据以上分析，我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略，可有效改善实用型非受限汉语自动分词系统的精度。 The solution of crossing ambiguities is still an open issue in the study of Chinese word segmentation. In this paper, we introduce the concept of maximal crossing ambiguity at first, divide it further into two major types, i.e., the true and the pseudo. Having observed a Chinese corpus with 100M characters, we find that the high frequent part of maximal crossing ambiguities is strong in coverage capacity (the coverage of the top 4,619 is as high as 59.20%, out of which 4,279 belongs to the pseudo type, with coverage 53.35%) and rather stable with regard to domain shifting. As a consequence, we propose for high frequent maximal crossing ambiguities a memory-based strategy that is expected to improve the performance of practical Chinese word segmenters significantly.

作者孙茂松左正平邹嘉彦

机构地区清华大学智能技术与系统国家重点实验室香港城市大学语言资讯科学研究中心

出处《中文信息学报》 CSCD 北大核心 1999年第1期27-34,共8页 Journal of Chinese Information Processing

基金国家自然科学基金

关键词中文信息处理汉语自动分词歧义切分字段 Chinese information processing Chinese word segmentation maximal crossing ambiguities with high frequency memory based disambiguation strategy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2孙茂松邹嘉彦等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
3孙茂松，汉语计量与计算研究，1998年
4刘开瑛，语言文字应用，1997年，1期

共引文献14

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
5彭泽润,林思佳.从两个国家标准看汉语的词[J].北华大学学报（社会科学版）,2006,7(6):63-68. 被引量：2
6王华栋,饶培伦.基于搜索引擎的中文分词评估方法[J].情报科学,2007,25(1):108-112. 被引量：5
7黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
8赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
9乔维,孙茂松.汉语交集型歧义切分字段关于专业领域的统计特性[J].中文信息学报,2008,22(4):10-18. 被引量：3
10车飞.共时和历时科学融合的断代性词汇学研究典范——评《当代汉语词语的共时状况及其嬗变》[J].重庆交通大学学报（社会科学版）,2013,13(4):121-124.

同被引文献351

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
3周榕,黄希庭.中英文时间表征的对比探析[J].西南师范大学学报（哲学社会科学版）,1999,31(1):70-75. 被引量：11
4孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
5黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
6孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
7黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
8刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
9董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
10宋柔.关于分词规范的探讨[J].语言文字应用,1997(3):113-114. 被引量：12

引证文献51

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
3曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
4苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
7邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
8代建英,何中市.基于词性信息的汉语时间语词消歧算法[J].重庆大学学报（自然科学版）,2005,28(9):53-56.
9刘禹孜,何中市.一种基于SVM和规则消除组合型歧义的算法[J].重庆大学学报（自然科学版）,2005,28(10):50-53. 被引量：2
10李斌,陈小荷,方芳,徐艳华.基于语料库的高频最大交集型歧义字段考察[J].中文信息学报,2006,20(1):1-6. 被引量：6

二级引证文献372

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
3LI Li.A Study on Improving Word-Segmentation Accuracy in Automatic Chinese Text Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):225-228.
4张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
5付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
6刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
7郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
8王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
9徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
10熊金泉,刘翌,王丹力.面向少儿多通道交互技术软件系统的研究[J].江西科学,2010,28(1):64-66.

1黄德根,朱和合,王昆仑,杨元生,钟万勰.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,39(6):831-835. 被引量：14
2杜献峰,许峰.面向Agent的软件复用[J].电脑开发与应用,2003,16(5):23-25.
3裴艳.用于机器翻译的汉语语料库——中文应做到形式化、公理化、算法化、自动化[J].中文信息,1997,14(1):32-33. 被引量：1
4乔维,孙茂松.汉语交集型歧义切分字段关于专业领域的统计特性[J].中文信息学报,2008,22(4):10-18. 被引量：3
5章成志,苏新宁.面向信息检索的排除词识别研究[J].现代图书情报技术,2007(2):44-48.
6何克抗,徐辉,孙波.书面汉语自动分词专家系统设计原理[J].中文信息学报,1991,5(2):1-14. 被引量：30
7高军,陈锡先.无监督的动态分词方法[J].北京邮电大学学报,1997,20(4):66-69. 被引量：4
8孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
9黄魏,高兵,刘异,杨克巍.基于词条组合的军事类文本分词方法[J].计算机科学,2010,37(2):171-174. 被引量：2
10罗振声.清华大学ZW大型通用汉语语料库的研究[J].中文信息,1994,11(1):10-12. 被引量：1

中文信息学报

1999年第1期

浏览历史

内容加载中请稍等...

高频最大交集型歧义切分字段在汉语自动分词中的作用被引量：51

参考文献4

共引文献14

同被引文献351

引证文献51

二级引证文献372

相关作者

相关机构

相关主题

浏览历史

高频最大交集型歧义切分字段在汉语自动分词中的作用 被引量：51

参考文献4

共引文献14

同被引文献351

引证文献51

二级引证文献372

相关作者

相关机构

相关主题

浏览历史

高频最大交集型歧义切分字段在汉语自动分词中的作用被引量：51