消解中文三字长交集型分词歧义的算法被引量：22

Algorithm for solving 3 character crossing ambiguities in Chinese word segmentation

导出

摘要汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一，在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法，回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个６０万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共５３６７个作为测试样本。实验结果表明，该算法的消解正确率达到了９２．０７％，基本可以满足实用型中文信息处理系统的需要。 The technique of Chinese word segmentation plays an important role in many applications of Chinese information processing. Being one of the major types of segmentation ambiguities, crossing ambiguities with length of 3 characters can be frequently found in Chinese running texts. An algorithm aiming at this type of ambiguities is proposed in the paper: instead of making use of part of speech statistical information which needs comparatively high training cost, the algorithm simply employs word frequency information and some common Chinese character subsets with defined properties. The preliminary experiment on 5367 examples, extracted from a Chinese corpus of 0.6 million characters, shows that the segmentation precision of the algorithm reaches 92.07%, which is satisfactory for practical Chinese information processing systems.

作者孙茂松左正平黄昌宁

机构地区清华大学计算机科学与技术系

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 1999年第5期101-103,共3页 Journal of Tsinghua University(Science and Technology)

基金国家自然科学基金

关键词中文信息处理交集型分词歧义消解算法 computational linguistics Chinese information processing Chinese word segmentation crossing ambiguities in Chinese word segmentation disambiguation algorithm for Chinese word segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1Sun Maosong，Proc 5th Conf Applied Natural Language Processing，1997年
2刘开瑛，语言文字应用，1997年，1期，101页
3孙茂松，语言文字应用，1995年，4期，40页

同被引文献219

1周榕,黄希庭.中英文时间表征的对比探析[J].西南师范大学学报（哲学社会科学版）,1999,31(1):70-75. 被引量：11
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3林茂灿,颜景助.北京话轻声的声学性质[J].方言,1980,2(3):166-178. 被引量：93
4黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
5孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
6黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
7刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
8董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
9孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
10林茂灿,颜景助.普通话轻声与轻重音[J].语言教学与研究,1990(3):88-104. 被引量：60

引证文献22

1孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
2陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
5张锋,樊孝忠.基于最大熵模型的交集型切分歧义消解[J].北京理工大学学报,2005,25(7):590-593. 被引量：6
6代建英,何中市.基于词性信息的汉语时间语词消歧算法[J].重庆大学学报（自然科学版）,2005,28(9):53-56.
7刘禹孜,何中市.一种基于SVM和规则消除组合型歧义的算法[J].重庆大学学报（自然科学版）,2005,28(10):50-53. 被引量：2
8董建设,任丽,周燕玲.中文自动文摘在搜索引擎中的应用[J].情报科学,2006,24(2):267-269. 被引量：2
9冯素琴,陈惠明.一种自组织的汉语组合型歧义消歧方法[J].计算机工程与设计,2007,28(3):737-739. 被引量：3
10冯素琴,陈惠明.一种基于搭配信息的汉语组合型消歧方法[J].山西大学学报（自然科学版）,2008,31(2):173-176.

二级引证文献255

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
2吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：8
3张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
4郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
5王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
6任成义.基于网页的知识元挖掘[J].图书情报工作,2010,54(S1):278-281.
7洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
8于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1
9崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
10陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2

1翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：41
2王娟,曹庆花,黄精籼,胡忠胜.基于受限领域的中文分词系统[J].信息系统工程,2011,24(11):106-106.
3赵长伟,孙素环,李晓培.基于语义相似度的文本表示降维方法[J].河南科技大学学报（自然科学版）,2008,29(5):36-39. 被引量：4
4裴艳.用于机器翻译的汉语语料库——中文应做到形式化、公理化、算法化、自动化[J].中文信息,1997,14(1):32-33. 被引量：1
5刘万伟,周倜,李梦君,李舟军.一种基于进程代数的安全协议验证消解算法[J].计算机工程与科学,2006,28(7):14-16. 被引量：1
6刘显敏,李建中.高效的实体匹配结果消解算法[J].计算机研究与发展,2013,50(S1):239-247.
7黄聪会,张水平,胡洋.主题Deep Web爬虫框架研究[J].计算机工程与设计,2010,31(5):929-931. 被引量：3
8修驰,宋柔.基于无监督学习的专业领域分词歧义消解方法[J].计算机应用,2013,33(3):780-783. 被引量：7
9吕刚,吴朝晖,杨莹春.支持向量机的聚类补偿研究[J].广西师范大学学报（自然科学版）,2003,21(A01):66-69.
10郑丽英.数据结构Trie及其应用[J].现代计算机,2004,10(8):20-22. 被引量：6

清华大学学报（自然科学版）

1999年第5期

浏览历史

内容加载中请稍等...

消解中文三字长交集型分词歧义的算法被引量：22

参考文献3

同被引文献219

引证文献22

二级引证文献255

相关作者

相关机构

相关主题

浏览历史

消解中文三字长交集型分词歧义的算法 被引量：22

参考文献3

同被引文献219

引证文献22

二级引证文献255

相关作者

相关机构

相关主题

浏览历史

消解中文三字长交集型分词歧义的算法被引量：22