汉语交集型歧义切分字段关于专业领域的统计特性被引量：3

Statistical Properties of Overlapping Word Segmentation Ambiguities in Domain-specific Chinese Corpora

下载PDF

导出

摘要交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。 Overlapping ambiguity is a major type of ambiguity in Chinese word segmentation. The performance of existing word segmentation systems in resolving this ambiguity is still unsatisfactory, especially in dealing with domain-specific texts. In contrast to those quite detailed statistical observations on overlapping ambiguities in generalpurpose corpus, similar observations in domain-specific corpus have not been reported in the literature. In terms of a medium-sized general-purpose Chinese wordlist, a general-purpose corpus with over 900 million characters and two domain-specific corpora with total 140 million characters covering 55 domains, statistical properties of high frequent overlapping ambiguities are addressed and studied from several perspectives： with overlapping ambiguity string from general corpus examined in the domain corpus, and vice versa. It is believed that the finding of this paper will benefit word segmentation disambiguation in particular for domain-specific texts.

作者乔维孙茂松

机构地区清华信息科学与技术国家实验室(筹)

出处《中文信息学报》 CSCD 北大核心 2008年第4期10-18,共9页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60573187) 国家863计划资助项目(2007AA01Z148)

关键词计算机应用中文信息处理汉语自动分词专业领域语料库交集型歧义切分字段伪歧义真歧义 computer application Chinese information processing Chinese word segmentation domain-specific corpus overlapping ambiguity pseudo ambiguity true ambiguity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
3刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
4李国杰等.第五届全国汉字识别、语言识别与合成系统及自然语言处理系统评测结果.智能机研究动态,1998,(4):43-46.
5孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
6孙茂松,左正平,黄昌宁.消解中文三字长交集型分词歧义的算法[J].清华大学学报（自然科学版）,1999,39(5):101-103. 被引量：22
7Swen Bing and Shiwen Yu. A graded approach for the efficient resolution of Chinese word segmentation ambiguities [C]//Proceedings of 5th Natural Language Processing Pacific Rim Symposium, 1999, 19-24.
8侯敏:等.汉语自动分词中的上下文相关歧义字段(CSAS)研究[C]//全国第八届计算语言学联合学术会议(JSCL-2005)论文集.南京:清华大学出版社,2005:214-220.
9罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
10王思力,王斌.基于双字耦合度的中文分词交叉歧义处理方法[J].中文信息学报,2007,21(5):14-17. 被引量：17

二级参考文献43

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
6孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
7孙茂松邹嘉彦等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
8马晏.基于评价的汉语自动分词系统的研究与实现[J].语言信息专论,1996,:2-36.
9郭祥昊.语言信息处理理论及自动文摘关键技术研究[M].北京:北京邮电大学,1998..
10马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..

共引文献270

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：39
2张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
3梁晓弘,杨文安.分词技术在信息处理中的研究综述[J].电脑知识与技术（过刊）,2007(22):1100-1102. 被引量：1
4付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
5刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
6曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
7肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
8许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
9徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
10王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10

同被引文献115

1金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3冯志伟.汉语书面语的分词连写[J].语文建设,2001(3):15-15. 被引量：9
4王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
5张克亮.基于HNC理论的句法结构歧义消解[J].中文信息学报,2004,18(6):43-52. 被引量：8
6全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：12
7刘蓓,杜利民.汉语口语对话系统中语义分析的消歧策略[J].中文信息学报,2005,19(1):76-83. 被引量：3
8杨莹,李应潭.基于意象知识的消歧体系[J].中文信息学报,1993,7(1):40-47. 被引量：1
9钱树人.歧义、系统歧义和语境[J].中文信息学报,1993,7(2):18-26. 被引量：7
10徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15

引证文献3

1张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
2胡俊杰,袁华,李飞,陈海龙.中文句子阅读过程中词边界确认机制研究现状及展望[J].通化师范学院学报,2016,37(7):59-64.
3尹倩.基于语境信息的中文分词交叉歧义处理方法[J].重庆工商大学学报（自然科学版）,2016,33(5):20-24. 被引量：3

二级引证文献6

1木合亚提·尼亚孜别克,古力沙吾利·塔里甫,古丽拉·阿东别克.哈萨克语NP和VP结构的歧义类型与消除策略研究[J].西南师范大学学报（自然科学版）,2014,39(7):41-46.
2杜家利,于屏方.花园幽径现象理解折返性的数据结构分析[J].中文信息学报,2015,29(1):28-37. 被引量：2
3孙凡,苏垚开.基于XBRL的自然语言语句的形式化标注研究[J].会计之友,2017(24):70-73.
4齐玉东,李程瑜,王晓虹,范赵鹏.改进TOPSIS法的DDo S防御措施评估[J].兵器装备工程学报,2019,40(2):158-162.
5胡欣杰,路川,齐斌.基于SOM神经网络的网络舆情信息分类模型[J].兵器装备工程学报,2019,40(3):108-111. 被引量：8
6方玉萍.中文信息处理中的歧义问题分析[J].科技传播,2017,9(13):58-59. 被引量：1

1章成志,苏新宁.面向信息检索的排除词识别研究[J].现代图书情报技术,2007(2):44-48.
2孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51
3郑家恒,张剑锋,谭红叶.中文分词中歧义切分处理策略[J].山西大学学报（自然科学版）,2007,30(2):163-167. 被引量：10
4刘宇鹏,李生,赵铁军.基于超图的翻译模型融合的研究[J].软件学报,2012,23(9):2347-2357.
5尹锋.基于神经网络的汉语自动分词系统的设计与分析[J].情报学报,1998,17(1):41-50. 被引量：30
6袁琳琳,陈红平.汉语自动分词系统的设计与实现[J].信息与电脑（理论版）,2014,0(7):166-168.
7王彩荣,李晓毅,黄玉基.汉语自动分词系统的评价[J].微处理机,2003,24(5):28-30. 被引量：1
8郑逢斌,付征叶,乔保军,毋琳.HENU汉语自动分词系统中歧义字段消除算法[J].河南大学学报（自然科学版）,2004,34(4):49-52. 被引量：5
9徐华中,徐刚.一种新的汉语自动分词算法的研究和应用[J].计算机与数字工程,2006,34(2):135-138. 被引量：1
10郑耿忠.自动分词算法在智能答疑系统中的应用研究[J].计算机工程与设计,2007,28(9):2224-2226. 被引量：4

中文信息学报

2008年第4期

浏览历史

内容加载中请稍等...

汉语交集型歧义切分字段关于专业领域的统计特性被引量：3

参考文献18

二级参考文献43

共引文献270

同被引文献115

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

汉语交集型歧义切分字段关于专业领域的统计特性 被引量：3

参考文献18

二级参考文献43

共引文献270

同被引文献115

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

汉语交集型歧义切分字段关于专业领域的统计特性被引量：3