基于改进K-均值聚类的汉语语块识别被引量：4

Chinese text chunking based on improved K-means clustering

下载PDF

导出

摘要为了既避免数据稀疏又充分考虑相邻词性的关系和每种短语的内部组成规律,提出了改进K-均值聚类方法.此方法把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;依据语料库中的数据来确定每个类的初始中心,使有指导的统计方法和无指导的聚类方法有机结合,既提高了聚类的准确率,又避免了因汉语语块库规模较小而导致的数据稀疏现象.应用改进K-均值聚类方法对7种汉语语块进行识别,F值达到了92.94%,因此,该方法对汉语语块识别是有效的. An improved k-means clustering method is proposed avoiding data sparseness and taking think of the relationship of to identify Chinese phrases with the purpose of neighbor part of speech and the cohesion of all part of speeches within one phrase. The proposed method regards each phrase as a cluster whose kernel is headword, which richly used the constituent disciplinarian of one phrase. It also integrates supervised statistical method and unsupervised clustering method by setting the original center of each class according the data from small Chinese corpus, which not only improves the accuracy of clustering but also avoids data sparseness. Through testing on Chinese Penn Treebank, the F score of seven types of Chinese phrase achieves to 92. 94%. So, it is effective for Chinese text chunking.

作者梁颖红赵铁军于浩姚健民徐冰

机构地区哈尔滨工业大学计算机科学与技术学院

出处《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2007年第7期1106-1109,共4页 Journal of Harbin Institute of Technology

基金国家自然科学基金资助项目(60302021) 科技部政府间国际合作项目(CI-2003-03) 哈尔滨市青年科学基金资助项目(2005AFQXJ020)

关键词 K-均值聚类汉语语块识别数据稀疏 K-means clustering Chinese text chunking sparseness

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1ABNEY S.Parsing by chunks[M].Berwick:Kluwer Academic Publishers,1991.
2ABNEY S.Partial parsing via finite-state cascades[C]//Workshop on Robust Parsing,8th European Summer School in Logic,Language and Information.Prague:Czech Republic,1996:8-15.
3ZHOU Ming.A Block -based Dependency Parser for Unrestricted Chinese Text[C]//ACL-2000 2nd Chinese Lang Processing Workshop.Hong Kong:[s.n.],2000:224-230.
4周强.一个汉语短语自动界定模型[J].软件学报,1996,7(A00):315-322. 被引量：9
5李珩,杨峰,朱靖波,姚天顺.基于增益的隐马尔科夫模型的文本组块分析[J].计算机科学,2004,31(2):152-154. 被引量：9
6李珩,朱靖波,姚天顺.基于SVM的中文组块分析[J].中文信息学报,2004,18(2):1-7. 被引量：50
7张昱琪,周强.汉语基本短语的自动识别[J].中文信息学报,2002,16(6):1-8. 被引量：41
8KIM Tjong,SANG E F.Introduction to the CoNLL2000 Shared Task:Chunking[C]//Proceedings of CoNLL-2000 and LLL-2000.Lisbon,Portugal:[s.n.],2000:127-132.

二级参考文献25

1周强.汉语语料库的短语自动划分和标注研究.北京大学博士研究生学位论文[M].-,1996..
2赵军.汉语基本名词短语识别及结构分析研究.清华大学工学博士学位论文[M].-,1998..
3孙宏林.现代汉语非受限文本的实语块分析.北京大学博士研究生学位论文[M].-,2001..
4[1]Abney S.Parsing by chunk.In Berwick,A.and Tenny,editors,Principle-Based Parsing.Kluwer,1991
5[2]Erik F.Tjong Kim Sang and Sabine Buchholz Introduction to the CoNLL-2000 Shared Task: Chunking.CoNLL-2000 and LLL-2000.Lisbon,Portugal,pp.127～132
6[3]Erik F,Sang T K.Text chunking by system combination.In:Proc.of CoNLL-2000 and LLL-2000.Lisbon,Portugal,2000
7[4]Brants T.TnT -a statistical part-of-speech tagger.In:Proc.of the Sixth Applied Natural Language Processing (ANLP-2000),Seattle,WA,2000
8[5]Ramshaw L,Marcus M.Text Chunking Using Transformation-Based Learning.In:Proc.of third Workshop on Very Large Corpora,June 1995.82～94
9[6]Ratnaparkhi A.Maximum Entropy Models for Natural Language Ambiguity Resolution:[Phd.Thesis].University of Pennsylvania,1998
10[7]Merialdo B.Tagging English Text with a Probabilistic Mod-el.Computational Linguistics,1994,20(2):155～171

共引文献87

1谭咏梅,姚天顺,陈晴,李珩,朱靖波.基于SVM+Sigmoid的汉语组块识别[J].计算机科学,2004,31(8):142-146. 被引量：3
2陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
3李向阳 ,张亚非 .基于语义搭配的汉语短语界定研究[J].情报学报,2005,24(1):100-106. 被引量：1
4孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
5曹建芳,郑家恒.基于SVM的汉语动词短语识别[J].咸阳师范学院学报,2004,19(6):32-34. 被引量：3
6干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
7华沙宝,达胡白乙拉.对蒙古语语料库基本名词短语的定界与统计分析[J].中文信息学报,2005,19(5):52-58. 被引量：4
8顾晓明,翟玉庆.一种基于本体的军用文书理解系统设计[J].现代计算机,2006,12(3):69-72. 被引量：2
9林煜明,李优.基于SVM的句子组块识别[J].山东大学学报（理学版）,2006,41(3):33-36.
10吕德新,张桂平,蔡东风,余超.基于语义信息的问题分类[J].沈阳航空工业学院学报,2006,23(3):38-40. 被引量：1

同被引文献57

1冯志伟.特思尼耶尔的从属关系语法[J].当代语言学,1983(1):63-65. 被引量：48
2李宏乔,樊孝忠.汉语文本中特殊符号串的自动识别技术[J].计算机工程,2004,30(12):114-115. 被引量：2
3程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
4孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
5刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
6王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11
7李珩,朱靖波,姚天顺.基于Stacking算法的组合分类器及其应用于中文组块分析[J].计算机研究与发展,2005,42(5):844-848. 被引量：18
8梁颖红,赵铁军,刘博,杨沐昀.基于关联度评价的中心词扩展的英文文本语块识别[J].计算机研究与发展,2006,43(1):153-158. 被引量：3
9黄德根,王莹莹.基于SVM的组块识别及其错误驱动学习方法[J].中文信息学报,2006,20(6):17-24. 被引量：6
10陈永府,杨小献,黄正东,陈立平.基于规则的数据收集研究[J].计算机工程与设计,2007,28(1):158-161. 被引量：4

引证文献4

1郭凯红,李文立.基于规则的大规模试卷文本语块识别方法的研究[J].计算机应用研究,2009,26(4):1391-1393. 被引量：4
2雷霖,熊伟,景宁,肖建夫.一种基于流形距离的中文语块聚类分析方法[J].北京大学学报（自然科学版）,2013,49(1):126-132. 被引量：2
3李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
4张鸰.理工科学生英汉专业语块采集微案研究[J].厦门理工学院学报,2018,26(2):46-52. 被引量：1

二级引证文献19

1刘智浓.航空兵部队航理智能组卷系统设计[J].计算机工程与设计,2010,31(19):4329-4331. 被引量：2
2王兴,朱定真,苗春生.基于规则引擎的多元大气信息数据质量检查方法[J].南京信息工程大学学报（自然科学版）,2011,3(3):238-243. 被引量：4
3马建军,宗敏.功能小句自动句法分析结果的错误分析[J].鸡西大学学报（综合版）,2014,14(9):124-127.
4俞敬松,王惠临,吴胜兰.高正确率的双语语块对齐算法研究[J].中文信息学报,2015,29(1):67-74. 被引量：5
5覃延,李冬梅,陈志泊.基于支持向量机的大规模试卷识别方法[J].西南大学学报（自然科学版）,2014,36(6):180-185. 被引量：1
6李业刚,黄河燕,鉴萍.引入混合特征的最大名词短语双向标注融合算法[J].自动化学报,2015,41(7):1274-1282. 被引量：4
7杜思奇,李红莲,吕学强.汉语组块分析在产品特征提取中的应用研究[J].现代图书情报技术,2015(9):26-30. 被引量：4
8邵超,万春红,李洁颖.用于多流形分类的核等距映射算法[J].计算机工程与应用,2016,52(4):121-128. 被引量：1
9李洪政,晋耀红.汉语介词短语自动识别研究综述[J].中文信息学报,2017,31(2):1-10. 被引量：1
10张激.AI来了!算法艺术史解析[J].新美术,2017,38(5):44-53. 被引量：5

1陈俊宇,周刚,熊小兵.一种采用邻居投票机制的重叠社区发现方法[J].小型微型计算机系统,2014,35(10):2272-2277. 被引量：5
2安爱芬.一种加速的k-均值聚类方法[J].韶关学院学报,2012,33(12):15-18. 被引量：1
3张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
4孙德山,李海清.基于线性规划的支持向量聚类算法[J].计算机工程与设计,2010,31(6):1305-1307. 被引量：2
5廖绍雯.一种基于K-均值聚类方法的肤色分割算法[J].甘肃联合大学学报（自然科学版）,2011,25(4):64-66. 被引量：2
6伍国鑫,刘秉权,刘铭.一种改进的多视图K-均值聚类算法[J].智能计算机与应用,2014,4(3):11-14. 被引量：4
7钱揖丽,冯志茹.利用AdaBoost-SVM集成算法和语块信息的韵律短语识别[J].计算机工程与科学,2015,37(12):2324-2330. 被引量：2
8王秀华.一种并行的加速k-均值聚类方法[J].电脑知识与技术,2013,9(6X):4299-4302. 被引量：2
9胡伟.一种改进的动态k-均值聚类算法[J].计算机系统应用,2013,22(5):116-121. 被引量：8
10朱永宽,谷涓涓.自适应遗传算法在聚类分析中的应用[J].黑龙江科技信息,2010(25):52-53. 被引量：3

哈尔滨工业大学学报

2007年第7期

浏览历史

内容加载中请稍等...

基于改进K-均值聚类的汉语语块识别被引量：4

参考文献8

二级参考文献25

共引文献87

同被引文献57

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于改进K-均值聚类的汉语语块识别 被引量：4

参考文献8

二级参考文献25

共引文献87

同被引文献57

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于改进K-均值聚类的汉语语块识别被引量：4