基于SVM的中文组块分析被引量：50

SVM Based Chinese Text Chunking

下载PDF

导出

摘要基于SVM(supportvectormachine)理论的分类算法 ,由于其完善的理论基础和良好的实验结果 ,目前已逐渐引起国内外研究者的关注。和其他分类算法相比 ,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作为句法分析的预处理阶段 ,通过将文本划分成一组互不重叠的片断 ,来达到降低句法分析的难度。本文将中文组块识别问题看成分类问题 ,并利用SVM加以解决。实验结果证明 ,SVM算法在汉语组块识别方面是有效的 ,在哈尔滨工业大学树库语料测试的结果是F =88 6 7%,并且特别适用于有限的汉语带标信息的情况。 The classification algorithm based on SVM (support vector machine) attracts more attention from researchers due to its perfect theoretical properties and good empirical results. Compared with other classification algorithms, structural risk minimizations based SVM achieve high generalization performance with small number of samples. The text chunking, as a preprocessing step for parsing, is to divide text into syntactically related non-overlapping groups of words (chunks), reducing the complexity of the full parsing. In this paper, we treat Chinese text chunking as a classification problem, and apply SVM to solve it. The chunking experiments were carried out on the HIT Chinese Treebank corpus. Experimental results show that it is an effective approach, achieving an F score of 88.67%, especially for a small number of Chinese labeled samples.

作者李珩朱靖波姚天顺

机构地区东北大学计算机软件与理论研究所

出处《中文信息学报》 CSCD 北大核心 2004年第2期1-7,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目 (6 0 0 830 0 6 ) 国家重点基础研究发展规划 973资助项目(G19980 30 5 0 11) 国家自然科学基金和微软亚洲研究院联合资助项目 (6 0 2 0 30 19)

关键词计算机应用中文信息处理支持向量机结构风险最小化文本组块 SVM 分类算法 computer application Chinese information processing support vector machine structural risk minimization text chunking

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1周强,孙茂松,黄昌宁.汉语句子的组块分析体系[J].计算机学报,1999,22(11):1158-1165. 被引量：31
2赵军,黄昌宁.基于转换的汉语基本名词短语识别模型[J].中文信息学报,1999,13(2):1-7. 被引量：41
3李珩,杨峰,朱靖波,姚天顺.基于增益的隐马尔科夫模型的文本组块分析[J].计算机科学,2004,31(2):152-154. 被引量：9
4张昱琪,周强.汉语基本短语的自动识别[J].中文信息学报,2002,16(6):1-8. 被引量：41

二级参考文献34

1周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
2张卫国.三种定语、三类意义及三个槽位[J].中国人民大学学报,1996,(4):97-100.
3周强.汉语语料库的短语自动划分和标注研究.北京大学博士研究生学位论文[M].-,1996..
4赵军.汉语基本名词短语识别及结构分析研究.清华大学工学博士学位论文[M].-,1998..
5孙宏林.现代汉语非受限文本的实语块分析.北京大学博士研究生学位论文[M].-,2001..
6[1]Abney S.Parsing by chunk.In Berwick,A.and Tenny,editors,Principle-Based Parsing.Kluwer,1991
7[2]Erik F.Tjong Kim Sang and Sabine Buchholz Introduction to the CoNLL-2000 Shared Task: Chunking.CoNLL-2000 and LLL-2000.Lisbon,Portugal,pp.127～132
8[3]Erik F,Sang T K.Text chunking by system combination.In:Proc.of CoNLL-2000 and LLL-2000.Lisbon,Portugal,2000
9[4]Brants T.TnT -a statistical part-of-speech tagger.In:Proc.of the Sixth Applied Natural Language Processing (ANLP-2000),Seattle,WA,2000
10[5]Ramshaw L,Marcus M.Text Chunking Using Transformation-Based Learning.In:Proc.of third Workshop on Very Large Corpora,June 1995.82～94

共引文献94

1程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
2谭咏梅,姚天顺,陈晴,李珩,朱靖波.基于SVM+Sigmoid的汉语组块识别[J].计算机科学,2004,31(8):142-146. 被引量：3
3李荣.基于隐马尔可夫模型的汉语非嵌套名词短语识别[J].忻州师范学院学报,2004,20(5):122-124. 被引量：1
4陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
5梁颖红,赵铁军,姚建民,于浩,徐冰.基于混合策略的英语基本名词短语识别——边界统计和词性串规则校正相结合的策略[J].计算机工程与应用,2004,40(35):1-3. 被引量：2
6孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
7曹建芳,郑家恒.基于SVM的汉语动词短语识别[J].咸阳师范学院学报,2004,19(6):32-34. 被引量：3
8张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
9干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
10薛永增,杨沐昀,赵铁军,韩习武,齐浩亮.面向体育领域的句子主干翻译技术研究[J].中文信息学报,2005,19(5):24-30. 被引量：1

同被引文献385

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2王昀,苑春法.基于转换的时间-事件关系映射[J].中文信息学报,2004,18(4):23-30. 被引量：19
3邢福义.NVN造名结构及其NV｜VN简省形式[J].语言研究,1994,14(2):1-12. 被引量：21
4李红莲,王春花,袁保宗,朱占辉.针对大规模训练集的支持向量机的学习策略[J].计算机学报,2004,27(5):715-719. 被引量：53
5程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
6谭咏梅,姚天顺,陈晴,李珩,朱靖波.基于SVM+Sigmoid的汉语组块识别[J].计算机科学,2004,31(8):142-146. 被引量：3
7王荣波,池哲儒.基于神经元网络的汉语组块自动划分[J].计算机工程,2004,30(20):133-135. 被引量：2
8江荻.藏语拉萨话的体貌、示证及自我中心范畴[J].语言科学,2005,4(1):70-88. 被引量：29
9梁颖红,赵铁军,岳琪.英语基本名词短语识别技术研究[J].信息技术,2004,28(12):22-24. 被引量：4
10孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38

引证文献50

1陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
2干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
3林煜明,李优.基于SVM的句子组块识别[J].山东大学学报（理学版）,2006,41(3):33-36.
4吕德新,张桂平,蔡东风,余超.基于语义信息的问题分类[J].沈阳航空工业学院学报,2006,23(3):38-40. 被引量：1
5付斌,樊孝忠.基于神经元网络的问句组块分析[J].计算机技术与发展,2006,16(10):94-96.
6张运良.语义块的多元逻辑组合构成研究[J].计算机应用研究,2006,23(11):15-18.
7黄德根,王莹莹.基于SVM的组块识别及其错误驱动学习方法[J].中文信息学报,2006,20(6):17-24. 被引量：6
8索红光,曹淑英.基于组块的中文自动文摘系统研究[J].计算机系统应用,2007,16(3):97-100. 被引量：2
9李荣,郑家恒.基于语料库的名词短语识别方法[J].济南大学学报（自然科学版）,2007,21(3):243-245. 被引量：2
10梁颖红,赵铁军,于浩,姚健民,徐冰.基于改进K-均值聚类的汉语语块识别[J].哈尔滨工业大学学报,2007,39(7):1106-1109. 被引量：4

二级引证文献191

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2徐中一,胡谦,刘磊.基于CRF的中文组块分析[J].吉林大学学报（理学版）,2007,45(3):416-420. 被引量：7
3邱冰,皇甫娟.基于中文信息处理的古代汉语分词研究[J].微计算机信息,2008,24(24):100-102. 被引量：32
4黄小江,万小军,杨建武,肖建国.汉语比较句识别研究[J].中文信息学报,2008,22(5):30-38. 被引量：16
5黄德根,于静.分布式策略与CRFs相结合识别汉语组块[J].中文信息学报,2009,23(1):16-22. 被引量：6
6李跃民,王浩,赵生慧,计成超.智能辅助教学系统中知识点切分歧义消除研究[J].计算机技术与发展,2009,19(4):220-223. 被引量：1
7郭凯红,李文立.基于规则的大规模试卷文本语块识别方法的研究[J].计算机应用研究,2009,26(4):1391-1393. 被引量：4
8樊勇,郑家恒.网页去重方法研究[J].计算机工程与应用,2009,45(12):141-143. 被引量：7
9林莉.自动文摘的生成方法与评价研究[J].图书馆学刊,2009,31(5):94-95. 被引量：1
10辛颖梅,钱海峰,倪魏巍,徐冬梅,孙志挥.关于专利类别间相似度量化方法的研究[J].科技创新导报,2009,6(15):90-92. 被引量：2

1李珩,朱靖波,姚天顺.基于Stacking算法的组合分类器及其应用于中文组块分析[J].计算机研究与发展,2005,42(5):844-848. 被引量：18
2别致,周俊生,陈家骏.基于SVM-Adaboost的中文组块分析[J].计算机工程与应用,2008,44(21):171-173. 被引量：1
3孙广路,王晓龙,刘秉权,关毅.基于词聚类特征的统计中文组块分析模型[J].电子学报,2008,36(12):2450-2453. 被引量：7
4孙广路,郎非,薛一波.基于条件随机域和语义类的中文组块分析方法[J].哈尔滨工业大学学报,2011,43(7):135-139. 被引量：5
5李素建,刘群,杨志峰.基于最大熵模型的组块分析[J].计算机学报,2003,26(12):1722-1727. 被引量：58
6李珩,杨峰,朱靖波,姚天顺.基于增益的隐马尔科夫模型的文本组块分析[J].计算机科学,2004,31(2):152-154. 被引量：9
7索红光,曹淑英.基于组块的中文自动文摘系统研究[J].计算机系统应用,2007,16(3):97-100. 被引量：2
8刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
9李珩,谭咏梅,朱靖波,姚天顺.汉语组块识别[J].东北大学学报（自然科学版）,2004,25(2):114-117. 被引量：5
10LIANG Yinghong,ZHAO Tiejun,YAO Jianmin,YU Hao.A Multi-Agent Strategy Chinese Text for Both English and Chunking[J].Chinese Journal of Electronics,2006,15(3):422-426. 被引量：1

中文信息学报

2004年第2期

浏览历史

内容加载中请稍等...

基于SVM的中文组块分析被引量：50

参考文献4

二级参考文献34

共引文献94

同被引文献385

引证文献50

二级引证文献191

相关作者

相关机构

相关主题

浏览历史

基于SVM的中文组块分析 被引量：50

参考文献4

二级参考文献34

共引文献94

同被引文献385

引证文献50

二级引证文献191

相关作者

相关机构

相关主题

浏览历史

基于SVM的中文组块分析被引量：50