期刊文献+

基于SVM的中文组块分析 被引量:50

SVM Based Chinese Text Chunking
下载PDF
导出
摘要 基于SVM(supportvectormachine)理论的分类算法 ,由于其完善的理论基础和良好的实验结果 ,目前已逐渐引起国内外研究者的关注。和其他分类算法相比 ,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作为句法分析的预处理阶段 ,通过将文本划分成一组互不重叠的片断 ,来达到降低句法分析的难度。本文将中文组块识别问题看成分类问题 ,并利用SVM加以解决。实验结果证明 ,SVM算法在汉语组块识别方面是有效的 ,在哈尔滨工业大学树库语料测试的结果是F =88 6 7%,并且特别适用于有限的汉语带标信息的情况。 The classification algorithm based on SVM (support vector machine) attracts more attention from researchers due to its perfect theoretical properties and good empirical results. Compared with other classification algorithms, structural risk minimizations based SVM achieve high generalization performance with small number of samples. The text chunking, as a preprocessing step for parsing, is to divide text into syntactically related non-overlapping groups of words (chunks), reducing the complexity of the full parsing. In this paper, we treat Chinese text chunking as a classification problem, and apply SVM to solve it. The chunking experiments were carried out on the HIT Chinese Treebank corpus. Experimental results show that it is an effective approach, achieving an F score of 88.67%, especially for a small number of Chinese labeled samples.
出处 《中文信息学报》 CSCD 北大核心 2004年第2期1-7,共7页 Journal of Chinese Information Processing
基金 国家自然科学基金资助项目 (6 0 0 830 0 6 ) 国家重点基础研究发展规划 973资助项目(G19980 30 5 0 11) 国家自然科学基金和微软亚洲研究院联合资助项目 (6 0 2 0 30 19)
关键词 计算机应用 中文信息处理 支持向量机 结构风险最小化 文本组块 SVM 分类算法 computer application Chinese information processing support vector machine structural risk minimization text chunking
  • 相关文献

参考文献4

二级参考文献34

  • 1周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量:35
  • 2张卫国.三种定语、三类意义及三个槽位[J].中国人民大学学报,1996,(4):97-100.
  • 3周强.汉语语料库的短语自动划分和标注研究.北京大学博士研究生学位论文[M].-,1996..
  • 4赵军.汉语基本名词短语识别及结构分析研究.清华大学工学博士学位论文[M].-,1998..
  • 5孙宏林.现代汉语非受限文本的实语块分析.北京大学博士研究生学位论文[M].-,2001..
  • 6[1]Abney S.Parsing by chunk.In Berwick,A.and Tenny,editors,Principle-Based Parsing.Kluwer,1991
  • 7[2]Erik F.Tjong Kim Sang and Sabine Buchholz Introduction to the CoNLL-2000 Shared Task: Chunking.CoNLL-2000 and LLL-2000.Lisbon,Portugal,pp.127~132
  • 8[3]Erik F,Sang T K.Text chunking by system combination.In:Proc.of CoNLL-2000 and LLL-2000.Lisbon,Portugal,2000
  • 9[4]Brants T.TnT -a statistical part-of-speech tagger.In:Proc.of the Sixth Applied Natural Language Processing (ANLP-2000),Seattle,WA,2000
  • 10[5]Ramshaw L,Marcus M.Text Chunking Using Transformation-Based Learning.In:Proc.of third Workshop on Very Large Corpora,June 1995.82~94

共引文献94

同被引文献385

引证文献50

二级引证文献191

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部