Co-training机器学习方法在中文组块识别中的应用被引量：8

Chinese Text Chunking Using Co-training Method

下载PDF

导出

摘要采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F值分别达到了85 34%和83 4 1% ,分别提高了2 13%和7 2 1%。 In this paper we discuss the application of semi-supervised machine learning method-co-training on Chinese Text Chunking. Firstly, we give the definition of Chinese chunk,then the formalized definition of co-training algorithm.We proposed a example selection method based on the consistence, using two classifiers : Transductive HMM and fnTBL to combine a classification system to perform the Chinese text chunking task with the small-scale labled Chinese treebank and large-scale unlabled Chinese corpus. The result were compared with the self-training result and the result of the non co-training experiment in which we only used the small-scale Chinese treebank as training data and use one classifier(Transductive HMM or fnTBL) to recognize the Chinese chunk. The improvement is significant, the F value of the two classifiers reached 83.41%,85.34%, get a improvement of 2.13 points and 7.21 points respectively.

作者刘世岳李珩张俐姚天顺

机构地区东北大学计算机软件与理论研究所

出处《中文信息学报》 CSCD 北大核心 2005年第3期73-79,共7页 Journal of Chinese Information Processing

基金国家教育部科学技术研究重点资助项目 (10 4 0 6 5 ) 国家自然科学基金和微软亚洲研究院联合资助项目 (6 0 2 0 30 19)

关键词计算机应用中文信息处理 co-training算法中文组块分类器 computer application Chinese information processing co-training algorithm Chinese chunk classifier

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Seong-Bae Park, Jangmin O, Byoung-Tak Zhang. Text Categorization Using Co-Trained Support Vector Machines with Both Lexical and Syntactic Information[Z] .In: NIPS 2001 Workshop on Machine learning Methods for Text and Images Whistler/Blackcomb Resort[ C], BC, CANADA, 2001.
2David Pierce and Claire Cardie. Limitations of Co-Training for Natural Language ~arning from Large Datasets[Z],Department of Computer Science, Comell University, Ithaca NY, 2001.
3M. Collins and Y. Singer. Unsupervised models for named entity classification[Z]. Proc. Joint SIGDAT Conf. on EMNLP/VLC, 1999.
4Christoph Mtiller, stefan Rapp, Michael Smabe. Applying Co-Training to Reference Resolution[ A] In: ACL '02[ C],2002, 352 - 359.
5S. Abney. Part-of-speech tagging and partial parsing[A]. In : Church K,Young S, Bloothooft Geds. Corpus-Based Methods in Language and Speech [ C ], an ELSENET volume, Dordrecht : Kluwer Academic Publisher, 1996,119136.
6A. Blum and T. Mitchell. Combining labeled and unlabeled data with co-training[Z]. In:Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT-98)[C]. 1998.
7Heng Li, Jonathan J. Webster, Chunyu Kit, Tianshun Yao. Transductive HMM based Chinese Text Chunking[ Z].IEEE NLP-KE2003, 257- 262, Beijing, China, 2003.
8Radu Florian. Named Entity Recognition as a House of Cards: Classifier Stacking[R], In:Proceedings of CoNLL-2002[ C]. Taipei, 2002.
9S. Abny. Bootstrapping[A]. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics[C], Taipei, 2002.
10Sanjoy Dasgupta. Performance Guarantees for Hierarchical Clusterlng[J]. COLT 2002:351 - 363, 2002.

同被引文献111

1王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
2程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
3王荣波,池哲儒.基于神经元网络的汉语组块自动划分[J].计算机工程,2004,30(20):133-135. 被引量：2
4侯敏,孙建军.汉语中的零形回指及其在汉英机器翻译中的处理对策[J].中文信息学报,2005,19(1):14-20. 被引量：23
5梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
6高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
7刘蓓,杜利民.汉语口语对话系统中语义分析的消歧策略[J].中文信息学报,2005,19(1):76-83. 被引量：3
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9孙建军,成颖.基于信息检索交互模型的相关性研究[J].中国图书馆学报,2005,31(1):41-45. 被引量：16
10冯志伟.澄清对机器翻译的一些误解(论文提要)[J].现代语文（理论研究）,2005(1):36-36. 被引量：3

引证文献8

1罗进军.当前计算语言学研究的发展态势[J].湖南工业职业技术学院学报,2006,6(4):105-107.
2索红光,曹淑英.基于组块的中文自动文摘系统研究[J].计算机系统应用,2007,16(3):97-100. 被引量：2
3米爱中,徐国章,曾广平,涂序彦.“软件人”感知系统的协同分类模型研究[J].计算机科学,2007,34(11):140-143.
4樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
5丁孝年,陈松灿.代价敏感特征选择和半监督学习相结合的乳腺癌辅助诊断[J].应用科学学报,2008,26(3):319-325. 被引量：3
6卢加磊,朱世华,丁香乾,黄跃华.基于Co-training的烟草原料数据优化分析[J].计算机与现代化,2010(2):176-179.
7李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
8陆昊翔.句法分析和结构识别研究综述[J].科学与信息化,2022(20):31-33.

二级引证文献19

1樊勇,郑家恒.网页去重方法研究[J].计算机工程与应用,2009,45(12):141-143. 被引量：7
2林莉.自动文摘的生成方法与评价研究[J].图书馆学刊,2009,31(5):94-95. 被引量：1
3王莹.乳腺X线影像预处理新方法[J].福建电脑,2009,25(10):68-68.
4王莹.一个结合形态学滤波和高斯-拉普拉斯滤波检测乳腺X线影像中钙化点的新方法[J].生物医学工程学杂志,2010,27(4):907-911.
5张小娣,宋余庆.基于网页正文逻辑段落和长句提取的网页去重算法[J].图书情报研究,2012,5(2):41-45. 被引量：1
6李纲,毛进,陈璟浩.基于语义指纹的中文文本快速去重[J].现代图书情报技术,2013(9):41-47. 被引量：5
7郭翠珍.“一X就Y”格式的多词表达敏感特征提取和选择[J].苏州市职业大学学报,2013,24(4):11-13.
8马建军,宗敏.功能小句自动句法分析结果的错误分析[J].鸡西大学学报（综合版）,2014,14(9):124-127.
9俞敬松,王惠临,吴胜兰.高正确率的双语语块对齐算法研究[J].中文信息学报,2015,29(1):67-74. 被引量：5
10李业刚,黄河燕,鉴萍.引入混合特征的最大名词短语双向标注融合算法[J].自动化学报,2015,41(7):1274-1282. 被引量：4

1邬书跃,余杰,樊晓平.基于Tri-training的入侵检测算法[J].计算机工程,2012,38(6):158-160. 被引量：2
2秦颖,王小捷,钟义信.级联中文组块识别[J].北京邮电大学学报,2008,31(1):14-17. 被引量：2
3柯逍,李绍滋,陈国龙.基于Co-training的图像自动标注[J].厦门大学学报（自然科学版）,2013,52(4):486-492.
4宋静.支持向量机的应用研究[J].电脑知识与技术,2012,8(11X):8060-8062. 被引量：2
5徐庆伶,汪西莉.一种基于支持向量机的半监督分类方法[J].计算机技术与发展,2010,20(10):115-117. 被引量：18
6魏涛,季新生.基于自标注在线顺序极速学习机的图像识别方法[J].计算机工程,2016,42(6):208-212. 被引量：3
7孙广路,王晓龙,刘秉权,关毅.基于词聚类特征的统计中文组块分析模型[J].电子学报,2008,36(12):2450-2453. 被引量：7
8王轩,李巍,王晓龙,赵淑香.大标记集汉语字(词)Markov 语言模型的建立[J].哈尔滨工业大学学报,1997,29(5):23-27. 被引量：3
9李素建,刘群,杨志峰.基于最大熵模型的组块分析[J].计算机学报,2003,26(12):1722-1727. 被引量：58
10孙广路,郎非,薛一波.基于条件随机域和语义类的中文组块分析方法[J].哈尔滨工业大学学报,2011,43(7):135-139. 被引量：5

中文信息学报

2005年第3期

浏览历史

内容加载中请稍等...

Co-training机器学习方法在中文组块识别中的应用被引量：8

参考文献10

同被引文献111

引证文献8

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

Co-training机器学习方法在中文组块识别中的应用 被引量：8

参考文献10

同被引文献111

引证文献8

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

Co-training机器学习方法在中文组块识别中的应用被引量：8