期刊文献+

中文问句的形式分类和资源建设

Formal Classification of Chinese Question Sentence and Resource Construction
下载PDF
导出
摘要 该文归纳了问句形式在问句语料筛选中的作用,探索了问句分类必需的形式特征,同时通过人工标注建设了中文问句分类语料库,并在此基础上进行了基于规则和统计的分类实验,通过多轮实验迭代优化特征组合形成特征规则集,为当前问答提供形式上的分类基础。实验中,基于优化特征规则集的有限状态自动机可实现宏平均F_(1)值为0.94;统计机器学习中随机森林模型的分类效果较好,F_(1)值宏平均达到0.98。 This paper explores the formal features in questions classification and summarized the question types in question corpus filtering.Based on a Chinese question classification corpus manually annotated,this paper has conducted experiments based on rules and statistics for Chinese question sentence classification.In the experiment,the finite state machine based on the optimized feature set can achieve a macro average F_(1)-score of 0.94,and the random forest model reaches 0.98.
作者 黎江涛 饶高琦 LI Jiangtao;RAO Gaoqi(Research Institute of International Chinese Language Education,Beijing Language and Culture University,Beijing 100083,China)
出处 《中文信息学报》 CSCD 北大核心 2022年第7期69-76,共8页 Journal of Chinese Information Processing
基金 教育部人文社会科学基金(20YJC740050)。
关键词 疑问句 分类 形式特征 语料库 interrogative sentences classification formal features corpus
  • 相关文献

参考文献4

二级参考文献39

共引文献96

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部