一种基于Bootstrapping构建训练语料的方法

Training Corpus Construction Based on Bootstrapping

下载PDF

导出

摘要提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集训练一个基于类的语言模型,然后使用该模型自动标注剩余的语料;再从剩余语料中选取部分语料进行以上处理,如此循环直到训练语料标注质量理想.实验结果表明,该方法在保证训练语料标注质量理想的情况下,能够大幅度地减少人工参与.

作者尹继豪樊孝忠刘士宁于江德

机构地区北京理工大学计算机科学技术学院青岛市国土资源和房屋管理局安阳师范学院计算机科学系

出处《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期394-397,共4页 Journal of Computer Research and Development

基金国家自然科学基金项目(60663004) 教育部博士点基金项目(20050007023)

关键词 BOOTSTRAPPING 命名实体识别训练语料类语言模型

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1[1]Jian Sun,Jianfeng Gao.Chinese named entity identification using class-based language model.The 19th Int'l Conf on Computational Linguistics,Taipei,2002
2尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量：5
3[3]D E Appelt,D J Israel.Introduction to information extraction technology.Tutorial for IJCAI-99,Stockholm,1999
4[4]Xiangping Ge,Wanda Pratt,Padhraic Smyth.Discovering Chinese words from unsegmented text.SIGIR-99,Berkeley,USA,1999
5[5]Wu,Andi.Chinese word segmentation in MSR-NLP.The 2nd SIGHAN Workshop on Chinese Language Processing,Sapporo,2003
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
7[7]J Gao,H F Wang,M Li,et al.A unified approach to statistical language modeling for Chinese.ICASPP-2000,Istanbul,Turkey,2000

二级参考文献28

1H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
2Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
3S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
4J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
5Lawrence R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of IEEE, 1989,77(2): 257～286
6Shai Fine, Yoram Singer, Naftali Tishby. The hierarchical hidden Markov model: Analysis and applications. Machine Learning,1998, 32(1): 41～62
7Richard Sproat, Thomas Emerson. The first international Chinese word segmentation bakeoff. The First SIGHAN Workshop Attached with the ACL2003, Sapporo, Japan, 2003. 133～143
8J Hockenmaier, C Brew. Error-driven learning of Chinese word segmentation. In: J Guo, K T Lua, J Xu, eds. The 12th Pacific Conf on Language and Information, Singapore, 1998
9Andi Wu, Zixin Jiang. Word segmentation in sentence analysis.1998 Int'l Conf on Chinese Information Processing, Beijing, 1998
10D Palmer. A trainable rule-based algorithm for word segmentation. The 35th Annual Meeting of the Association for Computational Linguistics (ACL'97), Madrid, 1997

共引文献200

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：6
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
3陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
4于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
5于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
6李彦,贾爱军,占向辉,李翔龙.面向创新设计的多层次Web信息检索研究[J].工程设计学报,2005,12(3):129-133. 被引量：1
7任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
8俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：150
9雷震,吴玲达,王辰,贺玲.新闻事件分析系统IEventMiner的设计[J].计算机科学,2006,33(4):177-180.
10周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：111

1尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
2顾思远,尹廷辉,岳振军.基于软聚类的模糊类语言模型[J].军事通信技术,2015,36(1):5-11. 被引量：1
3张仰森,曹元大.基于语料库的自然语言建模方法研究[J].计算机科学,2004,31(5):176-179. 被引量：1
4陈霞.众包标注质量控制研究[J].岭南师范学院学报,2015,36(3):112-121. 被引量：1
5周家琪,刘丽,崔晓萍,李方方.基于相似性迁移学习的图像标注[J].山东师范大学学报（自然科学版）,2016,31(2):22-26. 被引量：2
6伊·达瓦,匂坂芳典,中村哲.语料资源缺乏的连续语音识别方法的研究[J].自动化学报,2010,36(4):550-557. 被引量：9
7王烽,郑延福,胡宗揖.计算机系统在拉伸试验中的实际应用[J].物理测试,2000,18(4):18-20.
8李明琴,李涓子,王作英,陆大.语义分析和结构化语言模型[J].软件学报,2005,16(9):1523-1533. 被引量：7
9韦小丽,孙涌,张书奎,苗艳军.基于最大熵模型的本体概念获取方法[J].计算机工程,2009,35(24):114-116. 被引量：17
10李劲,张华,吴浩雄,向军,辜希武.基于社会标注质量的文本分类模型框架[J].计算机应用,2012,32(5):1335-1339. 被引量：5

计算机研究与发展

2007年第z2期

浏览历史

内容加载中请稍等...

一种基于Bootstrapping构建训练语料的方法

参考文献7

二级参考文献28

共引文献200

相关作者

相关机构

相关主题

浏览历史