一种基于Bootstrapping构建训练语料的方法
Training Corpus Construction Based on Bootstrapping
摘要
提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集训练一个基于类的语言模型,然后使用该模型自动标注剩余的语料;再从剩余语料中选取部分语料进行以上处理,如此循环直到训练语料标注质量理想.实验结果表明,该方法在保证训练语料标注质量理想的情况下,能够大幅度地减少人工参与.
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第z2期394-397,共4页
Journal of Computer Research and Development
基金
国家自然科学基金项目(60663004)
教育部博士点基金项目(20050007023)
参考文献7
-
1[1]Jian Sun,Jianfeng Gao.Chinese named entity identification using class-based language model.The 19th Int'l Conf on Computational Linguistics,Taipei,2002
-
2尹继豪,樊孝忠,赵攀超,于江德.基于组块分析技术的中文机构名称识别[J].哈尔滨工程大学学报,2006,27(B07):466-470. 被引量:5
-
3[3]D E Appelt,D J Israel.Introduction to information extraction technology.Tutorial for IJCAI-99,Stockholm,1999
-
4[4]Xiangping Ge,Wanda Pratt,Padhraic Smyth.Discovering Chinese words from unsegmented text.SIGIR-99,Berkeley,USA,1999
-
5[5]Wu,Andi.Chinese word segmentation in MSR-NLP.The 2nd SIGHAN Workshop on Chinese Language Processing,Sapporo,2003
-
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量:197
-
7[7]J Gao,H F Wang,M Li,et al.A unified approach to statistical language modeling for Chinese.ICASPP-2000,Istanbul,Turkey,2000
二级参考文献28
-
1H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
-
2Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
-
3S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
-
4J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
-
5Lawrence R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of IEEE, 1989,77(2): 257~286
-
6Shai Fine, Yoram Singer, Naftali Tishby. The hierarchical hidden Markov model: Analysis and applications. Machine Learning,1998, 32(1): 41~62
-
7Richard Sproat, Thomas Emerson. The first international Chinese word segmentation bakeoff. The First SIGHAN Workshop Attached with the ACL2003, Sapporo, Japan, 2003. 133~143
-
8J Hockenmaier, C Brew. Error-driven learning of Chinese word segmentation. In: J Guo, K T Lua, J Xu, eds. The 12th Pacific Conf on Language and Information, Singapore, 1998
-
9Andi Wu, Zixin Jiang. Word segmentation in sentence analysis.1998 Int'l Conf on Chinese Information Processing, Beijing, 1998
-
10D Palmer. A trainable rule-based algorithm for word segmentation. The 35th Annual Meeting of the Association for Computational Linguistics (ACL'97), Madrid, 1997
共引文献200
-
1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量:6
-
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量:8
-
3陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
-
4于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报(自然科学版),2011,34(3):357-362. 被引量:2
-
5于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报(自然科学版),2011,34(4):513-517. 被引量:1
-
6李彦,贾爱军,占向辉,李翔龙.面向创新设计的多层次Web信息检索研究[J].工程设计学报,2005,12(3):129-133. 被引量:1
-
7任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量:1
-
8俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量:150
-
9雷震,吴玲达,王辰,贺玲.新闻事件分析系统IEventMiner的设计[J].计算机科学,2006,33(4):177-180.
-
10周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量:111
-
1尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量:3
-
2顾思远,尹廷辉,岳振军.基于软聚类的模糊类语言模型[J].军事通信技术,2015,36(1):5-11. 被引量:1
-
3张仰森,曹元大.基于语料库的自然语言建模方法研究[J].计算机科学,2004,31(5):176-179. 被引量:1
-
4陈霞.众包标注质量控制研究[J].岭南师范学院学报,2015,36(3):112-121. 被引量:1
-
5周家琪,刘丽,崔晓萍,李方方.基于相似性迁移学习的图像标注[J].山东师范大学学报(自然科学版),2016,31(2):22-26. 被引量:2
-
6伊·达瓦,匂坂芳典,中村哲.语料资源缺乏的连续语音识别方法的研究[J].自动化学报,2010,36(4):550-557. 被引量:9
-
7王烽,郑延福,胡宗揖.计算机系统在拉伸试验中的实际应用[J].物理测试,2000,18(4):18-20.
-
8李明琴,李涓子,王作英,陆大.语义分析和结构化语言模型[J].软件学报,2005,16(9):1523-1533. 被引量:7
-
9韦小丽,孙涌,张书奎,苗艳军.基于最大熵模型的本体概念获取方法[J].计算机工程,2009,35(24):114-116. 被引量:17
-
10李劲,张华,吴浩雄,向军,辜希武.基于社会标注质量的文本分类模型框架[J].计算机应用,2012,32(5):1335-1339. 被引量:5