期刊文献+

基于最大熵模型的学术缩写自动识别 被引量:1

Study on Automatic Identification of Academic Abbreviations and their Definitions based on Maximum Entropy Model
下载PDF
导出
摘要 为实现海量英文学术文本中缩写词及对应缩写定义的识别,本文提出了一种自动缩写识别算法MELearn-AI。该算法在人工标注数据集的基础上,从序列标注的角度,通过最大熵模型实现了计算机领域英文学术文本中的自动缩写识别。MELearn-AI在本文构建的评测数据集"Paren-sen"上得到了95.8%的查准率和86.3%的查全率,相对于其他两组对照实验的效果有较为明显的提升。本文提出的自动缩写识别方法能够在计算机领域的学术文本上取得令人满意的效果,有助于更好地理解并利用该领域术语。 In order to effectively identify the abbreviations and their corresponding definitions from enormous English academic texts, this paper proposes an automatic identification algorithm called MELearn-AI.In the perspective of the sequence labelling,MELearn-AI utilizes a manually labelled dataset and adopts maximum entropy algorithm to train a model, and then identify abbreviations in computer science academic texts based on the model. This method achieves a 95.8% precision rate with a 86.3% recall rate in the "Paren-sen" evaluation dataset created in this paper,it shows an obvious improvement compared to the other two algorithms.This paper proposes a method to identify the abbreviations and their corresponding definitions.Tested in English academic texts of computer science, the algorithm achieves satisfactory results, which is helpful to better understanding and adopting the terminology of this field.
作者 张秋子 陆伟 程齐凯 黄永 ZHANG Qiuzi LU Wei CHENG Qikai HUANG Yong(Center for the Studies of Information Resources of Wuhan University, Wuhan 430072, Chin)
出处 《情报工程》 2015年第2期64-72,共9页 Technology Intelligence Engineering
基金 国家自然科学基金 "基于语言模型的通用实体检索建模及框架实现研究"(项目编号:71173164)支持
关键词 学术文本 缩写 机器学习 序列标注 信息抽取 Academic texts, abbreviations/acronyms, machine learning sequence ,labelling, information extraction
  • 相关文献

参考文献5

二级参考文献36

  • 1陈浩元.著录文后参考文献的规则及注意事项[J].编辑学报,2005,17(6):413-415. 被引量:123
  • 2托马斯·L·克罗韦尔.现代英语用法指南[M].张岱云,译.上海:上海外语教育出版社,1984:359.
  • 3林承章《英语词汇学引论》,武汉大学出版社,1997.
  • 4Antrushina,G.B.et al 1999.English Lexicology.Drofa Publishing House.
  • 5Doroszsewki,W.1973.Elements of Lexicology,and Sernioics.Mouten.
  • 6Jackson,H.& Amvela E.Z.2000.Words,Meaning and Voeabulary:An Introduction to Modern English Lexicology,Cassell.
  • 7全国量和单位标准化委员会.GB 3101.11-1993物理科学和技术中使用的数学符号[S]//GB 3100~3102量和单位.北京:中国标准出版社,1999:307-335
  • 82000数学主题分类表[M].《中国数学文摘》编辑部,译.北京:《中国数学文摘》编辑部,2000
  • 9Chen SF, Rosenfeld R. A Gaussian prior for smoothing maximum entropy models. Technical Report, CMU-CS-99-108, 1999.
  • 10Gildea D, Jurafsky D. Automatic labeling of semantic roles. Computational Linguistics, 2002,28(3):245-288.

共引文献73

同被引文献6

引证文献1

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部