基于最大熵模型的学术缩写自动识别被引量：1

Study on Automatic Identification of Academic Abbreviations and their Definitions based on Maximum Entropy Model

下载PDF

导出

摘要为实现海量英文学术文本中缩写词及对应缩写定义的识别,本文提出了一种自动缩写识别算法MELearn-AI。该算法在人工标注数据集的基础上,从序列标注的角度,通过最大熵模型实现了计算机领域英文学术文本中的自动缩写识别。MELearn-AI在本文构建的评测数据集"Paren-sen"上得到了95.8%的查准率和86.3%的查全率,相对于其他两组对照实验的效果有较为明显的提升。本文提出的自动缩写识别方法能够在计算机领域的学术文本上取得令人满意的效果,有助于更好地理解并利用该领域术语。 In order to effectively identify the abbreviations and their corresponding definitions from enormous English academic texts, this paper proposes an automatic identification algorithm called MELearn-AI.In the perspective of the sequence labelling,MELearn-AI utilizes a manually labelled dataset and adopts maximum entropy algorithm to train a model, and then identify abbreviations in computer science academic texts based on the model. This method achieves a 95.8% precision rate with a 86.3% recall rate in the ＂Paren-sen＂ evaluation dataset created in this paper,it shows an obvious improvement compared to the other two algorithms.This paper proposes a method to identify the abbreviations and their corresponding definitions.Tested in English academic texts of computer science, the algorithm achieves satisfactory results, which is helpful to better understanding and adopting the terminology of this field.

作者张秋子陆伟程齐凯黄永 ZHANG Qiuzi LU Wei CHENG Qikai HUANG Yong(Center for the Studies of Information Resources of Wuhan University, Wuhan 430072, Chin)

机构地区武汉大学信息资源研究中心

出处《情报工程》 2015年第2期64-72,共9页 Technology Intelligence Engineering

基金国家自然科学基金 "基于语言模型的通用实体检索建模及框架实现研究"(项目编号:71173164)支持

关键词学术文本缩写机器学习序列标注信息抽取 Academic texts, abbreviations/acronyms, machine learning sequence ,labelling, information extraction

分类号 G203 [文化科学—传播学]

引文网络
相关文献

参考文献5

1刘有发.论现代英语缩写词的构词法[J].江西社会科学,2002,22(2):196-197. 被引量：1
2刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
3杨巍纳.数学论文中常用的英文缩写词[J].编辑学报,2006,18(2):121-122. 被引量：2
4刘岩,韩瑶.英语缩略语常见构词方法[J].海外英语,2013(10X):253-254. 被引量：1
5杨巍纳.科技英文缩写词构词方法之我见[J].科技与出版,2006(2):46-48. 被引量：1

二级参考文献36

1陈浩元.著录文后参考文献的规则及注意事项[J].编辑学报,2005,17(6):413-415. 被引量：123
2托马斯·L·克罗韦尔.现代英语用法指南[M].张岱云,译.上海:上海外语教育出版社,1984:359.
3林承章《英语词汇学引论》，武汉大学出版社，1997．
4Antrushina,G.B.et al 1999．English Lexicology．Drofa Publishing House．
5Doroszsewki,W.1973．Elements of Lexicology，and Sernioics．Mouten．
6Jackson,H．& Amvela E．Z.2000．Words,Meaning and Voeabulary:An Introduction to Modern English Lexicology,Cassell．
7全国量和单位标准化委员会.GB 3101.11-1993物理科学和技术中使用的数学符号[S]//GB 3100～3102量和单位.北京:中国标准出版社,1999:307-335
82000数学主题分类表[M].《中国数学文摘》编辑部,译.北京:《中国数学文摘》编辑部,2000
9Chen SF, Rosenfeld R. A Gaussian prior for smoothing maximum entropy models. Technical Report, CMU-CS-99-108, 1999.
10Gildea D, Jurafsky D. Automatic labeling of semantic roles. Computational Linguistics, 2002,28(3):245-288.

共引文献73

1刘亚慧,杨浩苹,李正华,张民.一种轻量级的汉语语义角色标注规范[J].中文信息学报,2020(4):10-20. 被引量：4
2丁金涛,周国栋,王红玲,朱巧明.语义角色标注中有效的识别论元算法研究[J].计算机工程与应用,2008,44(18):153-156. 被引量：2
3方巍,黄黎,崔志明.基于最大熵分类器的Deep Web查询接口自动判定[J].计算机工程与应用,2008,44(21):133-137. 被引量：1
4丁伟伟,常宝宝.基于最大熵原则的汉语语义角色分类[J].中文信息学报,2008,22(6):20-26. 被引量：11
5丁金涛,王红玲,周国栋,朱巧明,钱培德.语义角色标注中特征优化组合研究[J].计算机应用与软件,2009,26(5):17-21. 被引量：7
6谢毓湘,栾悉道,吴玲达,谭洁,陈丹雯.基于概念的多媒体数据语义检索模型[J].计算机应用研究,2009,26(8):2945-2947.
7汪红林,王红玲,周国栋.基于依存关系的语义角色标注[J].计算机工程,2009,35(15):82-84. 被引量：4
8贾君枝,赵文娟,王东元.汉语框架网络知识库的语义角色特征识别[J].图书情报工作,2009,53(17):110-113. 被引量：4
9丁伟伟,常宝宝.基于语义组块分析的汉语语义角色标注[J].中文信息学报,2009,23(5):53-61. 被引量：24
10李军辉,王红玲,周国栋,朱巧明,钱培德.语义角色标注中句法特征的研究[J].中文信息学报,2009,23(6):11-18. 被引量：11

同被引文献6

1肖浩,詹雷,王征.国外会计文本信息实证研究述评与展望[J].外国经济与管理,2016,38(9):93-112. 被引量：24
2翟文洁,闫琰,张博文,殷绪成.基于混合深度信念网络的多类文本表示与分类方法[J].情报工程,2016,2(5):30-40. 被引量：8
3林钟高,杨雨馨.风险提示信息与银行信贷决策——基于A股上市公司年报文本信息的研究[J].安徽师范大学学报（社会科学版）,2017,45(2):245-255. 被引量：11
4胡小荣,姚长青,高影繁.基于风险短语自动抽取的上市公司风险识别方法及可视化研究[J].情报学报,2017,36(7):663-668. 被引量：13
5孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J].中国工业经济,2017(12):132-150. 被引量：184
6申心吉.中国上市公司信息披露质量状况研究——基于深交所信息披露考评的经验证据[J].时代金融,2017(12):152-154. 被引量：1

引证文献1

1梁娜,姚长青,王峥,高影繁,李岩.基于三重维度的企业风险信息抽取方法研究[J].情报学报,2019,38(12):1241-1249. 被引量：6

二级引证文献6

1季长青.浅谈大数据技术应用给企业风险管理带来的机遇和挑战[J].齐鲁珠坛,2021(2):54-57. 被引量：5
2周磊,方芳.基于企业年报的产业竞争情报分析方法研究——以集成电路产业为例[J].现代情报,2021,41(8):129-135. 被引量：3
3周磊,方芳.基于内容与效率二维视角的创新主体识别研究[J].创新科技,2021,21(10):18-27. 被引量：1
4宋姗姗,钟永恒,刘佳,刘盼盼.企业技术创新风险研究进展与热点议题[J].技术与创新管理,2023,44(5):525-540. 被引量：2
5宋姗姗,钟永恒,刘佳,刘盼盼.面向企业技术创新风险管理的本体构建及应用探索[J].数字图书馆论坛,2023,19(9):47-57.
6张越,曹悦,白晨.企业技术风险阈值激活模型构建研究——以智能网联汽车产业链为例[J].中国科技资源导刊,2024,56(3):1-9.

1吕倩娜.互联网环境下高职院校学报编辑工作的创新[J].河南教育（高教版）（中）,2016(12):10-11.
2曹文彪.概念、命题及理论——简论学术成果的三要素[J].当代社科视野,2010(11):32-39. 被引量：4
3周丽,丁三青.马恩经典著作引用的学术出版规范——以思想政治教育学术文本为例[J].出版科学,2016,24(5):47-51.
4倪伟波.耶鲁“陷害门”:无法掩埋的真相[J].科学新闻,2014(4):77-79.
5袁珍英,李红.论高校图书馆开展学术文本的研读指导[J].江苏科技大学学报（社会科学版）,2009,9(4):100-104. 被引量：1
6谭学纯.学术批评:找回无需避讳的“局限”[J].修辞学习,2004(1):63-64. 被引量：7
7詹姆斯.库姆斯,艾兰.瑞尼尔,史蒂芬.德罗斯,王晓光,李梦琳,刘晶.标记系统及学术文本处理的未来(一)[J].出版科学,2016,24(5):13-21.
8詹姆斯.库姆斯,艾兰.瑞尼尔,史蒂芬.德罗斯,王晓光,李梦琳,刘晶.标记系统及学术文本处理的未来(二)[J].出版科学,2016,24(6):9-16.
9通拉嘎,刘凯,李佳正.基于最大熵的蒙古文人名识别系统的设计与实现[J].图书馆理论与实践,2015(5):96-98.
10何晶.我国媒介文本对“中产阶层”的形象建构过程分析——一种“互文性”分析的视角[J].国际新闻界,2008,30(2):25-29. 被引量：2

情报工程

2015年第2期

浏览历史

内容加载中请稍等...

基于最大熵模型的学术缩写自动识别被引量：1

参考文献5

二级参考文献36

共引文献73

同被引文献6

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于最大熵模型的学术缩写自动识别 被引量：1

参考文献5

二级参考文献36

共引文献73

同被引文献6

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于最大熵模型的学术缩写自动识别被引量：1