上下文分析与统计特征相结合的英文术语抽取研究被引量：1

English Term Extraction Based on Context Analysis & Statistical Characteristic

导出

摘要介绍术语的基本特征,探讨科技术语的自动识别方法,并结合文本特征对TF-IDF和C-value两种主流统计指标进行改进。为了区分词汇位置对文档内容的影响,分别对不同位置的候选词设置不同的权重。最后设计并实现一个统计与规则相结合的科技术语自动抽取系统,通过位置权重、C-value、TF-IDF指标的联合计算来识别术语,提高抽取的准确率。 Firstly,the article introduces the basic features of terms,and discusses the automatic identification method of scientific terms.Then V-value is proposed,which improves the two main statistical indicators：TF-IDF and C-value according to text characteristics.Different weights are also set for the candidate terms by the position to show their effect.Finally,a term extraction system is implemented based on statistics and rules.The system combines the weight,C-value and TF-IDF,so it has a higher precision of extraction.

作者许德山张智雄王峰邢美凤

机构地区中国科学院国家科学图书馆中国科学院研究生院中北大学电子测试技术国家重点实验室

出处《现代图书情报技术》 CSSCI 北大核心 2010年第12期28-33,共6页 New Technology of Library and Information Service

基金 “十一五”科技支撑计划课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一

关键词术语抽取多词术语识别加权TF-IDF C-value计算 Term extraction Multi-word recognition Weighted TF-IDF C-value computing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Krauthammer M, Nenadic G. Term Identification in the Biomedical Literature [ J ]. Journal of Biomedical Informatics, 2004,37 ( 6 ) : 512 - 526.
2Frantzi K T, Ananiadou S, Tsujii J. The C - value/NC - value Method of Automatic Recognition for Multi - word Terms [ C ]. In: Proceedings of the 2nd European Conference on Research and Advanced Technology for Digital Libraries. 1998:585 -604.
3Terminology [ EB/OL ]. [ 2010 - 05 - 29 ]. http ://en. wikipedia. org/wiki/Term_ ( language.
4百度百科-术语[EB/OL].[2010-05-29].http://baike.baidu.com/view/168249.htm?fr=ala1-1.
5Ha L Q, Sicilia- Garcia E I, Ming J,et al. Extension of Zipf' s Law to Word and Character N - grams for English and Chinese[ J].Computational Linguistics and Chinese Language Processing, 2003, 8(1) :77 -102.
6张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33
7Frantzi K, Ananiadou S, Mima H. Automatic Recognition of Multi - Word Terms : The C - value/NC - value Method [ J ]. International Journal on Digital Libraries, 2000,3 (2) :115 -130.
8陈琦,伍朝辉,姚芳,宋秀荣,张付志.基于TF*IDF的垃圾邮件过滤特征选择改进算法[J].计算机应用研究,2009,26(6):2165-2167. 被引量：6
9Sebastian/ F. Machine Learning in Automated Text Categorization [J ]. ACM Computing Surveys,2002,34 ( 1 ) : 1- 47.

二级参考文献9

1宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
2李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
3李翔鹰,叶枫.一种基于多贝叶斯算法的垃圾邮件过滤方法[J].计算机工程与应用,2006,42(31):114-116. 被引量：7
4张文良,黄亚楼,倪维健.基于差分贡献的垃圾邮件过滤特征选择方法[J].计算机工程,2007,33(8):80-82. 被引量：10
5DEEPAK P, PARAMESWARAN S. Spam filtering using spam mail communities[ C ]//Proc of IEEE SAINT'05. [ S. l. ] :IEEE Press, 2005:377-383.
6LAI C C. An empirical study of three machine learning methods for spam filtering [ J ]. Knowledge-Based System,2007,20 (3) :249- 254.
7鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
8陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
9秦进,陈笑蓉,汪维家,陆汝占.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46. 被引量：73

共引文献38

1呼声波,刘希玉.网页分类中特征提取方法的比较与改进[J].山东师范大学学报（自然科学版）,2008,23(3):35-37. 被引量：6
2亢俊健,杜在林,张新东,朱群英.使用信息增益方法选择分类器[J].计算机工程与应用,2009,45(14):158-160.
3余胜,李绍滋,郭锋,张帆.特征表示方法在中医食疗上的应用[J].厦门大学学报（自然科学版）,2009,48(3):354-358. 被引量：2
4陈培,高维.恶意代码行为获取的研究与实现[J].计算机应用,2009,29(B12):76-78. 被引量：7
5何玲,罗玉双.基于相对比较法的文本特征提取[J].福建电脑,2010,26(1):83-83. 被引量：1
6周雪芹,刘建舟,邵雄凯,廖力.中文文本分类中特征提取的方法[J].湖北工业大学学报,2010,25(2):60-62. 被引量：3
7李凯齐,刁兴春,曹建军.基于信息增益的文本特征权重改进算法[J].计算机工程,2011,37(1):16-18. 被引量：9
8张青,熊前兴.文本分类中词语权重计算的改进[J].电脑知识与技术,2011,7(1):204-206. 被引量：2
9李道远,贾晓亮,田锡天,耿俊浩,朱军.基于专利的工艺冲突矩阵挖掘方法研究[J].中国制造业信息化（学术版）,2011,40(5):19-23. 被引量：2
10刘新生,厉锟.基于BP神经网络的旅游突发事件文本分类系统的设计与实现[J].计算机与现代化,2011(7):192-194. 被引量：1

同被引文献15

1张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
2Foo J, Merkel M. Using Machine Learning to Perform Automatic Term Recognition[C].In:Proceedings of the LREC 2010 Workshop on Methods for Automatic Acquisition of Language Resources and Their Evaluation Methods, Valletta. 2010:49-54.
3Krauthammer M, Nenadic G. Term Identification in the Biomedical Literature[J].Journal of Biomedical Informatics, 2004, 37(6):512-526.
4Kageura K, Umino B. Methods of Automatic Term Recognition: A Review[J].Terminology, 1996, 3(2):259-289.
5Damerau F J. Generating and Evaluating Domain-oriented Multi-word Terms from Texts[J]. Information Processing & Management, 1993,29(4):433-447.
6Gelbukh A, Sidorov G, Lavin-Villa E, et al. Automatic Term Extraction Using Log-Likelihood Based Comparison with General Reference Corpus[C].In: Proceedings of the Natural Language Processing and Information Systems, and the 15th International Conference on Applications of Natural Language to Information Systems. Berlin, Heidelberg: Springer-Verlag,2010:248-255.
7Frantzi K, Ananiadou S, Mima H. Automatic Recognition of Multi-word Terms: The C-value/NC-value Method[J].International Journal on Digital Libraries, 2000,3(2):115-130.
8中英文混合停用词表[EB/OL].[2012-11-20].http://www.smartpeer.net/myfiles/stopwords-utf8.txt.
9安纪霞,李锡祚,宋冰,曾伟.服务于词典编纂的特定领域专业术语自动抽取[J].计算机与数字工程,2007,35(11):53-56. 被引量：3
10岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].现代图书情报技术,2008(12):54-58. 被引量：37

引证文献1

1胡阿沛,张静,刘俊丽.基于改进C-value方法的中文术语抽取[J].现代图书情报技术,2013(2):24-29. 被引量：23

二级引证文献23

1熊李艳,谭龙,钟茂生.基于有效词频的改进C-value自动术语抽取方法[J].现代图书情报技术,2013(9):54-59. 被引量：11
2胡阿沛,张静,张晓宇.共词网络分析中E指数的改进研究[J].情报理论与实践,2014,37(1):46-50. 被引量：7
3刘俊丽,张秀梅,蒋勇青.基于文本挖掘的乙型肝炎相关文献知识图谱分析[J].医学信息学杂志,2014,35(1):48-53. 被引量：11
4张雷瀚,吕学强,李卓,徐丽萍.领域本体术语的抽取方法研究[J].情报学报,2014,33(2):167-174. 被引量：8
5张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
6闫琪琪,张海军.中文领域术语自动抽取方法进展研究[J].电脑知识与技术,2014(10):6716-6718. 被引量：6
7杜丽萍,李晓戈,周元哲,邵春昌.互信息改进方法在术语抽取中的应用[J].计算机应用,2015,35(4):996-1000. 被引量：19
8曾镇,吕学强,李卓.一种面向专利摘要的领域术语抽取方法[J].计算机应用与软件,2016,33(3):48-51. 被引量：5
9樊梦佳,段东圣,杜翠兰,张仰森,佟玲玲.统计与规则相融合的领域术语抽取算法[J].计算机应用研究,2016,33(8):2282-2285. 被引量：12
10董洋溢,李伟华,于会.基于混合余弦相似度的中文文本层次关系挖掘[J].计算机应用研究,2017,34(5):1406-1409. 被引量：20

1李超,王会珍,朱慕华,张俐,朱靖波.基于领域类别信息C-value的多词串自动抽取[J].中文信息学报,2010,24(1):94-98. 被引量：7
2张华,叶娜,周俏丽,蔡东风.基于分类策略的术语识别系统融合[J].小型微型计算机系统,2015,36(2):385-390. 被引量：2
3杨雅娜,刘胜奇.基于TValue融合领域度的术语抽取法[J].情报工程,2015,1(5):25-31. 被引量：4
4王卫民,贺冬春,符建辉.基于种子扩充的专业术语识别方法研究[J].计算机应用研究,2012,29(11):4105-4107. 被引量：6
5刘豹,张桂平,蔡东风.基于统计和规则相结合的科技术语自动抽取研究[J].计算机工程与应用,2008,44(23):147-150. 被引量：36
6台德艺,谢飞,胡学钢.基于位置权重的文本分类[J].安徽水利水电职业技术学院学报,2008,8(1):64-66. 被引量：2
7孙建旺,吕学强,张雷瀚.基于词典与机器学习的中文微博情感分析研究[J].计算机应用与软件,2014,31(7):177-181. 被引量：50
8冯艳红,于红,孙庚,赵禹锦.基于词向量和条件随机场的领域术语识别方法[J].计算机应用,2016,36(11):3146-3151. 被引量：24
9林磊,孙承杰,张二艳,刘秉权.一种基于改进似然比的术语自动抽取方法[J].广西师范大学学报（自然科学版）,2010,28(1):153-156. 被引量：1
10何婷婷,张勇.基于质子串分解的中文术语自动抽取[J].计算机工程,2006,32(23):188-190. 被引量：21

现代图书情报技术

2010年第12期

浏览历史

内容加载中请稍等...

上下文分析与统计特征相结合的英文术语抽取研究被引量：1

参考文献9

二级参考文献9

共引文献38

同被引文献15

引证文献1

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

上下文分析与统计特征相结合的英文术语抽取研究 被引量：1

参考文献9

二级参考文献9

共引文献38

同被引文献15

引证文献1

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

上下文分析与统计特征相结合的英文术语抽取研究被引量：1