基于词频分布变化统计的术语抽取方法被引量：27

Terminology Extraction Based on Statistical Word Frequency Distribution Variety

下载PDF

导出

摘要提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出了一种利用术语在语料中词频分布变化程度的统计信息来检验术语的领域相关性的方法,同时结合机器学习方法获取的语言知识,从计算机领域的语料中抽取领域特征明显的词组型术语。实验证明,该方法对低频术语和高频普通词串有较强的分辨能力。 A hybrid terminology extraction system combined with linguistic knowledge and statistical information was introduced to extract compound terms which contain more than one word. There have been many statistical strategies used in automatic terminology extraction,most of which emphasize particularly to measure the integrality of the terms, other than domain features. To measure the domain relativity of terms, a mew method utilizing term frequency distribution variety was proposed. Incorporating with linguistic knowledge acquired by machine learning method, an automatic extraction system was implemented to extract multi-word terrns from the corporate of computer domain. The results show that this approach is effective especially to distinguish terms with lower frequency and common words with higher frequency.

作者周浪张亮冯冲黄河燕

机构地区南京理工大学计算机科学与技术学院计算机语言信息工程研究中心南京大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2009年第5期177-180,共4页 Computer Science

基金国家863高技术研究发展计划项目(2006AA01Z152) 国家自然科学基金项目(60672149)资助

关键词术语抽取机器学习分布方差知识获取 termhood unithood Terminology extraction, Machine learning, Distribution variance, Knowledge acquisition, Termhood, Unithood

分类号 TP391.4 [自动化与计算机技术—计算机应用技术] O212 [理学—概率论与数理统计]

引文网络
相关文献

参考文献7

1Bourigault D.Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases[C]//Proceedings of COLING' 92.1992:977-981
2Pantel P,Lin D.A Statistical Corpora-based Term Extractor[C] //Lecture Notes in Artificial Intelligence.Springer,Verlag,2001:34-46
3Frantzi K T,Ananiadou S,Mima H.Automatic Recognition of Multi-word terms:the C-value/NC-value Method[J].International Journal on Digital Libraries,2000,3(2):115-130
4Kageura K,Umino B.Methods of Automatic Term Recognition:A Review[J].Terminology,1996,3(2):259-289
5刘桐菊,于浩,杨沐昀.基于TFIDF的专业领域词汇获取的研究[C]//第一届学生计算语言学研讨会论文集.2002
6李勇.基于聚类方法对特定领域术语的自动筛选[J].计算机工程与科学,2008,30(2):64-66. 被引量：7
7张普.信息领域汉语术语的特征及其在语料中的分布规律.语言教学与研究,2001,.

二级参考文献8

1冯兰萍,张继国.基于本体的中文信息检索模型[J].河海大学常州分校学报,2004,18(4):40-42. 被引量：3
2ConceptDiscovery from Text[EB/OL].[2007-05-20]. http://www. cs. ualberta. ca/-lindek/index. htm.
3Cutting D R, Karger D, Pedersen J, et al. Scatter/Gather: A Cluster-Based Approach to Browsing Large Document Colleetions[C]//Proc of SIGIR'92,1992: 318-329.
4Miller G A, Charles W. Contextual Correlates of Semantic Similarity[J]. Language and Cognitive Processes, 1991,6(1) : 1-28.
5董振东,董强.知网[EB/OL].[2007-05-21].http://keen-age.com.
6Jain A K,Murty M N,Flynn P J. Data Clustering: A Review [J]. ACM Computing Surveys, 1999,31 (3):264-323.
7李琼.系统聚类分析中的遗传算法[J].武汉交通科技大学学报,2000,24(3):301-304. 被引量：8
8行小帅,潘进,焦李成.基于免疫规划的K-means聚类算法[J].计算机学报,2003,26(5):605-610. 被引量：81

共引文献7

1欧阳剑.网上书店图书主题分类导航在OPAC中的应用实验[J].现代图书情报技术,2009(9):86-90. 被引量：1
2林源,陈志泊,孙俏.计算机领域术语的自动获取与层次构建[J].计算机工程,2011,37(2):172-174. 被引量：4
3陈颖,张晓林.专利技术功效矩阵构建研究进展[J].现代图书情报技术,2011(11):1-8. 被引量：20
4祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J].图书情报工作,2012,56(18):104-109. 被引量：16
5张雷瀚,吕学强,李卓,徐丽萍.领域本体术语的抽取方法研究[J].情报学报,2014,33(2):167-174. 被引量：8
6张昭楠.基于AJAX技术的中文术语抽取系统的设计与实现[J].电子设计工程,2016,24(18):44-46.
7崔艺箫,翟兴,钱亦昀,陈悦,杨颖,王丽.中医术语抽取方法研究进展[J].医学信息学杂志,2021,42(4):30-34. 被引量：5

同被引文献244

1任亚洲.频繁项集挖掘算法综述[J].电脑知识与技术（过刊）,2007(16):1066-1068. 被引量：2
2梁士荣.开放教育特质论[J].开放教育研究,1999,5(1):8-11. 被引量：65
3涂鼎,陈岭,陈根才,吴勇,王敬昌.基于多路层次聚类的商品评论数据概念分类构建[J].计算机研究与发展,2013,50(S2):208-215. 被引量：3
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
5梁爱林.论术语学概念理论的发展[J].术语标准化与信息技术,2003(4):4-10. 被引量：4
6张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
7凌祺,樊孝忠.领域词汇自动获取的研究[J].微机发展,2005,15(8):148-150. 被引量：6
8黄河燕,陈肇雄.一种智能译后编辑器的设计及其实现算法[J].软件学报,1995,6(3):129-135. 被引量：17
9杜威,邹先霞.基于数据流的滑动窗口机制的研究[J].计算机工程与设计,2005,26(11):2922-2924. 被引量：11
10姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14

引证文献27

1季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010,54(16):124-129. 被引量：17
2霍跃红,姚振军,汪榕培.计算机辅助核心译者发现系统的设计与实现[J].计算机工程与设计,2010,31(17):3936-3938.
3祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J].图书情报工作,2012,56(18):104-109. 被引量：16
4唐晓波,胡华.中文UGC信息源的本体概念抽取研究[J].现代图书情报技术,2014(5):41-49. 被引量：4
5闫琪琪,张海军.中文领域术语自动抽取方法进展研究[J].电脑知识与技术,2014(10):6716-6718. 被引量：6
6李丽双,王意文,黄德根.基于信息熵和词频分布变化的术语抽取研究[J].中文信息学报,2015,29(1):82-87. 被引量：20
7杜丽萍,李晓戈,周元哲,邵春昌.互信息改进方法在术语抽取中的应用[J].计算机应用,2015,35(4):996-1000. 被引量：19
8袁劲松,张小明,李舟军.术语自动抽取方法研究综述[J].计算机科学,2015,42(8):7-12. 被引量：19
9蒋婷,孙建军.基于SVR模型的中文领域术语自动抽取研究——面向图书情报领域[J].情报理论与实践,2016,39(1):24-31. 被引量：6
10杨双龙,吕学强,李卓,徐丽萍.中文专利文献术语自动识别研究[J].中文信息学报,2016,30(3):111-117. 被引量：7

二级引证文献164

1唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11.
2于娟,张晨.基于Kernel-XGBoost的跨语言术语对齐方法[J].计算机科学,2022,49(S02):126-131. 被引量：1
3王雨婷.论影视剧中对集体记忆和情感认同的构建——以热播剧《人世间》为例[J].北方传媒研究,2022(4):76-80.
4祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J].图书情报工作,2012,56(18):104-109. 被引量：16
5YANG Yuehua,DU Junping,ZI Lingling.Bootstrapping-based Automatic Acquisition of Domain Concepts for Ontology Construction[J].Chinese Journal of Electronics,2013,22(2):313-318. 被引量：2
6熊李艳,谭龙,钟茂生.基于有效词频的改进C-value自动术语抽取方法[J].现代图书情报技术,2013(9):54-59. 被引量：11
7颜端武,李兰彬,曲美娟.基于N-gram复合分词的领域概念自动获取方法研究[J].情报理论与实践,2014,37(2):122-126. 被引量：5
8何远标,乐小虬,张帆.学术论文大纲中关键术语抽取方法研究[J].现代图书情报技术,2014(3):73-79. 被引量：7
9王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案[J].计算机系统应用,2018,27(12):18-24.
10祝清松,冷伏海.基于引文主路径文献共被引的主题演化分析[J].情报学报,2014,33(5):498-506. 被引量：24

1尹宏鹏,刘兆栋,罗显科,柴毅.一种基于粒子群优化的目标跟踪特征选择算法[J].计算机工程与应用,2013,49(17):164-168. 被引量：7
2刘现平,宋良图.综合颜色和空间信息的图像检索[J].计算机工程与应用,2005,41(35):161-163. 被引量：2
3罗军,况夯.基于内容的多特征融合图像检索[J].计算机工程与应用,2009,45(1):153-155. 被引量：7
4尹宏鹏,柴毅,匡金骏,阳小燕.一种基于多特征自适应融合的运动目标跟踪算法[J].光电子．激光,2010,21(6):917-923. 被引量：19
5石翠.依存句法分析研究综述[J].智能计算机与应用,2013,3(6):47-49. 被引量：6
6徐明亮,赵吉,唐玉兰.FRBF神经网络分类器设计新方法[J].计算机工程与应用,2016,52(13):157-161. 被引量：1
7贾海艳,苏滢滢.异常情况下基于贝叶斯的多传感器融合方法[J].电子测量技术,2013,36(8):104-107. 被引量：8
8创新模组型可编程人机界面GP4000M系列全新上市[J].自动化信息,2011(10):13-13.
9王甜甜,康宇.方差和词向量用于文本降维的研究[J].计算机系统应用,2016,25(11):29-34. 被引量：3
10黄德根,张丽静,张艳丽,杨元生.规则与统计相结合的兼类词处理机制[J].小型微型计算机系统,2003,24(7):1252-1255. 被引量：6

计算机科学

2009年第5期

浏览历史

内容加载中请稍等...

基于词频分布变化统计的术语抽取方法被引量：27

参考文献7

二级参考文献8

共引文献7

同被引文献244

引证文献27

二级引证文献164

相关作者

相关机构

相关主题

浏览历史

基于词频分布变化统计的术语抽取方法 被引量：27

参考文献7

二级参考文献8

共引文献7

同被引文献244

引证文献27

二级引证文献164

相关作者

相关机构

相关主题

浏览历史

基于词频分布变化统计的术语抽取方法被引量：27