采用连续词袋模型(CBOW)的领域术语自动抽取研究被引量：20

Automatic Extraction of Domain Terms Using Continuous Bag-of-Words Model

导出

摘要【目的】更准确便捷地完成术语词汇的自动抽取。【方法】利用CBOW模型计算构成术语的各个词部件的向量空间模型。通过词向量之间的余弦相似度衡量术语词汇内部各个词部件的关联度。利用Page Rank算法计算候选词汇的领域代表性并排序,通过阈值的设定,抽取出更为具有领域代表性的术语词汇。【结果】在以自然语言处理领域内的论文摘要作为数据集的实验中取得较高的准确率和召回率。【局限】测试的数据训练集偏小,而数据集的训练效果直接影响实验的效果。【结论】实验结果表明利用CBOW模型完成术语的抽取工作是一个较为合理、可行的方法。 [Objective] This study tries to extract domain terms more accurately and conveniently. [Methods] First, proposed a method using the CBOW model to build word vectors for each component of the terms. Then, applied the cosine similarity to calculate the internal correlation degree among each term’s individual components. To get more representative terms, we used the Page Rank algorithm to rank the candidates. [Results] We obtained high recall and precision rates using the paper abstacts in the field of natural language processing as the training pool. [Limitations] The training pool was relatively small, which might influence the results. [Conclusions] This study shows that CBOW model is a more appropriate method to extract terminologies.

作者姜霖王东波

机构地区南京大学信息管理学院江苏省数据工程与知识服务重点实验室南京农业大学信息科学技术学院

出处《现代图书情报技术》 CSSCI 2016年第2期9-15,共7页 New Technology of Library and Information Service

基金南京农业大学人文社会科学研究基金项目"人文社会科学组块级汉英平行语料库构建及知识挖掘研究"(项目编号:SK2013023) 国家自然科学基金项目"基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究"(项目编号:71303120)的研究成果之一

关键词术语抽取神经网络 CBOW模型 Terminology extraction Neural network Continuous Bag-of-Words Model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1吴云芳,穗志方,邱利坤,宋作燕,胡俊峰.信息科学与技术领域术语部件描述[J].语言文字应用,2003(4):34-39. 被引量：16
2Bourigault D. Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases [C]. In: Proceedings of the 14th Conference on Computational Linguistics. Association for Computational Linguistics, 1992: 977-981.
3Justeson J S, Katz S M. Technical Terminology: Some Linguistic Properties and an Algorithm for Identification in Text [J]. Natural Language Engineering, 1995, 1 (1): 9-27.
4Ananiadou S. A Methodology for Automatic Term Recognition [C]. In: Proceedings of the 15th Conference on Computational Linguistics. Association for Computational Linguistics, 1994: 1034-1038.
5张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
6Frantzi K, Ananiadou S, Mima H. Automatic Recognition of Multi-word Terms: The C-value/NC-value Method [J]. International Journal on Digital Libraries, 2000, 3(2): 115-130.
7ManningCD,SchutzeH.统计自然语言处理基础[M].范春法译.第4版.北京:电子工业出版社,2005:95-97.
8Takeuchi K, Collier N. Use of Support Vector Machines in Extended Named Entity Recognition [C]. In: Proceedings of the 6th Conference on Natural Language Learning. Stroudsburg, PA, USA: Association for Computational Linguistics, 2002: 1-7.
9Lafferty J D, McCallum A, Pereira F C. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]. In: Proceedings of the 18th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers, 2001:282-289.
10章成志.基于多层术语度的一体化术语抽取研究[J].情报学报,2011,30(3):275-285. 被引量：19

二级参考文献45

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
2侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
3周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：111
4Cohen J D. Highlights: language- and domain-independent automatic indexing terms for abstracting[ J]. Journal of the American Society for Information Science, 1995,46 (3) : 162-174.
5Frantzi K T, Ananiadou S, Tsujii J. The C-value/NCvalue method of automatic recognition for multi-word terms [ C ] // Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries ( ECDL 1998 ). Heraklion, Crete, Greece, 1998: 585-604.
6Church K W, Hanks P. Word association norms, mutual information, and lexicography [ J ]. Computational Linguistics,1990, 16( 1 ) : 22-29.
7Dunning T. Accurate methods for the statistics of surprise and coincidence [ J]. Computational Linguistics, 1993, 19(1) : 61-74.
8Daille B. Study and implementation of combined techniques for automatic extraction of terminology [ C ] //Proceedings of the 32th Annual Meeting of the Association for Computational Linguistics [ C ]. New Mexico, USA,1994: 29-36.
9Sornlertlamvanich V, Potipiti T, Charoenporn T. Automatic corpus-based Thai word extraction with the e4.5 learning algorithm [ C] //Proceedings of the 18th Conference on Computational Linguistics. Saarbrticken, Germany,2000: 802-807.
10Patry A, Langlais P. Corpus-based terminology extraction [ C ]// Proceedings of 7th International Conference on Terminology and Knowledge Engineering. Copenhagen, Denmark, 2005 : 313-321.

共引文献177

1肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
2何燕,穗志方,段慧明,俞士汶.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006,42(33):4-7. 被引量：17
3何燕,穗志方,段慧明,李素建.基于专业术语词典的自动领域本体构造[J].情报学报,2007,26(1):65-70. 被引量：13
4魏顺平.教育技术学科术语标准的制定:通用度计算的视角[J].现代教育技术,2008,18(2):49-53. 被引量：4
5傅骞,魏顺平,王斌,路秋丽.教育技术领域术语提取研究[J].现代教育技术,2008,18(5):60-65. 被引量：7
6刘豹,张桂平,蔡东风.基于统计和规则相结合的科技术语自动抽取研究[J].计算机工程与应用,2008,44(23):147-150. 被引量：36
7魏顺平,何克抗.基于文本挖掘的领域本体半自动构建方法研究——以教学设计学科领域本体建设为例[J].开放教育研究,2008,14(5):95-101. 被引量：14
8岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].现代图书情报技术,2008(12):54-58. 被引量：37
9李素建,宋涛,高杰,幺鹏跃,李文捷.一种基于使用差异的词语领域性分析方法[J].中文信息学报,2009,23(6):72-78. 被引量：5
10岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(下)[J].情报理论与实践,2010,33(2):124-128. 被引量：5

同被引文献312

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：6
2靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
3沈迪飞.谈谈我国图书馆应用计算机的起步问题[J].中国图书馆学报,1979,7(2):66-71. 被引量：6
4深圳大学图书馆计算机管理集成系统通过鉴定[J].图书情报工作,1988,32(2):43-43. 被引量：1
5张惠惠.DIALOG国际联机检索系统——检索策略的探讨[J].图书馆杂志,1987,6(5):24-26. 被引量：2
6毕强.联机情报检索网络浅谈[J].现代情报,1987,8(1):30-32. 被引量：1
7夏波.情报检索系统的误差与分析[J].情报理论与实践,1987,10(6):35-38. 被引量：1
8计算机辅助文献管理系统(CADMS)[J].现代图书情报技术,1984(4):1-8. 被引量：1
9莫少强.广东省西文图书自动编目系统简介[J].图书馆论坛,1984,6(3):23-27. 被引量：2
10姜戈,邓琼芳.俄亥俄学院图书馆网络[J].图书馆,1980(6):41-44. 被引量：1

引证文献20

1姜婷婷,权明喆,黄杰.国内用户体验设计人才需求研究——基于招聘信息的分析[J].工业设计研究,2019(1):55-64. 被引量：1
2李树青,曹杰,庄光光,陈俊鹏.基于二分网络分析方法的学术文献关键词自动抽取方法研究[J].情报学报,2016,35(12):1305-1312. 被引量：6
3刘睿伦,叶文豪,高瑞卿,唐梦嘉,王东波.基于大数据岗位需求的文本聚类研究[J].数据分析与知识发现,2017,1(12):32-40. 被引量：20
4沈思,梁晓静.基于word2vec与K-means算法食品安全事件自动聚类研究[J].信息通信,2018,31(11):8-10. 被引量：4
5葛声利.基于文本向量和机器学习的评分预测算法[J].电脑知识与技术,2019,15(2Z):171-172.
6赵东玥,杜永萍,石崇德.基于BLSTM的科技文献术语抽取方法[J].情报工程,2018,4(1):67-74. 被引量：9
7程元堃,蒋言,程光.基于word2vec的网站主题分类研究[J].计算机与数字工程,2019,47(1):169-173. 被引量：5
8范丽鹏,余厚强,姜宇星,王曰芬.人工智能研究前沿识别与分析:基于高产机构对比研究视角[J].情报理论与实践,2019,42(9):16-21. 被引量：11
9杨菊英,江兵,罗佳.自然语言语义库构建方法研究[J].重庆理工大学学报（自然科学）,2019,33(10):103-108. 被引量：1
10Suzhen Wang,Lu Zhang,Yanpiao Zhang,Jieli Sun,Chaoyi Pang,Gang Tian,Ning Cao.Natural Language Semantic Construction Based on Cloud Database[J].Computers, Materials & Continua,2018(12):603-619.

二级引证文献98

1贾龙飞.基于事故树方法的电梯检验过程中危险源识别模型[J].西部特种设备,2023,6(1):73-78.
2姜婷婷,权明喆,黄杰.国内用户体验设计人才需求研究——基于招聘信息的分析[J].工业设计研究,2019(1):55-64. 被引量：1
3赵光,刘益兵,王人颢,齐晓林,张红萍,王志萍.中外大学附属医院图书情报学领域数据挖掘研究现状对比分析与应对[J].新一代信息技术,2022,5(4):114-117.
4苗福红,文小平,朱树秀.对北疆冬小麦复种玉米的几点看法[J].新疆农业科学,2000,37(1):36-38. 被引量：1
5刘赛,聂庆节,岳峻松,刘军,姜建飞.多源数据库数据复制模型[J].计算机与现代化,2017(9):45-49. 被引量：3
6刘赛,聂庆节,刘军,刘嘉华,姜建飞,付晨.一种关系数据库数据抽取模型研究[J].电子设计工程,2018,26(6):16-21. 被引量：4
7刘畅.基于Web文本挖掘的数据分析岗位需求研究[J].中国管理信息化,2018,21(10):76-79. 被引量：3
8孙瑜,莫凌飞.基于模糊匹配的招聘网页技能术语抽取研究[J].信息技术与信息化,2018(11):171-177. 被引量：1
9俞琰,陈磊,赵乃瑄.基于网络招聘文本挖掘的课程知识模型自动构建研究[J].图书情报工作,2019,63(10):134-142. 被引量：8
10徐静,张文学.药品安全话题发现技术研究[J].软件导刊,2019,18(5):151-154.

1陈智,张鹰.基于cbo优化器的研究与优化[J].电脑知识与技术,2013,9(6X):4150-4152.
2陈海涛,沈欢.使用AOP技术优化数据库应用性能的实践[J].电子商务,2011,12(11):66-67.
3秦丽.云路漫漫修远兮[J].信息方略,2010(13):14-14.
4董作霖,刘宏飞,李明.面向传感器网络的高能效任务分配算法研究[J].太原理工大学学报,2006,37(5):593-596.
5刘光霆,何宏.ORACLE中SQL执行原理及性能优化研究[J].计算机应用与软件,2009,26(6):149-151. 被引量：8
6汪文威,祁建军.三支概念的构建算法[J].西安电子科技大学学报,2017,44(1):71-76. 被引量：15
7杨玉丽,彭新光,黄名选,边婧.基于离散粒子群优化的云工作流调度[J].计算机应用研究,2014,31(12):3677-3681. 被引量：10
8何培文.环境温度对半导体激光器输出功率的影响[J].科技视界,2016(7):171-171. 被引量：5
9张昉.Oracle中SQL优化器的两种优化方式及使用[J].福建电脑,2008,24(1):181-181. 被引量：1
10刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31

现代图书情报技术

2016年第2期

浏览历史

内容加载中请稍等...

采用连续词袋模型(CBOW)的领域术语自动抽取研究被引量：20

参考文献14

二级参考文献45

共引文献177

同被引文献312

引证文献20

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

采用连续词袋模型(CBOW)的领域术语自动抽取研究 被引量：20

参考文献14

二级参考文献45

共引文献177

同被引文献312

引证文献20

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

采用连续词袋模型(CBOW)的领域术语自动抽取研究被引量：20