科技文献关键词冗余解决方案研究被引量：2

Study on Solution to Redundancy of Scientific Literature Keywords

导出

摘要提出一种改进的基于相似度计算的科技文献关键词选取算法。先利用N-gram算法提取领域词库,再综合利用领域词库和常识词库,对最初选择的关键词重新切分,进行给定关键词之间的语义对比。语义相似度大于一定阈值的关键词被认为是表达同一意义的同义词,将同义词在文献库中合并,从而解决关键词冗余问题。实验结果可以证明该方法的有效性。 Irregular keywords often cause high redundancy in the same research topic. To address the issue, this paper proposes an improved keywords selection algorithm based on similarity calculation. It re - segments keywords using field dictionary and common -sense knowledge database thesaurus. When the total semantic similarity is greater than a given threshold, the two compared keywords are considered to express the same meaning, then merging and keeping only one of them in library, which achieves the purpose of the dimension reduction. Finally, experimental results show the effective- ness of the method.

作者邢美凤

机构地区中国科学院国家科学图书馆中国科学院研究生院晋中学院图书馆

出处《现代图书情报技术》 CSSCI 北大核心 2012年第1期34-39,共6页 New Technology of Library and Information Service

关键词科技文献关键词冗余语义相似度特征降维 Scientific literature keywords Redundancy Semantic similarity Feature reduction

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1Chua S, Kulathuramaiyer N. Semantic Feature Selection Using WordNet [ C ]. In: Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence, Beijing, China. IEEE Computer Society, 2004:166 - 172.
2Li X B, Szpakowicz S, Matwin S. A WordNet - based Algorithm for Word Sense Disambiguation[ C ]. In: Proceedings of the IJCA1 - 95, Montreal, Canada. 1995:1368 - 1374.
3熊忠阳,付玲玲,张玉芳.文本分类中基于概念映射的二次特征降维方法[0L].[2011-03-10].http:/Jwww.cnki.net/kcms!detai//ll. 2127. TP. 20110223. 1435. 007. html? uid = WEE- vREcwS1JHSldRa3 JPV0 dvSFpWamplRWN 1 SW9 vVW91 Z1RaY0xY V2cxZFMzVVkzTkpOemol cXN6ckVhNGx3 PQ = =.
4唐歆瑜,乐文忠,李志成,李军义.基于知网语义相似度计算的特征降维方法研究[J].科学技术与工程,2006,6(21):3442-3446. 被引量：16
5董振东.[EB/OL].知网http://www.keenage.com,1999.
6吕震宇,林永民,赵爽,朱卫东.基于同义词词林的文本特征选择与加权研究[J].情报杂志,2008,27(5):130-132. 被引量：9
7中华人民共和国国家标准.GB/T7713.1-2006学位论文编写规则[s].2006.
8马开俊.数字化建设中文献信息主题标引方式管见[J].情报资料工作,2004,25(S1):355-356. 被引量：1
9谭慧华.CAJ-CD关键词标引质量探析[J].情报杂志,2003,22(3):79-80. 被引量：3
10郭淑敏,曹晶,赵文军.医学期刊编辑中的关键词标引[J].中华医学科研管理杂志,2006,19(3):178-179. 被引量：3

二级参考文献57

1林国栋,蒋元霖,陈幼玉.农科学术论文关键词的标引[J].编辑学报,2001,13(z1):44-46. 被引量：3
2梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
3邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
4陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
5陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：23
6赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
7H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
8Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
9S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
10J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002

共引文献259

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：10
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：10
3陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
4尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
7伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
8李彦,贾爱军,占向辉,李翔龙.面向创新设计的多层次Web信息检索研究[J].工程设计学报,2005,12(3):129-133. 被引量：1
9任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
10赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20

同被引文献35

1朱兴红.科技期刊论文关键词标引中的常见错误及其规范要求[J].西北民族大学学报（自然科学版）,2013,34(1):92-95. 被引量：2
2钟伟金,刘建滔.2002年《广东医学院学报》关键词标引的自查情况与分析[J].医学情报工作,2004,25(4):308-309. 被引量：1
3刘君君.学术论文关键词标引分析——以《中国社会科学》为例[J].新余高专学报,2005,10(3):100-102. 被引量：2
4杜香莉,王立宏,罗红彬.我国期刊全文数据库关键词规范化问题探讨[J].中国科技期刊研究,2007,18(4):612-614. 被引量：5
5汪湘.学术论文关键词标引规范化问题探析[J].西安邮电学院学报,2008,13(6):142-145. 被引量：9
6吴立志.学术论文关键词的概念及标引方法辨析[J].现代情报,2009,29(6):7-9. 被引量：11
7陈仕吉.科学研究前沿探测方法综述[J].现代图书情报技术,2009(9):28-33. 被引量：172
8吴立志.提高科技论文关键词标引质量的探讨[J].农业图书情报学刊,2010,22(9):210-211. 被引量：2
9韩瑞凯,孟嗣仪,刘云,郭英慧,张彦超.基于兴趣相似度的社区结构发现算法研究[J].铁路计算机应用,2010,19(10):10-14. 被引量：8
10李宗富.档案学专业学术论文关键词的规范化亟待加强——以《档案学通讯》2010年第1期为例[J].科技情报开发与经济,2010,20(31):102-104. 被引量：1

引证文献2

1滕广青,毕达天,任晶,陈晓美.Folksonomy中用户标签的语义紧密性研究[J].现代图书情报技术,2013(12):48-54. 被引量：7
2王大伟.基于共词分析的档案学关键词规范化研究[J].管理观察,2016(23):81-84. 被引量：1

二级引证文献8

1李青,朱恒民,杨东超.微博网络中舆情话题传播演化模型[J].现代图书情报技术,2013(12):74-80. 被引量：22
2余本功,顾佳伟.基于Folksonomy和RDF的信息组织与表示[J].现代图书情报技术,2014(11):24-30. 被引量：4
3滕广青.Folksonomy模式中紧密型领域知识群落动态演化研究[J].中国图书馆学报,2016,42(4):51-63. 被引量：11
4滕广青,常志远,刘雅姝,赵汝南,张利彪.Folksonomy知识组织模式中领域知识动态演化规律研究[J].图书与情报,2016(4):96-101. 被引量：2
5李旭晖,李媛媛,马费成.我国图情领域社会化标签研究主要问题分析[J].图书情报工作,2018,62(16):120-131. 被引量：12
6王大伟,张秀丽.中国人事档案学研究分析[J].管理观察,2018(25):87-91. 被引量：2
7肖璐,孙建军.项目特色视角下的我国图书情报领域知识聚合研究进展[J].现代情报,2019,39(1):29-36. 被引量：4
8董雪璠,廉莹.舆论动力学研究综述[J].系统工程学报,2023,38(5):723-736.

1柴焰,徐思祖.科技文献关键词的标引[J].农业科技管理,1995,14(3):43-44. 被引量：1
2奉国和,郑伟.文本分类特征降维研究综述[J].图书情报工作,2011,55(9):109-113. 被引量：17
3詹立胜.外宣编译的信息冗余问题[J].新闻传播,2010(7):115-116. 被引量：1
4肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
5马晓亭.大数据时代图书馆数据长期可用性保障研究[J].现代情报,2013,33(12):62-64. 被引量：7
6莫祖英,马费成,罗毅.微博信息质量评价模型构建研究[J].信息资源管理学报,2013,3(2):12-18. 被引量：33
7胡正银,方曙,张娴,文奕,梁田.个性化语义TRIZ构建研究[J].图书情报工作,2015,59(7):123-131. 被引量：14
8钟志贤.论冗余与信息传播[J].江西师范大学学报（哲学社会科学版）,1994,27(2):89-92. 被引量：3
9曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].情报科学,2007,25(11):1687-1691. 被引量：7
10白振田,衡中青,侯汉清.地方志引书挖掘系统的设计与实现[J].图书馆杂志,2008,27(8):50-54. 被引量：7

现代图书情报技术

2012年第1期

浏览历史

内容加载中请稍等...

科技文献关键词冗余解决方案研究被引量：2

参考文献21

二级参考文献57

共引文献259

同被引文献35

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

科技文献关键词冗余解决方案研究 被引量：2

参考文献21

二级参考文献57

共引文献259

同被引文献35

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

科技文献关键词冗余解决方案研究被引量：2