自动标引通用评价模型研究被引量：6

General Evaluation Model for Automatic Indexing

下载PDF

导出

摘要目前大多文档都不具有关键词，但手工标引关键词费时费力且主观性较强，因此关键词自动标引是一项值得研究的技术，由此引发的标引结果有效评价问题也成为一个亟需解决的问题。然而，评估关键词自动标引的性能并非一件容易的事情。针对常规自动标引评价方法存在的评价结果不能完全反映真实的标引结果以及评价成本高的情况，本文提出一种通用的自动标引评价模型。该模型可以有效地利用外部资源，在有参照情况下与无参照情况下，分别对标引结果进行评价。实验结果表明，自动标引通用评价模型能增加标引评价的可靠性，并且降低标引评价的成本。 Currently, a large portion of documents still do not have keywords assigned. At the same time, manual assignment of high quality keywords is expensive, time-consuming, and error prone. Therefore, it is worth studying on automatic keywords indexing and it is very necessary to evaluate the indexing results effectively. However, it is not always easy to evaluate the performance of keywords indexing system. The traditional evaluation methods cannot reflect the real results due to the exact match between the indexing data and the test data. Meanwhile, the cost of traditional evaluation methods is expected to be reduced. The general evaluation model of automatic indexing can take full advantage of the external knowledge resource to evaluate the results of automatic indexing. Tile evaluation method is divided into the reference-based evaluation and without-reference-based evaluation. Experimental results show that the general evaluation model can enhance the reliability and reduce the cost of evaluation.

作者章成志周冬敏

机构地区南京理工大学经济管理学院信息管理系中国科学技术信息研究所南京大学信息管理系

出处《情报学报》 CSSCI 北大核心 2009年第1期40-47,共8页 Journal of the China Society for Scientific and Technical Information

基金本研究受“十一五”国家科技支撑计划重点项目（2006BAH03B02）、南京理工大学青年科研扶持基金项目（JGQN0701）、南京理工大学科研启动基金项目（AB41123）、2006年江苏省研究生培养创新工程项目资助.

关键词自动标引评价模型语义相似度相似度计算 automatic indexing, evaluation model, semantic similarity, similarity computation

分类号 G254.36 [文化科学—图书馆学] F123.16 [经济管理—世界经济]

引文网络
相关文献

参考文献15

1曾元显.关键词自动提取技术与相关词反馈.中国图书馆学会会报,1997,(59):59-64.
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
3Chien L F. PAT-tree-based keyword extraction for Chinese information retrieval [ C ]//Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Philadelphia, PA, USA, 1997:50-59.
4Turney P D. Learning algorithms for keyphrase extraction [J]. Information Retrieval, 2000, 2(4): 303-336.
5Moens M F. Automatic Indexing and Abstracting of Document Texts [ M ]. Boston/Dordrecht/London : Kluwer Academic Publishers, 2000:78, 104.
6Zhang K, Xu H, Tang J, et al. Keyword extraction using support vector machine [ C ] // Proceedings of the 6th International Conference on Advances in Web- Age Information Management Conference. Hong Kong, China, 2006 : 85-96.
7Tumey P D. Mining the Web for Lexical Knowledge to Improve Keyphrase Extraction: Learning from Labeled and Unlabeled Data. Technical Report ERB-1096[R]. National Research Council Canada, 2002 : 1-34.
8Deerwester S, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis [ J]. Journal of the American Society for Information Science, 1990, 41(6) : 391-407.
9Sahon G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of ACM, 1975, 18 (11): 613-620.
10侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32

二级参考文献7

1.[EB/OL].http://www.lub.lu.se/tk/demos/class—ws/weighting.htm,2001—05.
2Baxendale, P. E. Machine-made index for technical literature an experiment. IBM. Journal of Research and Development, 1958, 2 (4) :354 ~ 361.
3刘开瑛,薛翠芳,郑家恒,周晓强.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7. 被引量：45
4刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
5成颖,史九林.自动分类研究现状与展望[J].情报学报,1999,18(1):20-26. 被引量：37
6赵云志.统计分析法自动标引的改进[J].情报学报,2000,19(4):333-337. 被引量：18
7ZHOU MeiliDepartment of Mechanical Engineering, Anhui Institute of Technology 111 Lu An Road, Hefei 230069, the People’s Republic of China.Some Concepts and Mathematical Consideration of Similarity System Theory[J].Systems Science and Systems Engineering,1992,2(1):84-92. 被引量：17

共引文献160

1张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：11
2刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
3赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
4刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
5彭寿清.人才埋没的文化根源——浅析儒家文化对人才成长的负效应[J].衡阳师范学院学报,2005,26(2):97-100. 被引量：1
6田苗苗,许建潮,汪津,丁桂英.基于遗传算法的Web信息自动标引研究[J].吉林大学学报（信息科学版）,2006,24(5):542-547. 被引量：6
7邢玲,马建国,李幼平,刘志文.一种基于UCL的中文网页信息过滤方法[J].电子学报,2006,34(10):1752-1757. 被引量：9
8索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
9顾燕萍,侯汉清,王晓红.中文图书自动标引与分类加权设计研究[J].中国图书馆学报,2006,32(6):69-72. 被引量：6
10周霜菊,孙济庆.西文环境下基于多因子综合算法的自动标引系统研究与实现[J].情报探索,2007(1):51-54. 被引量：2

同被引文献51

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2董丽,侯汉清.中文期刊文献关键词标引的分析和改进[J].情报科学,2004,22(11):1355-1358. 被引量：14
3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
4张庆国,薛德军,张振海,张君玉.海量数据集上基于特征组合的关键词自动抽取[J].情报学报,2006,25(5):587-593. 被引量：17
5索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
6刘华.基于文本分类中特征提取的领域词语聚类[J].语言文字应用,2007(1):139-144. 被引量：22
7刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
8刘华.基于分类标注语料库的关键词标引知识自动获取[J].图书情报工作,2007,51(7):41-43. 被引量：6
9Xie F, Wu X,Hu X G,et al.Keyphrase extraction from Chinese news web pages based on semantic relations[J].Intelligence and Security Informatics,LNCS 5075,2008:490-495.
10Li X,Wu X,Hu X,et al. Keyword extraction based on lexical chains and word co-occurrence for chinese news web pages[C].IEEE International Conference on Data Mining Workshops. Pisa, ltaly: IEEE Computer Society Press,2008:744-751.

引证文献6

1杨春明,韩永国.快速的领域文档关键词自动提取算法[J].计算机工程与设计,2011,32(6):2142-2145. 被引量：12
2叶春蕾,冷伏海.基于词汇链的路线图关键词抽取方法研究[J].现代图书情报技术,2013(1):50-56. 被引量：9
3杨贺,杨奕虹,吴广印,林霄剑.用于海量文献关键词标引的计算机辅助加工系统构建实践[J].数字图书馆论坛,2013(6):44-50. 被引量：2
4胡少虎,张颖怡,章成志.关键词提取研究综述[J].数据分析与知识发现,2021,5(3):45-59. 被引量：36
5俞琰,鞠鹏,尚明杰.基于信息增益与相似度的专利关键词抽取算法评价模型[J].图书情报工作,2022,66(6):108-117. 被引量：3
6崔洪振,张龙豪,彭云峰,邬雯.关键词提取算法研究综述[J].中文信息学报,2024,38(2):1-14.

二级引证文献61

1王帅帅,徐臻.融合关键字的注意力机制的淋巴水肿病历诊断推理算法[J].智能计算机与应用,2022,12(2):178-181.
2杨春明,韩永国.地方政府网络舆情监测系统研究[J].西南科技大学学报,2012,27(3):92-96. 被引量：1
3冯秀珍,郝鹏.基于词性分析的产品评价信息挖掘[J].计算机工程与设计,2013,34(1):283-288. 被引量：4
4陈开慧.本体与分众分类的融合模型研究[J].图书馆学研究,2013(5):73-77. 被引量：8
5叶春蕾,冷伏海.技术路线图中未来技术词表构建方法研究[J].现代图书情报技术,2013(5):59-63. 被引量：4
6何晓阳,张精理,丁婷.医学新闻关键词自动提取策略[J].中华医学图书情报杂志,2014,23(4):13-17. 被引量：2
7陈金梁,李青.基于本体的领域文档主题抽取方法研究[J].电脑开发与应用,2014,27(9):44-47.
8马运运,孙志一,刘海波,彭勇.中文专利文档关键词自动提取方法研究进展[J].世界科学技术-中医药现代化,2015,17(1):29-34. 被引量：1
9王庆,陈泽亚,郭静,陈晰,王晶华.基于词共现矩阵的项目关键词词库和关键词语义网络[J].计算机应用,2015,35(6):1649-1653. 被引量：11
10吴小兰,章成志.结合用户关系网和标签共现网的微博用户标签推荐研究[J].情报学报,2015,34(5):459-465. 被引量：9

1章成志,周冬敏,苏新宁.自动标引通用评价模型研究[J].中国索引,2007,5(4):9-17. 被引量：1
2朱涛,姜丹.现代科技文献信息机构评价模型研究[J].科研管理,2002,23(6):107-112. 被引量：3
3陈培颖,胡蓉,张哲.科技期刊的多元化宣传策略[J].编辑学报,2009,21(5):429-431. 被引量：23
4殷迪.走基层:让虚拟的网络反映真实[J].记者摇篮,2011(11):10-10.
5刘闽江.把好舆论导向助推社会发展[J].发展,2012(6):117-117.
6闾燕.以营销为导向的企业网站评价模型研究[J].湖南工程学院学报（自然科学版）,2012,22(2):38-41. 被引量：1
7靖培栋,赵丽春.基于下一代图书馆目录特征的评价模型研究[J].图书情报工作,2014,58(24):25-30.
8杨华,张博.基于模糊理论的吉林省科技政策实施效果评价模型研究[J].现代情报,2010,30(4):138-140. 被引量：4
9贾国飚.突发事件中新闻媒体应急能力评价模型研究[J].新闻与写作,2010(7):30-33. 被引量：3
10樊长军,张馨,连宇江,候荣理,康美娟,赵军亮,朱媛.基于德尔菲法的高校图书馆公共服务能力指标体系构建[J].情报杂志,2011,30(3):97-100. 被引量：70

情报学报

2009年第1期

浏览历史

内容加载中请稍等...

自动标引通用评价模型研究被引量：6

参考文献15

二级参考文献7

共引文献160

同被引文献51

引证文献6

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

自动标引通用评价模型研究 被引量：6

参考文献15

二级参考文献7

共引文献160

同被引文献51

引证文献6

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

自动标引通用评价模型研究被引量：6