面向中文书籍的书后索引项提取

Extraction of index terms for Chinese books

下载PDF

导出

摘要为提升索引编制的准确率与效率,改善基于关键词的提取算法无法很好地提取与书籍主题相关并且具有索引价值的索引项的问题,提出综合评价方式进行书后索引项的提取。利用候选索引项在知识库中的类别和引用关系,借鉴网页排名(PageRank)算法计算候选索引项的领域重要度;对书籍内部信息进行全面分析,利用统计、位置等特征计算候选索引项的书籍内部重要度;构建综合评价模型评价候选索引项作为书后索引项的适合程度。实验结果表明,所提方法在准确率、召回率和F值方面比未改进的算法有显著提高。 To improve the accuracy and efficiency of indexing,and improve the keyword-based extraction algorithm which cannot extract the items related to the subject and valuable to the back-of-the-book index,a comprehensive evaluation method was proposed to extract the index terms.The candidate index terms were extracted according to the category structure and reference relationship in the knowledge base,and their domain confidence was calculated using the PageRank algorithm.A comprehensive analysis of the internal information of the books was conducted and the internal importance of the candidate index terms was calculated using the characteristics of statistical and location,etc.A comprehensive evaluation model was established to evaluate the suitability of candidates as the back-of-the-book index terms.Experimental results show that the proposed method is better than the original algorithm in accuracy,recall and F-measure.

作者田梦李宁吕淑琪田英爱许洁 TIAN Meng;LI Ning;LYU Shu-qi;TIAN Ying-ai;XUN Jie(Computer School,Beijing Information Science and Technology University,Beijing 100101,China;China Electronics Standardization Institute,Beijing 100007,China)

机构地区北京信息科技大学计算机学院中国电子技术标准化研究院

出处《计算机工程与设计》北大核心 2019年第1期261-267,共7页 Computer Engineering and Design

基金国家自然科学基金项目(61672105) 国家863高技术研究发展计划基金项目(2015AA015403) "核高基"国家科技重大专项基金项目(2012ZX01045-006)

关键词书后索引候选索引项提取书后索引项提取网页排名算法特征评价 back-of-the-book index candidate index term extraction back-of-the-book index term extraction PageRank feature evaluation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1孙辉.利用信息组织技术编制书刊索引探析[J].中国索引,2015,13(1):2-8. 被引量：1
2郭丽芳,温国强.国内外索引软件比较研究[J].图书馆,2010(4):47-48. 被引量：6

二级参考文献7

1中国索引标准起草小组.《索引编制规则(总则)》.
2American Society for Indexing. Software tools for indexing. ( 2008 - 03 - 20 ). http ://www. asindexing, org/site/soflware, shtml.
3http ://www. indexres.com.
4http ://www. html - indexer. com/.
5王彦祥,王广林.“索引之星”软件的研制和使用.(2006-05-04).http://www.cnindex.fudan.edu.cn/index-star20.htm.
6徐忠.与时俱进,开创索引事业美好未来--在中国索引学会第三次全国会员代表大会上的工作报告.(2008-11-01).http://www.cnindex.fudan.edu.cn/news/200S/news_081l01.htm.
7侯汉清.索引法教程.南京:南京农业大学,1993:10-16

共引文献5

1刘佳贺,谢佳.浅议公共图书馆编制地方文献索引的可持续性[J].图书馆界,2011(6):75-77.
2朱晓霄.大数据时代索引员的使命[J].中国索引,2013,11(4):38-43. 被引量：4
3朱晓霄.大数据时代索引员能力研究[J].图书馆工作与研究,2016(3):25-27.
4王雅戈,叶继元,黄建年,唐强,刘峰,杨斐.中文索引平台建设——以“索引家”开发为例[J].图书馆论坛,2019,39(11):37-40. 被引量：2
5刘双,钱澄澄,杜鹏,王德广.图书内容索引出版综述[J].图书馆研究,2020,50(6):47-53. 被引量：2

1谷旖旎.人工智能技术在图书馆中的应用研究[J].科学大众（科技创新）,2018,0(2):46-47.
2王丹.基于PageRank改进的文献排名算法研究[J].计算机时代,2019(1):59-62. 被引量：4
3刘剑梅.“新文体写作”的意义[J].书屋,2018,0(12):87-89.
4王婷,周莲姿,李奕辰,梁轶.浅议医院实施政府会计制度改革的系统工程[J].行政事业资产与财务,2019(2):58-59. 被引量：2
5胡忠伟.《书情脉脉》似故人[J].吐鲁番,2018,0(3):39-40.
6缪琦,胥会云,TP(图).中国文学和动漫海外刷屏全凭一手好IP[J].今商圈,2018,0(10):35-37.
7洪闯,李贺,彭丽徽,祝琳琳.基于链接分析的企业开放式创新平台网络影响力评价研究[J].情报理论与实践,2018,41(12):104-109. 被引量：3
8戴娟.新常态下医疗投诉纠纷成因分析及防范对策研究[J].江苏卫生事业管理,2019,30(1):35-38. 被引量：12
9张雨薇,杨浩群,马坤,王立雪.基于因子分析法的通化市居民幸福感研究[J].科技风,2019,0(3):232-232. 被引量：1
10胡竟伟.大数据时代企业信息安全管理体系分析[J].时代农机,2018,45(12):157-157. 被引量：1

计算机工程与设计

2019年第1期

浏览历史

内容加载中请稍等...

面向中文书籍的书后索引项提取

参考文献2

二级参考文献7

共引文献5

相关作者

相关机构

相关主题

浏览历史