基于过滤与权重平滑策略的自动标引方法研究被引量：1

Research on the Automatic Indexing Method Based on the Filtering and Weight Smoothing Strategies

下载PDF

导出

摘要文章提出一种基于过滤和权重平滑策略的标引词自动抽取方法,该方法采用可变停用词作为文档分隔手段,采用词性、词频、词语位置等信息作为标引词过滤的手段,采用合理的权重倾向策略保证了标引词抽取在词组和单词中的均衡。方法综合利用了词性标注等自然语言处理领域的研究成果和统计学信息,不依赖词汇在文档集中的分布规律,可以直接从单篇文档抽取标引词,在待标引文档篇幅受限的情况下具有良好的运行性能。 This paper proposes an automatic indexing word extraction method based on the filtering and weight smoothing strat- egies. Taking the variable disabled words as the document separation means, and the information such as part of speech, term fre- quency and words＇ position as the indexing word filtering means, the paper uses the reasonable weight tendency strategies to guar- antee the balance of indexing word extraction in phrase and single word. The method makes a comprehensive use of the research re- sults and statistics information in the natural language processing field such as part-of-speech marking, is able to extract the inde- xing words from the single document directly without relying on the distribution law of the words in the document set, and has excel- lent operating performance when the length of the document to be indexed is limited.

作者高影繁徐红姣杜枫

机构地区中国科学技术信息研究所中国机械工业集团有限公司

出处《情报理论与实践》 CSSCI 北大核心 2014年第2期103-106,共4页 Information Studies:Theory & Application

基金中国科学技术信息研究所重点工作课题"多语言科技信息语义关联网络构建及其应用"(项目编号:ZD2012-3-3) 中国科学技术信息研究所预研项目"基于句子解析的科技文献自动标引改进方法研究"(项目编号:YY-201218)的成果

关键词词性过滤规则权重自动标引 part-of-speech filtering hales weight automatic indexing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1TURNEY P D. Learning algorithms for keyphrase extraction [J]. Information Retrieval, 2000, 2 (4): 303-336.
2WITTEN I H, PAYNTER G W, FRANK E, et al. KEA: practical automatic keyphrase extraction [ C ] // Proceeding of the 4th ACM Conference on Digital Libraries. Berkeley, USA: ACM Press, 1999: 254-255.
3HULTH A. Improved automatic keyword extraction given more linguistic knowledge [ C ] //Proceeding of EMNI P' 03. Stroudshurg : ACL, 2003.
4NGUYEN T, KAN M Y. Keyphrase extraction in scientific publications [C] //Proceedings of the 10th International Con- ference on Asian Digital Libraries, 2007: 317-326.
5MIHALCEA R, TARAU P. Textrank: bringing order into texts [ C 1 //Proceedings of EMNLP. 2004 : 404-411.
6李鹏,王斌,石志伟,崔雅超,李恒训.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351. 被引量：56
7PASQUIER C. Task 5: single document keyphrase extracting using sentence clustering and latent dirichlet allocation [ C ] // Proc of ACL Wordshop on semantic Evaluation. 2010 : 154-157.
8LIU Zhiyuan, CHEN Xinxiong, ZHENG Yabin, et al. Auto- matic keyphrase extraction by bridging vocabulary gap [ C ] // Proceedings of the Fifteenth Conference on Computational Natu- ral Language Learning, 2011 : 135-144.
9高影繁,徐红姣,王惠临.基于多重过滤策略的科技文献自动标引方法研究[J].情报理论与实践,2012,35(12):98-100. 被引量：1
10刘开瑛,薛翠芳,郑家恒,周晓强.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7. 被引量：45

二级参考文献33

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2靳从,樊春丽,杨静宇.主题词自动标引中的知识处理方法[J].情报理论与实践,1996,19(2):30-33. 被引量：3
3刘开瑛，计算机期刊关键词标引统计分析技术报告，1996年
4刘开瑛，中国人民银行××省分行《重要文件汇编》的主题词标引研究技术报告，1996年
5Yih W, Goodman J, Carvalho V R. Finding advertising keywords on Web pages [C]//Proc of WWW'06. New York: ACM, 2006:213-222.
6Kelleher D, I.uz S. Automatic hypertext kcyphrase detection [C] //Proc of IJCAI-05. San Francisco: Morgan Kaufmann, 2005:1608-1609.
7Turney P D. Coherent keyphrase extraction via web mining [C]//Proc of IJCAI 03. San Francisco: Morgan Kaufmann, 2003:434-439.
8Hulth A. Improved automatic keyword extraction given more linguistic knowledge[C] //Proc of EMNLP'03. Stroudsburg: ACL, 2003:216-223.
9A1 Khalifa H S, Davis H C. Folksonomies versus automatic keyword extraction: An empirical study [C]//Proc of IAD1S Web Applications and Research 2006. Southampton: ECS, 2006: 132-143.
10Mihaleea R, Tarau P. TextRank.- Bringing order into texts [C] //ProeofEMNLP'04. Stroudsburg: ACL, 2004:404 - 411.

共引文献99

1陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
2谢春发.中文信息处理在智能答疑系统中的应用研究[J].福建广播电视大学学报,2005(2):55-57.
3刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
4何静,刘海燕.基于向量空间模型的实时内容过滤[J].计算机工程,2004,30(15):26-27. 被引量：2
5郑海,林鸿飞.基于段落匹配的文本分类机制[J].计算机工程与应用,2004,40(28):174-176. 被引量：3
6温有奎.基于“知识元”的知识组织与检索[J].计算机工程与应用,2005,41(1):55-57. 被引量：74
7周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
8包剑,冀常鹏,李义杰.基于矢量空间模型的文本自动分类系统研究[J].计算机系统应用,2005,14(3):47-49. 被引量：6
9侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
10马文斌,王庆.Web内容过滤实现方法的研究[J].计算机工程,2004,30(B12):588-589. 被引量：4

同被引文献15

1焦慧,刘迁,贾惠波.基于词平台汉字编码的自动标引研究[J].计算机工程与应用,2007,43(15):173-175. 被引量：3
2刘华.基于分类标注语料库的关键词标引知识自动获取[J].图书情报工作,2007,51(7):41-43. 被引量：6
3章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：39
4Yang Wen-Feng. Chinese Keyword Extraction Based on Max-duplicated Strings of the Documents [C]// Proceedings of the 25'h Annual International ACMSI- GIR Conference on Research and Development in Information Retrieval. Tampere, Finland, 2002: 439-44{}.
5Tomokiyo, Hurst M. A language Model Approach to Key phrase Extraction[C]//Proceedings of the ACL Workshop on Multi word Expressions: Analysis, Ac- quisition& Treatment. Sapporo, Japan, 2003: 33-40.
6Gonenc Ercan,llyas Cicekli. Using lexical chains for keyword extraction[J].Information Processing & Management ,2007,43(6):1705 - 1714.
7Hulth A. Improved Automatic Key word Extraction Given More Linguistic Knowledge[C]//Proceedings of the 2003 Conference on Empirical Methods in Nat- ural Language Processing. Sapporo, Japan, 2003: 216-223.
8章成志.基于集成学习的自动标引方法研究[J].情报学报,2010,29(1):3-8. 被引量：10
9杨贺,杨奕虹,乔晓东,李宁,朱礼军.用于计算机辅助文献标引加工系统的自然语言词表构建[J].现代图书情报技术,2010(6):17-24. 被引量：6
10李纲,戴强斌.基于词汇链的关键词自动标引方法[J].图书情报知识,2011,28(3):67-71. 被引量：27

引证文献1

1李千驹,李思达,刘建毅.一种基于知识组织的关键词自动标引方法[J].情报科学,2016,34(11):107-110. 被引量：8

二级引证文献8

1唐晓波,翟夏普.基于本体和Word2Vec的文本知识片段语义标引[J].情报科学,2019,37(4):97-102. 被引量：9
2赖璨,陈雅.我国近十年知识组织技术研究进展分析[J].数字图书馆论坛,2020(12):9-16. 被引量：5
3唐晓波,刘江南.基于BERT和TF-IDF的问答社区问句自动标引研究——以金投网问答社区为例[J].情报科学,2021,39(3):3-10. 被引量：10
4曹思源,马海云.领域知识组织理论基础及方法分类简述[J].情报资料工作,2021,42(5):14-22. 被引量：4
5柴源.基于SVM的书目数据自动分类设计与应用研究[J].黑龙江科学,2021,12(24):18-21. 被引量：1
6蔡迎春,赵心如,朱玉梅,汪秀秀.我国文献标引技术的回顾与展望[J].图书馆杂志,2022,41(3):18-31. 被引量：5
7史雅莉,贺红钰.2003—2023年我国自动标引研究及实践进展[J].情报探索,2024(4):120-127.
8马曲立.船舶资料快速批量著录系统文本自动标引研究[J].舰船科学技术,2019,41(13):134-136.

1吴凌艳.浅谈新时期如何做好档案管理工作[J].科技创新导报,2015,12(24):212-213. 被引量：4
2张文嘉.网络环境下确保电子档案信息安全的有效措施[J].黑龙江档案,2014(4):60-60. 被引量：1
3孙海霞,李军莲,李丹亚,吴英杰,李晓瑛.基于CMeSH语义系统的领域自由词-主题词语义映射研究[J].现代图书情报技术,2013(11):46-51. 被引量：8
4杨波.链接分析中的数据采集技术研究[J].图书馆理论与实践,2010(10):44-48. 被引量：5
5颜端武,李兰彬,曲美娟.基于N-gram复合分词的领域概念自动获取方法研究[J].情报理论与实践,2014,37(2):122-126. 被引量：5
6韩客松,王永成,王刚.生物学文献自动标引系统的理论和实践[J].情报学报,2000,19(3):259-264. 被引量：8
7吴云标.影响虚拟馆藏利用的因素分析——虚拟馆藏选择评价刍议之一[J].图书情报工作,2001,45(5):45-49. 被引量：14
8化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：38
9祝清松,冷伏海,王林,韩涛.英文科技文献内核识别方法研究[J].情报理论与实践,2012,35(9):112-116.
10崔文浩,屈菲,程琳.使用FlexPaper实现图书馆自建特色数据库在线阅览的研究[J].计算机光盘软件与应用,2012,15(21):151-152. 被引量：3

情报理论与实践

2014年第2期

浏览历史

内容加载中请稍等...

基于过滤与权重平滑策略的自动标引方法研究被引量：1

参考文献10

二级参考文献33

共引文献99

同被引文献15

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于过滤与权重平滑策略的自动标引方法研究 被引量：1

参考文献10

二级参考文献33

共引文献99

同被引文献15

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于过滤与权重平滑策略的自动标引方法研究被引量：1