基于标引经验和机器学习相结合的多层自动分类被引量：2

下载PDF

导出

摘要由于《中国图书馆分类法》的类目数目庞大和文献在各类目上分布的不均衡，导致基于机器统计学习的自动分类技术在此类多层分类上的力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题，然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过两种分类技术相结合的方法对信息资源进行分类，提出了用相关度度量来测定关键词和类目概念之间的关联，构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配，并在小规模的测试集上得到了较好的效果。本文详细讨论此种分类器的构建原理、构建方法以及分类流程，并对该方法存在的不足进行了分析。

作者何琳侯汉清

机构地区南京农业大学信息管理系

出处《中国索引》 2006年第1期39-43,共5页 Journal of the China Society of Indexers

关键词《中国图书馆分类法》分类矩阵自动分类

分类号 G354.4 [文化科学—情报学] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
2侯汉清,薛鹏军.基于知识库的网页自动标引和自动分类系统的设计[J].大学图书馆学报,2004,22(1):50-55. 被引量：37

二级参考文献14

1黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
2张琪玉.关键词检索、概念检索和分类浏览检索一体化.巨灵研究报告[R].深圳巨灵信息技术研究所,2000-3..
3薛鹏军.[D].南京农业大学,2001,6.
4博科哈罗德著.文摘的概念与方法[M].北京:书目文献出版社,1991,6..
5张琪玉.自然语言检索中各种因素对检索效率的影响[A]..张琪玉情报语言学论文集[C].北京:北京图书馆出版社,1999,5..
6Pao M L. Automatic text analysis based on transition phenomena of word occurrences. Journal of the American Society for Information Science. 1978(29).
7何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
8吕津,赵明生.对因特网上自动信息提取的研究[J].数据通信,2000(1):5-8. 被引量：14
9赵云志.统计分析法自动标引的改进[J].情报学报,2000,19(4):333-337. 被引量：18
10孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36

共引文献261

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
6尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
7王凯.文献分类工作的现状与发展[J].科技情报开发与经济,2004,14(11):64-65. 被引量：3
8陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2
9薛春香,侯汉清.数字信息资源的自动分类和主题识别——OCLC“蝎子计划”研究[J].图书馆杂志,2005,24(1):24-28. 被引量：7
10王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15

同被引文献48

1苏新宁,徐进鸿,史九林.档案自动分类算法研究[J].情报学报,1995,14(3):194-200. 被引量：11
2樊瑜.关于修订《中国图书馆分类法·期刊分类表》(第二版)的几点建议[J].图书情报工作,2006,50(3):115-118. 被引量：2
3田苗苗,许建潮,汪津,丁桂英.基于遗传算法的Web信息自动标引研究[J].吉林大学学报（信息科学版）,2006,24(5):542-547. 被引量：6
4周霜菊,孙济庆.西文环境下基于多因子综合算法的自动标引系统研究与实现[J].情报探索,2007(1):51-54. 被引量：2
5刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
6沈静,周金治,马建国.文化网格中的信息标引及其实现[J].电视技术,2007,31(3):46-48. 被引量：6
7杨建林.网格环境下的信息检索[J].情报理论与实践,2007,30(3):388-391. 被引量：3
8焦慧,刘迁,贾惠波.基于词平台汉字编码的自动标引研究[J].计算机工程与应用,2007,43(15):173-175. 被引量：3
9陈志鹏,陆惠民.关于中医临床文献自动主题标引系统的研究[J].科技文献信息管理,2007,21(2):17-19. 被引量：4
10刘华.基于分类标注语料库的关键词标引知识自动获取[J].图书情报工作,2007,51(7):41-43. 被引量：6

引证文献2

1余春.自动标引研究进展[J].图书馆学研究,2012(4):18-22. 被引量：12
2李娇,黄永文,罗婷婷,赵瑞雪,鲜国建.基于多因子算法的自动分类研究[J].数据分析与知识发现,2020,4(11):43-51. 被引量：4

二级引证文献16

1刘素军.网络环境下知识组织方式研究[J].黄河水利职业技术学院学报,2013,25(2):81-84.
2文天才,李平.基于XML的名老中医医案结构化标引系统[J].中国数字医学,2013,8(7):22-24. 被引量：6
3马娟.文本自动标引算法研究[J].黑龙江科技信息,2014(15):126-127. 被引量：1
4石琢.基于校园网络舆情中极端行为的主题词分级研究[J].甘肃高师学报,2014,19(6):139-142.
5耿锐.图书在版编目自动辅助标引方案初探[J].中国科技产业,2015(10):65-67.
6宋宇,真溱.关键词自动抽取技术综述[J].情报理论与实践,2016,39(7):141-144. 被引量：4
7李千驹,李思达,刘建毅.一种基于知识组织的关键词自动标引方法[J].情报科学,2016,34(11):107-110. 被引量：8
8肖雯,李鑫.大数据时代数字资源的主题标引研究[J].图书馆理论与实践,2016,0(11):67-70. 被引量：11
9陈博,陈建龙.基于文本挖掘和可视化技术的主题自动标引方法——以《英雄格萨尔》为例[J].现代情报,2019,39(8):45-51. 被引量：12
10唐晓波,刘江南.基于BERT和TF-IDF的问答社区问句自动标引研究——以金投网问答社区为例[J].情报科学,2021,39(3):3-10. 被引量：12

1何琳,侯汉清,白振田,张雪英.基于标引经验和机器学习相结合的多层自动分类[J].情报学报,2006,25(6):725-729. 被引量：19
2陶道强,马良荔,彭超.基于分类矩阵的决策树算法[J].计算机工程与设计,2012,33(6):2309-2313. 被引量：5
3高原,王保栋.基于《中图法》的图书文献分类系统的设计与实现[J].科技信息,2009(28):120-121. 被引量：1
4王梦云,王素格.一个基于字特征的文本分类模型[J].计算机工程与应用,2004,40(13):64-65. 被引量：2
5朱红斌,蔡郁.基于支持向量机的多层分类入侵检测系统研究[J].丽水学院学报,2008,30(2):54-57.
6刘辉,应培培.一种改进的KNN文本分类算法[J].信息安全与技术,2011,2(7):25-27. 被引量：2
7张绍辉,陈晨,韩宪忠.基于MAC帧分类匹配的WLAN入侵检测[J].微型机与应用,2011,30(1):57-58. 被引量：4
8蔡巍,尹中航.一种基于大语料库的多分类体系自动转换方案设计[J].情报杂志,2009,28(B06):74-76.
9林超,崔良中,周钢.基于分类矩阵ID3决策树的数据预处理技术研究[J].舰船电子工程,2013,33(4):28-31. 被引量：1
10李守素,梁松.试论类书的分类体系与分类技术[J].大学图书馆学报,1989,7(5):22-28. 被引量：6

中国索引

2006年第1期

浏览历史

内容加载中请稍等...

基于标引经验和机器学习相结合的多层自动分类被引量：2

参考文献2

二级参考文献14

共引文献261

同被引文献48

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于标引经验和机器学习相结合的多层自动分类 被引量：2

参考文献2

二级参考文献14

共引文献261

同被引文献48

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于标引经验和机器学习相结合的多层自动分类被引量：2