LDA模型下书目信息分类系统的研究与实现被引量：12

Research and Implementation of Bibliographic Information Classification System in LDA Model

导出

摘要【目的】改善图书和期刊论文等的书目信息的分类性能。【应用背景】采用传统向量空间模型对图书和期刊论文等书目信息分类的效果不理想,通过LDA模型挖掘文本隐含语义信息,能有效提高分类效果。【方法】通过LDA建模,用隐含主题表示文本并通过分类效果确定最优主题数,在此基础上采用SVM算法分类。【结果】实验表明,在复旦和Sogou公开语料库中的Macro_F1分别达到95.5%和93.5%;在馆藏目录及电子期刊数据库等真实书目数据中的Macro_F1分别达到77.4%和87.6%。【结论】在真实数据上的分类性能比传统向量空间模型分别提高10%和3%,达到实用水平。 [Objective] To improve the classification effect of bibliographic information of books and journal articles etc. [Context] The classification performance under the traditional vector space model is not satisfied, and LDA model can effectively improve the classification effect by mining the implied semantic information. [Methods] Using LDA model to represent each text with implied topics, the optimal number of topics is determined on the classification result.Then the SVM classification algorithm is used. [Results] Experiments show that the Macro_F1 in Fudan and Sogou corpus reach 95.5% and 93.5% respectively; the Macro_F1 on the real data from catalogue and electronic journal database reach 77.4% and 87.6% respectively. [Conclusions] The classification performance on real data is increased by 10% and 3% respectively compared to the VSM, that reaches the practical level.

作者李湘东廖香鹏黄莉

机构地区武汉大学信息管理学院武汉大学图书馆

出处《现代图书情报技术》 CSSCI 北大核心 2014年第5期18-25,共8页 New Technology of Library and Information Service

关键词 LDA模型文本分类向量空间模型 GIBBS抽样 SVM Latent Dirichlet Allocation Text categorization Vector Space Model Gibbs sampling Support Vector Machine

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Deerwester S, Dumais S, Furnas G W, et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
2Hofmann T. Prnbabilistie Latent Semantic Indexing [C]. In: Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, California, United States. New York: ACM, 1999: 50-57.
3Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
4刁宇峰,杨亮,林鸿飞.基于LDA模型的博客垃圾评论发现[J].中文信息学报,2011,25(1):41-47. 被引量：23
5黄小亮,郁抒思,关佶红.基于LDA主题模型的软件缺陷分派方法[J].计算机工程,2011,37(21):46-48. 被引量：11
6廖晓锋,王永吉,范修斌,吴敬征.基于LDA主题模型的安全漏洞分类[J].清华大学学报（自然科学版）,2012,52(10):1351-1355. 被引量：11
7孙李斌,马贤明,赵明明.基于LDA主题模型的遥感图像表示与分类[J].科技视界,2013(7):58-58. 被引量：1
8张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：75
9Phan X, Nguyen M, Horiguchi S. Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections [C]. In: Proceedings of the 17th Conference on World Wide Web. New York: ACM, 2008: 91-100.
10Dempster A P, Laird N M, Rubin D B. Maximum Likelihood from Incomplete Data via the EM Algorithm[J]. Journal of the Royal Statistical Society, 1977, 39(1): 1-38.

二级参考文献88

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
2伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4
3D. Blei and J. Lafferty, Correlated topic models [C]//Advances in Neural Information Processing Gystems 18, MIT Press, Cambridge, MA. 2006.
4Qiaozhu Mei, Xu Ling,Matthew Wondra, Hang Su, ChengXiang Zhai, Topic Sentiment Mixture: Model ing Facets and Opinions in Web logs[C]//Proceedings of the 16th international conference on World Wide Web (WWW 2007), Banff, Alberta, Canada: 171-180.
5Yue Lu, Chengxiang Zhai. Opinion Integration Through Semi-supervised Topic Modeling[C]//Proceedings of the 17th International Conference on World Wide Web (WWW 2008) ,Beijing, China: 121- 130.
6Xing Wei, W. B. Croft, LDA-based Document Models for Ad hoc Retrieval[C]//Proceedings of the 29^th SIGIR Conference, Seattle, Washington, USA, 2006: 178-185.
7B. Liu. Web Data Mining: Exploring Hyperlinks, Contents and Usage Data [M]. Springer, 2007.
8Vapnik V. , The Nature of Statistical Learning Theory [M]. New York: Springer,1995.
9中科院分词系统:http://ictclas.org[DB/OL].
10C. Castillo, D. Donato, L. Becchetti, P. Boldi, S. Leonardi, M. Santini, S. Vigna. A Referenee Collec tion for Web Spam[C]//ACM SIGIR Forum,2006,40 (2) :11-24.

共引文献241

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2邱小宇,林杰.基于Twitter数据的地点分类方法研究[J].科技通报,2020(4):67-71.
3龚书,瞿有利,田盛丰.基于语义的自动文摘研究综述[J].北京交通大学学报,2009,33(5):126-131. 被引量：4
4王朝飞,王凯.主题模型在数字图书馆Web服务中的应用[J].情报理论与实践,2010,33(2):118-120. 被引量：4
5张小平,周雪忠,黄厚宽,冯奇,陈世波.基于词相似性与CRP的主题模型[J].模式识别与人工智能,2010,23(1):72-76. 被引量：8
6刁宇峰,杨亮,林鸿飞.基于LDA模型的博客垃圾评论发现[J].中文信息学报,2011,25(1):41-47. 被引量：23
7徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：231
8杨风雷,黎建辉.用户生成内容中的垃圾意见研究综述[J].计算机应用研究,2011,28(10):3601-3605. 被引量：12
9张晓艳,王挺,梁晓波.LDA模型在话题追踪中的应用[J].计算机科学,2011,38(B10):136-139. 被引量：26
10梁建海,潘泉,杨峰.菲波那奇数列变栅格的数据收缩聚类方法研究[J].计算机应用研究,2011,28(11):4067-4070.

同被引文献116

1章锦文,马远良.神经网络计算机的现状与发展趋势[J].计算机科学,1993,20(6):24-27. 被引量：2
2陈玉霞.基于诺兰模型的图书馆文献信息资源共享系统建设的分析[J].图书馆学研究,2005(5):61-63. 被引量：3
3侯汉清,薛春香.用于中文信息自动分类的《中图法》知识库的构建[J].中国图书馆学报,2005,31(5):82-86. 被引量：25
4薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分类模式比较[J].南京农业大学学报（社会科学版）,2005,5(4):85-92. 被引量：10
5高波,赵政.文本层次分类系统的研究[J].计算机工程与应用,2006,42(11):176-178. 被引量：5
6徐学锋.2000—2004年《中国安全科学学报》引文分析与研究[J].中国安全科学学报,2006,16(4):25-30. 被引量：10
7白小明,邱桃荣.基于SVM和KNN算法的科技文献自动分类研究[J].微计算机信息,2006(12X):275-276. 被引量：10
8郭玉,蔚海燕.我国计算机科学发展态势文献计量分析[J].计算机应用研究,2007,24(12):28-31. 被引量：16
9中国职业安全健康协会[OL].[2014-08-01].http://www.cosha.org.cn.
10北京大学图书馆.中文核心期刊要目总览(2014年版)[M].北京:北京大学出版社,2015.9:104-125.

引证文献12

1佟瑞鹏,梁明添,李春旭.《中国安全科学学报》载文特点及研究主题变化分析[J].中国安全科学学报,2016,26(1):8-14. 被引量：13
2杨海霞,高宝俊,孙含林.基于LDA挖掘计算机科学文献的研究主题[J].现代图书情报技术,2016(11):20-26. 被引量：18
3杨萌萌,黄浩,程露红,马平,包武杰.基于LDA主题模型的短文本分类[J].计算机工程与设计,2016,37(12):3371-3377. 被引量：19
4李湘东,丁丛,高凡.基于复合加权LDA模型的书目信息分类方法研究[J].情报学报,2017,36(4):352-360. 被引量：14
5王伟,周咏梅,阳爱民,周剑峰,林江豪.一种基于LDA主题模型的评论文本情感分类方法[J].数据采集与处理,2017,32(3):629-635. 被引量：7
6刘高军,陈强强.基于极限学习机和混合特征的中文书目自动分类模型研究[J].北方工业大学学报,2018,30(5):99-104. 被引量：5
7刘芳.基于LDA模型的图书馆文献分类系统设计与开发[J].电子设计工程,2018,26(16):156-159. 被引量：1
8丁鹏斐,吴建德.基于LDA模型的中药专利内容热点领域分析方法[J].软件导刊,2019,18(1):148-151.
9王鹏飞,张斌.基于文献计量的国内LDA主题模型研究进展分析[J].图书情报研究,2020,13(2):85-91. 被引量：4
10刘艳文,魏赟.基于LDA主题模型的情感分析研究[J].电子科技,2020,33(7):12-16. 被引量：5

二级引证文献114

1化柏林,陈丹蕾,汪大锟.数据中台在科技情报中的应用[J].情报学进展,2022(1):265-314.
2杨金庆,吴乐艳,魏雨晗,陆伟,罗威.科技文献新兴话题识别研究进展[J].情报学进展,2020(1):202-234. 被引量：3
3张振豪,过弋,韩美琪,王吉祥.基于关键词相似度的短文本分类方法研究[J].计算机应用研究,2020,37(1):26-29. 被引量：7
4李贺,祝琳琳,闫敏,刘金承,洪闯.开放式创新社区用户信息有用性识别研究[J].数据分析与知识发现,2018,2(12):12-22. 被引量：8
5陈孝慈,谭章禄,马琳,单斐.可视化安全管理知识图谱分析[J].中国安全科学学报,2017,27(4):13-18. 被引量：14
6赵星雷,肖诗斌.基于分布式LDA-Spark的微博用户兴趣挖掘[J].北京信息科技大学学报（自然科学版）,2017,32(3):70-74.
7李杰,杨冕,吴超.安全科学研究主题结构及前沿分析[J].中国安全科学学报,2017,27(5):7-12. 被引量：6
8阮剑,杨海霞,黄瑱.基于主题模型的大学学报文献挖掘研究——以计算机科学领域为例[J].情报工程,2017,3(4):39-47. 被引量：2
9李湘东,阮涛,刘康.基于维基百科的多种类型文献自动分类研究[J].数据分析与知识发现,2017,1(10):43-52. 被引量：11
10曲靖野,陈震,胡轶楠.共词分析与LDA模型分析在文本主题挖掘中的比较研究[J].情报科学,2018,36(2):18-23. 被引量：21

1何丰.XML技术在图书馆中的应用[J].图书馆理论与实践,2005(1):120-121. 被引量：2
2李湘东,曹环,丁丛,黄莉.利用《知网》和领域关键词集扩展方法的短文本分类研究[J].现代图书情报技术,2015(2):31-38. 被引量：17
3江向东.基于Internet和Intranet网络技术的信息处理和图书管理系统[J].中国新通信,1999,0(3):9-13.
4张学港.“Sogou搜狗”的那些事——不借“搜狗”不输网址直达网页[J].少年电脑世界,2010(3):57-57.
5飞翔.拼音输入法，我用SOGOU[J].电脑知识与技术（过刊）,2006(9):25-25.
6菠萝王.高速下载——搜狗高速浏览器体验[J].电脑知识与技术（经验技巧）,2010(8):28-30.
7李湘东,巴志超,黄莉.一种基于加权LDA模型和多粒度的文本特征选择方法[J].现代图书情报技术,2015(5):42-49. 被引量：18
8李哲秀,史玉珍.基于SOA的Web服务在“图书馆2.0”的应用[J].电脑知识与技术,2011,7(6X):4268-4269.
9高瑞.百度、Google、Sogou三种图像搜索引擎功能的比较[J].中国科技信息,2010(18):91-92. 被引量：5
10网路游侠.认识搜狗搜索引擎．认识Sogou Rank[J].黑客防线,2007(8):72-73.

现代图书情报技术

2014年第5期

浏览历史

内容加载中请稍等...

LDA模型下书目信息分类系统的研究与实现被引量：12

参考文献15

二级参考文献88

共引文献241

同被引文献116

引证文献12

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

LDA模型下书目信息分类系统的研究与实现 被引量：12

参考文献15

二级参考文献88

共引文献241

同被引文献116

引证文献12

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

LDA模型下书目信息分类系统的研究与实现被引量：12