摘要
本文基于LDA模型开发设计了的图书馆文献分类系统,对图书馆文献分类系统提出了总体设计思路,安排了整体架构,详细设计了各个环节的处理流程,实现了文本的分词、去除停用词等预处理过程,实现了特征选择、特征权重评分的运算,实现了文本训练、文本分类等功能。将理论研究应用于项目实践。其中,针对语料数据的偏斜问题,本文为每一个数据量偏少的类别单独训练模型,用该类所得模型去生成数据,来补充原始训练数据集。
出处
《图书情报通讯》
2016年第3期13-22,共10页
Library and Information Newsletter