期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于知网语义特征扩展的题名信息分类 被引量:6
1
作者 李湘东 刘康 +1 位作者 丁丛 廖香鹏 《图书馆杂志》 CSSCI 北大核心 2017年第2期11-19,共9页
本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训练集中相似度大于某一阈值的特征词扩展到仅有题名作为内容的... 本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训练集中相似度大于某一阈值的特征词扩展到仅有题名作为内容的待分类文本中,最后用SVM算法进行分类。实验结果表明,在训练集与测试集仅为题名的情况下,当训练集为每类200篇时,提升效果最好,达到3.1%,但提升效果随训练集文本数的增加而下降;在训练集为题名加摘要,测试集为题名时,本文提出的分类算法在复旦语料和自建的期刊语料上的Macro_F1分别平均提高1.5%和3.1%,在Micro_F1上分别平均提高2.3%和5.3%。本文通过对特征稀疏的题名信息进行特征扩展,以期提高期刊论文题名的分类效果。 展开更多
关键词 期刊论文题名 短文本分类 知网 LDA
下载PDF
LDA模型下书目信息分类系统的研究与实现 被引量:12
2
作者 李湘东 廖香鹏 黄莉 《现代图书情报技术》 CSSCI 北大核心 2014年第5期18-25,共8页
【目的】改善图书和期刊论文等的书目信息的分类性能。【应用背景】采用传统向量空间模型对图书和期刊论文等书目信息分类的效果不理想,通过LDA模型挖掘文本隐含语义信息,能有效提高分类效果。【方法】通过LDA建模,用隐含主题表示文本... 【目的】改善图书和期刊论文等的书目信息的分类性能。【应用背景】采用传统向量空间模型对图书和期刊论文等书目信息分类的效果不理想,通过LDA模型挖掘文本隐含语义信息,能有效提高分类效果。【方法】通过LDA建模,用隐含主题表示文本并通过分类效果确定最优主题数,在此基础上采用SVM算法分类。【结果】实验表明,在复旦和Sogou公开语料库中的Macro_F1分别达到95.5%和93.5%;在馆藏目录及电子期刊数据库等真实书目数据中的Macro_F1分别达到77.4%和87.6%。【结论】在真实数据上的分类性能比传统向量空间模型分别提高10%和3%,达到实用水平。 展开更多
关键词 LDA模型 文本分类 向量空间模型 GIBBS抽样 SVM
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部