-
题名基于知网语义特征扩展的题名信息分类
被引量:6
- 1
-
-
作者
李湘东
刘康
丁丛
廖香鹏
-
机构
武汉大学信息管理学院
武汉大学信息资源研究中心
-
出处
《图书馆杂志》
CSSCI
北大核心
2017年第2期11-19,共9页
-
基金
社会科学基金项目"多种类型文本数字资源自动分类研究"(项目编号:15BTQ066)的研究成果之一
-
文摘
本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训练集中相似度大于某一阈值的特征词扩展到仅有题名作为内容的待分类文本中,最后用SVM算法进行分类。实验结果表明,在训练集与测试集仅为题名的情况下,当训练集为每类200篇时,提升效果最好,达到3.1%,但提升效果随训练集文本数的增加而下降;在训练集为题名加摘要,测试集为题名时,本文提出的分类算法在复旦语料和自建的期刊语料上的Macro_F1分别平均提高1.5%和3.1%,在Micro_F1上分别平均提高2.3%和5.3%。本文通过对特征稀疏的题名信息进行特征扩展,以期提高期刊论文题名的分类效果。
-
关键词
期刊论文题名
短文本分类
知网
LDA
-
Keywords
Journal title information
Short-text classification
Hownet
LDA
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名LDA模型下书目信息分类系统的研究与实现
被引量:12
- 2
-
-
作者
李湘东
廖香鹏
黄莉
-
机构
武汉大学信息管理学院
武汉大学图书馆
-
出处
《现代图书情报技术》
CSSCI
北大核心
2014年第5期18-25,共8页
-
文摘
【目的】改善图书和期刊论文等的书目信息的分类性能。【应用背景】采用传统向量空间模型对图书和期刊论文等书目信息分类的效果不理想,通过LDA模型挖掘文本隐含语义信息,能有效提高分类效果。【方法】通过LDA建模,用隐含主题表示文本并通过分类效果确定最优主题数,在此基础上采用SVM算法分类。【结果】实验表明,在复旦和Sogou公开语料库中的Macro_F1分别达到95.5%和93.5%;在馆藏目录及电子期刊数据库等真实书目数据中的Macro_F1分别达到77.4%和87.6%。【结论】在真实数据上的分类性能比传统向量空间模型分别提高10%和3%,达到实用水平。
-
关键词
LDA模型
文本分类
向量空间模型
GIBBS抽样
SVM
-
Keywords
Latent Dirichlet Allocation Text categorization Vector Space Model Gibbs sampling Support Vector Machine
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-