摘要
为从DBLP数据集中挖掘出作者研究兴趣,提出了基于DBLP数据集中有效信息的作者研究兴趣挖掘模型,主要是利用了数据集中作者姓名和论文题目进行研究兴趣的挖掘。因为DBLP数据集的元数据以XML格式存储,因此采用SAX解析器对其进行解析。解析出有用信息后,提出了一种基于索引的数据存储方式。由于作者研究兴趣词汇主要来自数据集中论文的题目,因此将题目划分短语后,根据短语的重要度,确定专家的研究兴趣词汇。经实验表明,该系统的运行速度较快,能较好地提取出作者的研究兴趣信息。
出处
《电脑知识与技术》
2022年第27期9-11,15,共4页
Computer Knowledge and Technology
基金
辽宁省教育厅基金(lnqn202015)。