摘要
在科技情报收集过程中,网络信息源来源广泛且数据量庞大,对人工分析造成了巨大的压力。对从网络信息源采集的网页进行文本提取,过滤无关信息,使用主题模型对文本进行主题抽取,对抽取的主题进行可视化分析,提取出与需求相关的主题后对信息源进行分类分析。这一流程增强了信息处理能力,提高了情报收集的效率。
In the process of collecting scientific and technological information,the sources of network information are extensive and the amount of data is huge,which puts great pressure on manual analysis. This study extracts text and filters irrelevant information from web pages crawled from network information sources,and then uses topic model to extract text,then visually analyzes the extracted topics,after extracting the topics related to requirements,and classifies and analyzes the information sources. The processes enhances the information processing capability,and improves the efficiency of information collection.
作者
刘少俊
方延风
LIU Shaojun;FANG Yanfeng
出处
《图书情报导刊》
2019年第3期32-39,共8页
Journal of Library and Information Science
基金
福建省科技计划项目-省属公益类科研院所基本科研专项"台湾科技信息动态监测信息源的挖掘与可视化分析"(项目编号:2018R1008-3)
关键词
科技情报
信息源
主题模型
爬虫
自然语言处理
scientific and technological information
information sources
topic model
crawler
natural language processing