摘要
随着时间推移,COVID-19对人类的影响与日俱增,人们很难迅速找到自己需要的文章,缺少合适的检索工具,浪费大量的时间和精力,文章提出了一种新的检索方法。该方法首先采用线性化归一对文章数据进行预处理,其次使用NLP从每个文档的正文中解释文本,然后使用TF-IDF将每个文档实例转换为特征向量,接着用t-SNE对每个特征向量进行降维,将相似的文章聚集在二维平面中,再使用PCA将数据投影到多个维,采用K-means聚类,最后用LDA建模,从每个聚类中发现关键字,在可视化图形上可视地查找聚类。该方法可以帮助专业人员更容易地筛选出许多与病毒有关的出版物,并快速找到他们需要的文章。
The impact of COVID-19 on mankind is increasing day by day with the passage of time,a new retrieval method is proposed for people who find it hard and fast to find the articles they need,lack of proper retrieval tools,and waste a lot of time and effort.The method firstly preprocesses the article data using linearized normalization pair,secondly interprets the text from the body of each document using NLP,then converts each document instance into a feature vector using TF-IDF,then downscales each feature vector using t-SNE to gather similar articles in a two-dimensional plane,and then projects the data to multiple dimensions using PCA,using K-means clustering,and finally using LDA modeling to discover keywords from each cluster to visually find clusters on a visual graph.This method helps trained professionals more easily sift through the many virus-related publications and quickly find the articles they need.
作者
孙妍
任勇
袁靖飞
Sun Yan;Ren Yong;Yuan Jingfei(School of Applied Technology,Suzhou University,Kunshan 215325,China)
出处
《无线互联科技》
2021年第3期66-67,共2页
Wireless Internet Technology
基金
2018年度江苏省教育厅高校哲学社会科学研究基金项目,项目名称:新工科背景下的软件人才培养研究与探索,项目编号:2018SJA2251
苏州大学应用技术学院第二十二批大学生课外学术科研基金项目,项目编号:KY20200164A。
关键词
自然语言处理
机器学习
PYTHON
epidemic analysis
natural language processing
machine learning
python