摘要
海量语料数据库由于融合质量指数低,应用效果不佳。因此,提出基于CNN算法的海量数据库相似数据融合方法(CNN-MDSF)。深入分析海量数据库数据类型与检索性能,应用Word2vec算法提取在线海量数据库数据特征,结合核函数度量数据之间的相似性,改进卷积神经网络,构建相似数据融合模型,训练相似数据融合模型,分解相似数据集合,实现海量数据库相似数据融合。实验数据表明,CNN-MDSF的最高度量精度为95.00%,最高熵值为19,融合质量指数更接近于1,充分证实了CNN-MDSF的应用效果更佳。
Due to the low fusion quality of massive corpus databases,the application is limited.To address this issue,a CNN algorithm based similarity data fusion method for massive databases(CNN-MDSF)is proposed.Thoroughly analyzing the data types and retrieval performance of massive databases.This paper applies the Word2vec algorithm to extract features of online massive database data,combining kernel functions to measure the similarity between data,improving convolutional neural networks,constructing similar data fusion models,training similar data fusion models,and decomposing similar data sets,similar data fusion in massive databases can be realized.The experimental data shows that the highest measurement accuracy of the CNN-MDSF is 95.00%,the highest entropy value is 19,and the fusion quality index is closer to 1,fully confirming the better performance of the CNN-MDSF.
作者
陶婧
方向
TAO Jing;FANG Xiang(School of Public Administration,Wuhu Institute of Technology,Wuhu Anhui 241003,China)
出处
《长沙大学学报》
2024年第5期26-30,69,共6页
Journal of Changsha University
基金
安徽省教育厅2022年高等学校质量工程项目“商务数据分析与应用传统专业改造升级”(2022zygzsj062)
芜湖职业技术学院2022年项目“BI商务智能科技服务团队”(Wzykytd202211)
2021年芜湖职业技术学院校级项目“中青年骨干教师”(2021ggjs03)。
关键词
卷积神经网络
海量数据库
相似数据
数据融合
相似性度量
convolutional neural network
massive database
similar data
data fusion
similarity measurement