-
题名基于网格分组和属性权值的相似重复记录识别算法
被引量:1
- 1
-
-
作者
杨巧巧
郭振波
王开西
-
机构
青岛大学数据科学与软件工程学院
青岛大学青岛大学计算机科学技术学院
-
出处
《青岛大学学报(自然科学版)》
CAS
2017年第2期69-73,共5页
-
文摘
针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行相似重复记录的识别。理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数据的相似重复记录的识别问题。
-
关键词
网格分组
属性权值
相似记录检测
-
Keywords
grid-based grouping
attribute weights
approximately duplicate records detection
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于TextRank的网评产品特征提取方法
被引量:3
- 2
-
-
作者
何金金
郭振波
王开西
-
机构
青岛大学数据科学与软件工程学院
青岛大学青岛大学计算机科学技术学院
-
出处
《青岛大学学报(自然科学版)》
CAS
2018年第1期109-114,共6页
-
文摘
针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用word2vec形成词元与词元之间的相似度矩阵;最后将word2vec中获取到的词元之间的相似度作为词语影响力权值,对经典TextRank产品特征提取方法进行改进。实验数据表明,与传统的TextRank产品特征提取方法相比,改进后的方法查准率提高了5%,查全率提高了2.9%,在实际工程中能够有效的提高产品特征提取的准确率。
-
关键词
评论
特征词抽取
TF-IDF
Word2vec
TextRank
-
Keywords
comments
fe a ture e x t ra c t ion
TF -IDF
Word 2 v e c
T e x tR an k
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-