期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于网格分组和属性权值的相似重复记录识别算法 被引量:1
1
作者 杨巧巧 郭振波 王开西 《青岛大学学报(自然科学版)》 CAS 2017年第2期69-73,共5页
针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权... 针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行相似重复记录的识别。理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数据的相似重复记录的识别问题。 展开更多
关键词 网格分组 属性权值 相似记录检测
下载PDF
基于TextRank的网评产品特征提取方法 被引量:3
2
作者 何金金 郭振波 王开西 《青岛大学学报(自然科学版)》 CAS 2018年第1期109-114,共6页
针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用... 针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用word2vec形成词元与词元之间的相似度矩阵;最后将word2vec中获取到的词元之间的相似度作为词语影响力权值,对经典TextRank产品特征提取方法进行改进。实验数据表明,与传统的TextRank产品特征提取方法相比,改进后的方法查准率提高了5%,查全率提高了2.9%,在实际工程中能够有效的提高产品特征提取的准确率。 展开更多
关键词 评论 特征词抽取 TF-IDF Word2vec TextRank
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部