-
题名改进的SNM中文语义重复记录检测算法
被引量:5
- 1
-
-
作者
袁满
穆永豪
王贵友
于再富
-
机构
东北石油大学计算机与信息技术学院
黑龙江省大庆市第十采油厂肇东分公司信息中心
-
出处
《吉林大学学报(信息科学版)》
CAS
2021年第3期348-356,共9页
-
基金
黑龙江省哲学社会科学研究规划基金资助项目(19EDE334)。
-
文摘
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。
-
关键词
相似重复记录
SNM算法
中文分词
-
Keywords
similar duplicate records
sorted-neighborhood method(SNM)algorithm
chinese word segmentation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名化学浅调剖与周期注水结合应用效果分析
- 2
-
-
作者
王贵友
-
机构
黑龙江省大庆市第十采油厂肇东分公司
-
出处
《内蒙古石油化工》
CAS
2015年第3期85-86,共2页
-
文摘
在油田中高含水阶段,找到一种行之有效的办法实现稳油控水尤为重要。周期注水与化学调剖都是解决层内、层间矛盾的有效手段,单一应用各有特点。如果将两项技术结合应用,既可以延续各自调整效果,又能使各自技术特点发挥到最大化,切实缓解井组层间、层内矛盾,控制含水进一步上升,从而达到稳油控水的目标。
-
关键词
周期注水
化学浅调
选择时机
结合应用
-
分类号
TE357.6
[石油与天然气工程—油气田开发工程]
-