-
题名基于Web的重复属性自动识别方法
- 1
-
-
作者
胡嘉琪
陈群
刘海龙
杜晶
徐曜
李战怀
-
机构
西北工业大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第9期125-128,共4页
-
基金
国家"973"重点基础发展规划基金(No.2012CB316203)
西北工业大学研究生种子基金(No.Z2013125
No.Z2013126)
-
文摘
在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。
-
关键词
重复属性识别
web搜索
摘要
查询探针
-
Keywords
URL
duplicate attribute resolution
web search
snippet
URL
query probe
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于网络搜索引擎的网络话题分析框架
被引量:2
- 2
-
-
作者
王巍
曾剑平
吴承荣
张世永
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第3期257-259,262,共4页
-
文摘
为了解网络话题内容组成和演化情况,提出基于有向图的在线分类(OCBDG)方法,并设计一个基于网络搜索引擎的话题分析框架。通过搜索引擎查询话题内容,OCBDG将查询结果分成若干子话题,分析子话题间的关系和演变。结果证明,该方法能够以大约70%的正确率分析出子话题,并能准确、及时地反映话题在网络上任意时间跨度的变化情况。
-
关键词
有向图
分类
网络搜索引擎
网页摘要
快照
-
Keywords
directed graph
classification
web search engine
web snippet
snapshot
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于RDF句子的语义网文档搜索
被引量:4
- 3
-
-
作者
吴鸿汉
瞿裕忠
李慧颖
-
机构
东南大学计算机科学与工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第2期255-263,共9页
-
基金
国家自然科学基金项目(60773106)
江苏省自然科学基金项目(BK2008290)~~
-
文摘
语义网文档搜索是发现语义网数据的重要手段.针对传统信息检索方法的不足,提出基于RDF句子的文档词向量构建方法.首先,文档被看作RDF句子的集合,从而在文档分析和索引时能够保留基于RDF句子的结构信息.其次,引入资源的权威描述的定义,能够跨越文档边界搜索到语义网中互连的数据.此外,扩展了传统的倒排索引结构,使得系统能够提取出更加便于阅读和理解的片段.在大规模真实数据集上的实验表明,该方法可以显著地提高文档检索的效率,在可用性上具有明显的提升.
-
关键词
语义网
搜索引擎
语义网文档搜索
RDF句子
片段提取
-
Keywords
semantic web
search engine
RDF document search
RDF sentence
snippet generation
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名结合可达性分析的代码片段推荐
- 4
-
-
作者
贾翕
于海波
方璐
-
机构
上海交通大学软件学院
-
出处
《计算机工程》
CAS
CSCD
2014年第11期71-76,共6页
-
文摘
为满足日益复杂的软件需求,开发人员需要通过代码提示工具来辅助完成开发任务,但现有代码提示工具在推荐包含静态方法的代码片段时存在空间爆炸问题。为此,提出一种基于程序环境信息的代码片段推荐方法。结合可达性分析进行推荐能够有效削减静态方法入口点,在避免空间爆炸的同时,还可以准确、有效地描述程序环境信息。基于该方法实现在Eclipse中的代码推荐插件,并对Tomcat源码进行实验验证。实验结果表明,该方法可实现静态方法的代码片段推荐,与Eclipse Code Recommenders插件中的推荐方法相比,能获得更准确的推荐结果。
-
关键词
静态方法
代码片段
语义网规则语言
可达性分析
代码推荐
排序
-
Keywords
static method
code snippet
Semantic web Rule Language ( SWRL )
reachability analysis
code recommendation
ranking
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-