期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于Web的重复属性自动识别方法
1
作者 胡嘉琪 陈群 +3 位作者 刘海龙 杜晶 徐曜 李战怀 《计算机工程与应用》 CSCD 北大核心 2015年第9期125-128,共4页
在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。... 在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。 展开更多
关键词 重复属性识别 web搜索 摘要 查询探针
下载PDF
基于网络搜索引擎的网络话题分析框架 被引量:2
2
作者 王巍 曾剑平 +1 位作者 吴承荣 张世永 《计算机工程》 CAS CSCD 北大核心 2009年第3期257-259,262,共4页
为了解网络话题内容组成和演化情况,提出基于有向图的在线分类(OCBDG)方法,并设计一个基于网络搜索引擎的话题分析框架。通过搜索引擎查询话题内容,OCBDG将查询结果分成若干子话题,分析子话题间的关系和演变。结果证明,该方法能够以大约... 为了解网络话题内容组成和演化情况,提出基于有向图的在线分类(OCBDG)方法,并设计一个基于网络搜索引擎的话题分析框架。通过搜索引擎查询话题内容,OCBDG将查询结果分成若干子话题,分析子话题间的关系和演变。结果证明,该方法能够以大约70%的正确率分析出子话题,并能准确、及时地反映话题在网络上任意时间跨度的变化情况。 展开更多
关键词 有向图 分类 网络搜索引擎 网页摘要 快照
下载PDF
基于RDF句子的语义网文档搜索 被引量:4
3
作者 吴鸿汉 瞿裕忠 李慧颖 《计算机研究与发展》 EI CSCD 北大核心 2010年第2期255-263,共9页
语义网文档搜索是发现语义网数据的重要手段.针对传统信息检索方法的不足,提出基于RDF句子的文档词向量构建方法.首先,文档被看作RDF句子的集合,从而在文档分析和索引时能够保留基于RDF句子的结构信息.其次,引入资源的权威描述的定义,... 语义网文档搜索是发现语义网数据的重要手段.针对传统信息检索方法的不足,提出基于RDF句子的文档词向量构建方法.首先,文档被看作RDF句子的集合,从而在文档分析和索引时能够保留基于RDF句子的结构信息.其次,引入资源的权威描述的定义,能够跨越文档边界搜索到语义网中互连的数据.此外,扩展了传统的倒排索引结构,使得系统能够提取出更加便于阅读和理解的片段.在大规模真实数据集上的实验表明,该方法可以显著地提高文档检索的效率,在可用性上具有明显的提升. 展开更多
关键词 语义网 搜索引擎 语义网文档搜索 RDF句子 片段提取
下载PDF
结合可达性分析的代码片段推荐
4
作者 贾翕 于海波 方璐 《计算机工程》 CAS CSCD 2014年第11期71-76,共6页
为满足日益复杂的软件需求,开发人员需要通过代码提示工具来辅助完成开发任务,但现有代码提示工具在推荐包含静态方法的代码片段时存在空间爆炸问题。为此,提出一种基于程序环境信息的代码片段推荐方法。结合可达性分析进行推荐能够有... 为满足日益复杂的软件需求,开发人员需要通过代码提示工具来辅助完成开发任务,但现有代码提示工具在推荐包含静态方法的代码片段时存在空间爆炸问题。为此,提出一种基于程序环境信息的代码片段推荐方法。结合可达性分析进行推荐能够有效削减静态方法入口点,在避免空间爆炸的同时,还可以准确、有效地描述程序环境信息。基于该方法实现在Eclipse中的代码推荐插件,并对Tomcat源码进行实验验证。实验结果表明,该方法可实现静态方法的代码片段推荐,与Eclipse Code Recommenders插件中的推荐方法相比,能获得更准确的推荐结果。 展开更多
关键词 静态方法 代码片段 语义网规则语言 可达性分析 代码推荐 排序
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部