期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于多示例学习技术的Web目录页面链接推荐 被引量:6
1
作者 薛晓冰 韩洁凌 +1 位作者 姜远 周志华 《计算机研究与发展》 EI CSCD 北大核心 2007年第3期406-411,共6页
在Web目录页面中,向用户推荐其感兴趣的链接有助于用户高效地访问网络资源.然而,用户往往不愿花费很多时间来标记训练样本,其提供的数据可能只能说明某个目录网页是否包含其感兴趣的内容,而不能明确标示出其感兴趣的具体链接.由于训练... 在Web目录页面中,向用户推荐其感兴趣的链接有助于用户高效地访问网络资源.然而,用户往往不愿花费很多时间来标记训练样本,其提供的数据可能只能说明某个目录网页是否包含其感兴趣的内容,而不能明确标示出其感兴趣的具体链接.由于训练数据中缺乏对链接的标记,但预测时却需要找出用户感兴趣的链接,这就使得Web目录页面链接推荐问题相当困难.CkNN-ROI算法被提出用于解决该问题.实验表明,CkNN-ROI算法在解决这一困难的链接推荐问题上比其他一些算法更为有效. 展开更多
关键词 多示例学习 机器学习 数据挖掘 web挖掘 链接推荐 web目录页面
下载PDF
高性能网页索引器JU_Indexer的实现 被引量:4
2
作者 赫枫龄 左万利 张雪松 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2006年第1期50-56,共7页
高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据,以多线程并行的方式对网页建立索引数据,采用经过优化的检索算法实现用户的查询.首先给出了JU_Indexer的系统框架,然后描述了索引数据在JU_Indexer中的存储结构、建立网页索引... 高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据,以多线程并行的方式对网页建立索引数据,采用经过优化的检索算法实现用户的查询.首先给出了JU_Indexer的系统框架,然后描述了索引数据在JU_Indexer中的存储结构、建立网页索引的算法、以及实现用户查询的检索算法.实验结果表明,JU_Indexer能在毫秒级的时间内完成用户的查询,它采用的经过优化的词组检索算法缩短了词组的检索时间. 展开更多
关键词 web网页 网络搜索引擎 网页索引器
下载PDF
基于Web的模具材料选择与应用系统的研究 被引量:2
3
作者 郭幼丹 王罡 《电加工与模具》 2008年第B04期50-52,56,共4页
模具材料选择不当会造成模具失效,根据其失效机理建立模具材料失效抗力指标体系,应用CAE分析软件和网络数据库技术,开发了基于Web的模具材料选择与应用系统,对该系统模具设计中材料的选择有积极的作用。
关键词 模具材料 抗力指标 失效 web表单 ASP.NET页面
下载PDF
中文网页标引源主题表达能力的调查统计 被引量:29
4
作者 丁璇 侯汉清 章成志 《大学图书馆学报》 CSSCI 北大核心 2002年第6期70-72,共3页
通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,... 通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,以便为自动标引及人工智能搜索引擎的研制提供数据。 展开更多
关键词 标引源 主题表达能力 汉语 网页 主题标引 加权 自动标引 调查
下载PDF
一种WWW搜索引擎的设计与实现 被引量:4
5
作者 陈敏 曹阳 刘翀 《计算机工程与应用》 CSCD 北大核心 2002年第7期148-150,共3页
随着Internet在我国的迅速发展和WWW信息的不断增长,迫切需要开发中英文兼容的WWW搜索引擎来获得所需的信息。该文在分析WWW搜索引擎主要功能模块:信息采集模块、信息预处理模块和信息查询模块的基础上,提出采用人工智能搜索算法来遍历... 随着Internet在我国的迅速发展和WWW信息的不断增长,迫切需要开发中英文兼容的WWW搜索引擎来获得所需的信息。该文在分析WWW搜索引擎主要功能模块:信息采集模块、信息预处理模块和信息查询模块的基础上,提出采用人工智能搜索算法来遍历网页,对中英文网页进行自动的索引,并用向量空间的表示方法来表示网页内容和用户输入的查询表达式。实践证明,使用该搜索引擎,可以快速准确地搜索到用户所需的信息。 展开更多
关键词 搜索引擎 网页 索引 关键词 信息采集 人工智能 WWW INTERNET
下载PDF
基于UCL的网页自动标引技术 被引量:6
6
作者 邢玲 史杏荣 《计算机工程与应用》 CSCD 北大核心 2004年第17期148-151,共4页
UCL(UniformContentLocator)是作者、编者和读者进行语义沟通的工具,是进行信息快速选择、智能代理和信息主动服务的基础。该文针对网络信息检索中的自动标引问题,提出了一种基于UCL的网页自动标引技术。研究了从HTML编写的网页映射到XM... UCL(UniformContentLocator)是作者、编者和读者进行语义沟通的工具,是进行信息快速选择、智能代理和信息主动服务的基础。该文针对网络信息检索中的自动标引问题,提出了一种基于UCL的网页自动标引技术。研究了从HTML编写的网页映射到XML文档的过程,并从中提取符合用户兴趣模型的UCL字段,从而达到网页自动标引的目的。实验验证了理论方案的正确性和有效性。 展开更多
关键词 自动标引 UCL XML网页 用户兴趣模型
下载PDF
基于CHAMELEON算法构建自适应网站研究 被引量:1
7
作者 骆正山 毋建宏 王小完 《微电子学与计算机》 CSCD 北大核心 2005年第3期259-261,265,共4页
本文把CH A M ELEON算法应用于自适应网站的设计中,通过对算法的分析具体给出了算法在聚类过程中的实现细节,并按数据挖掘的过程对自适应W eb站点设计中的关键问题进行了研究。经试验验证,效果明显优于其它算法。
关键词 CHAMELEON算法 自适应网站 聚类 索引页面
下载PDF
学科门户智能搜索引擎的设计与构建——农业史门户搜索引擎的实验 被引量:2
8
作者 刘竟 侯汉清 《情报学报》 CSSCI 北大核心 2009年第1期114-120,共7页
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议——在经过学科专家筛选的、学科信息门户目录中的高质量网站中自... 面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议——在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找。文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论。 展开更多
关键词 智能学科门户搜索引擎 网页自动标引 网页自动分类 类别词知识库
下载PDF
网络舆情中的信息预处理与自动摘要算法 被引量:8
9
作者 廉捷 刘云 《北京交通大学学报》 CAS CSCD 北大核心 2010年第5期94-99,共6页
提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准... 提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法. 展开更多
关键词 自动摘要 网页预处理 信息抽取 倒排索引 网络舆情
下载PDF
CCDet:一种高效的大规模中文重复网页检测方法 被引量:4
10
作者 韦永壮 袁春风 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期140-152,共13页
重复文档检测是信息检索领域中一个非常重要的问题.由于网页结构和内容的复杂性,现有方法在网页查重上没有达到很好的准确性,且只有少量工作用于处理包含关系网页检测问题;同时,由于网页数量的巨大,重复网页检测处理时需要考虑大规模数... 重复文档检测是信息检索领域中一个非常重要的问题.由于网页结构和内容的复杂性,现有方法在网页查重上没有达到很好的准确性,且只有少量工作用于处理包含关系网页检测问题;同时,由于网页数量的巨大,重复网页检测处理时需要考虑大规模数据的并行化算法.提出一种基于句号特征的大规模重复中文网页检测方法CCDet.CCDet采用了一种基于中文句号特征来完成重复文档的相似性比对方法,与现有的主要重复网页检测算法相比,CCDet大幅提高了检测具有重复关系网页和具有包含关系网页的准确性,并拥有较高的检测效率.同时,为了适应大规模新闻网页的查重处理,使用MapReduce编程框架实现了并行化的CCDet算法,使之能够并行化地进行重复网页检测.实验结果表明,并行化的CCDet算法具有较好的检测效果和计算性能,并具有良好的可扩展性. 展开更多
关键词 CCDet算法 重复网页检测 中文句号特征 索引剪切
下载PDF
一种区分索引与信息的网页分类数学模型及证明
11
作者 王树西 夏增艳 《计算机科学》 CSCD 北大核心 2014年第B11期307-312,共6页
综述了网页分类的国内外研究现状,分析了网页分类的核心技术,包括思想、算法、公式、评测标准。为了打击非法网络传销,必须对传销网页进行准确识别与分类。根据网页中"最大内容段"的长度,计算出这个网页为"信息网页"... 综述了网页分类的国内外研究现状,分析了网页分类的核心技术,包括思想、算法、公式、评测标准。为了打击非法网络传销,必须对传销网页进行准确识别与分类。根据网页中"最大内容段"的长度,计算出这个网页为"信息网页"的概率,通过严格的数学公式推导得到数学模型。本数学模型已经得到应用,"网络传销国家监控中心"用这个模型有效地对网络传销网页集合进行了分类。 展开更多
关键词 网页分类 索引页面 信息页面 网络传销 网络传销国家监控中心
下载PDF
基于知识库的网页自动标引和自动分类系统的设计 被引量:37
12
作者 侯汉清 薛鹏军 《大学图书馆学报》 CSSCI 北大核心 2004年第1期50-55,64,共7页
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库... 针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 展开更多
关键词 知识库 网页标引 自动标引 自动分类系统 概念语义网络
下载PDF
基于Lucene的中文全文检索系统的研究与设计 被引量:6
13
作者 索红光 孙鑫 《计算机工程与设计》 CSCD 北大核心 2008年第19期5083-5086,共4页
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使... 提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。 展开更多
关键词 全文检索 网页正文提取 中文分词模块 索引文档预处理 文本聚类
下载PDF
基于内容的中文网页自动分类研究 被引量:5
14
作者 张义忠 赵明生 朱精南 《信息与控制》 CSCD 北大核心 2001年第5期408-412,共5页
本文主要介绍基于内容的网页自动分类系统 ,具体介绍了类别词典的建造方法 ,网页超文本类别词切分的方法 ,中文网页自动分类算法以及利用类别词与网页间的模糊关系对网页文本进行自动分类等内容 .通过对旅游网页进行测试 ,自动分类正确... 本文主要介绍基于内容的网页自动分类系统 ,具体介绍了类别词典的建造方法 ,网页超文本类别词切分的方法 ,中文网页自动分类算法以及利用类别词与网页间的模糊关系对网页文本进行自动分类等内容 .通过对旅游网页进行测试 ,自动分类正确率可达 93.37%以上 。 展开更多
关键词 自动分类 信息检索 中文网页 计算机网络
下载PDF
大规模中文搜索引擎的架构和设计技术 被引量:5
15
作者 王剑 邵志清 《计算机科学》 CSCD 北大核心 2002年第1期26-29,共4页
信息检索技术已经发展了多年.然而,随着WWw的发展,网络信息空前膨胀.据2000年2月份统计,可索引的网页己达到10亿,而且每天以几百万速度递增.2000年6月份,索引的网页达到20亿[1].
关键词 计算机网络 中文搜索引擎 设计 网页 信息检索
下载PDF
一个预测网页变化的增量式更新模型 被引量:2
16
作者 王大伟 张岩 +1 位作者 曾皓 潘延辉 《微计算机信息》 2009年第6期153-154,130,共3页
为了提高网络爬虫的效率,作者针对互联网中的大量格式良好,页面中链接更新频率高的网页,分析这类网页在互联网中发现新信息的重要性,重新定义了网页变化的概念,利用Possion过程和Markov更新过程设计了一种高效监测这类网页中的链接变化... 为了提高网络爬虫的效率,作者针对互联网中的大量格式良好,页面中链接更新频率高的网页,分析这类网页在互联网中发现新信息的重要性,重新定义了网页变化的概念,利用Possion过程和Markov更新过程设计了一种高效监测这类网页中的链接变化情况的模型,并用实验证明了这种模型的有效性。 展开更多
关键词 单一index型网页 网页变化 POISSON过程 Markov排队过程
下载PDF
基于XML文档的藏文网页倒排索引的研究与实现 被引量:1
17
作者 扎西拉旦 安见才让 《软件工程》 2017年第6期12-14,共3页
如今互联网上藏文信息也不断的扩充,藏文搜索引擎作为常用的信息检索的工具和渠道,倒排索引又是搜索引擎的核心技术之一,倒排索引直接影响搜索引擎检索的结果和响应的速度。之所以文章详细介绍了一个自主开发的藏文网页倒排索引系统,它... 如今互联网上藏文信息也不断的扩充,藏文搜索引擎作为常用的信息检索的工具和渠道,倒排索引又是搜索引擎的核心技术之一,倒排索引直接影响搜索引擎检索的结果和响应的速度。之所以文章详细介绍了一个自主开发的藏文网页倒排索引系统,它以XML文档的标签内容作为索引对象,定义了文档和文档属性等概念,采用C#语言对文藏文网页正文构建倒排索引的关键技术和实现方法进一步的阐述,实现了基于XML文档的藏文网页倒排索引数据库的底层实现,提供了技术参考。利用这种方法藏文搜索引擎中信息检索的速度和准确率有所提高。 展开更多
关键词 XML 藏文网页 倒排索引
下载PDF
网页相关性眼动反馈指标研究 被引量:3
18
作者 何芳 《情报理论与实践》 CSSCI 北大核心 2019年第2期164-168,共5页
用户对网页内容的评估结果,是了解用户信息需求的抓手。信息服务向智能化、个性化方向发展,要求挖掘用户搜索行为规律,自动识别相关网页。眼动数据直接反映阅读状态,具有与心理活动联系密切的特点,国(境)外将其作为相关性反馈数据,经过... 用户对网页内容的评估结果,是了解用户信息需求的抓手。信息服务向智能化、个性化方向发展,要求挖掘用户搜索行为规律,自动识别相关网页。眼动数据直接反映阅读状态,具有与心理活动联系密切的特点,国(境)外将其作为相关性反馈数据,经过十余年研究积累了一些成果,但简单指标效果不稳定、复合指标计算烦琐,目前尚无自然搜索环境下可投入使用的眼动指标。文章基于既有指标导出新复合指标,并以疾病自诊为实验背景进行了验证。结果显示,跳视/注视比(ScFi)反馈效果良好,配合连贯阅读注视点数这一指标使用,判别正确率可达95.6%,当前样本情况下,两个指标阈值分别为0.187、30。 展开更多
关键词 网页相关性 眼动指标 隐性反馈 跳视/注视比 信息搜索
原文传递
垂直搜索引擎关键技术
19
作者 杨晓夫 《中文科技期刊数据库(文摘版)自然科学》 2015年第4期240-240,共1页
随着互联网技术的高速发展近年来WEB网页呈指数级增长,面对人们迫切获取主题信息的需求,垂直搜索引擎应运而生。本文根据国内外研究现状着重分析了垂直搜索引擎主题爬虫、索引器、检索器等关键技术。
关键词 网页 主题 索引器 检索器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部