期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
基于内容的网页特征提取 被引量:9
1
作者 张义忠 赵明生 朱精南 《计算机工程与应用》 CSCD 北大核心 2001年第10期1-3,共3页
文章主要研究基于内容的中文网页的特征提取技术,具体介绍了分词词典的建造方法,网页正文、标记信息和超链信息的特征提取。通过对旅游类网页的实验结果显示,文中的方法和应用效果良好。
关键词 网页特征提取 信息检索 数据库 信息资源 知识库
下载PDF
面向个性化服务的网页特征描述 被引量:3
2
作者 王术 付关友 朱征宇 《计算机工程与设计》 CSCD 北大核心 2005年第3期651-653,659,共4页
个性化服务研究核心点在于准确描述用户兴趣,即对用户访问过并感兴趣的网页进行准确描述。现今对网页特征描述方法还未有系统的研究。针对网页特征描述中涉及的特征抽取范围、特征词规范化及词语权重计算3方面内容进行了分析研究,将改... 个性化服务研究核心点在于准确描述用户兴趣,即对用户访问过并感兴趣的网页进行准确描述。现今对网页特征描述方法还未有系统的研究。针对网页特征描述中涉及的特征抽取范围、特征词规范化及词语权重计算3方面内容进行了分析研究,将改进后的新方法应用于个性化服务系统时取得了较好的信息推荐效果。 展开更多
关键词 网页特征 特征抽取 个性化服务系统 描述方法 用户访问 特征 推荐 兴趣 准确 信息
下载PDF
个性化搜索引擎中网页特征描述的研究 被引量:2
3
作者 韩立毛 鞠时光 羊晶璟 《计算机工程与应用》 CSCD 北大核心 2011年第11期94-97,共4页
为了对用户访问过并感兴趣的网页进行准确描述,分析了对网页特征描述中涉及到的特征抽取范围以及特征词权重计算方法。根据"主题相关词非线性加权的方法"提出了一种改进特征词权重计算的方法,该方法不仅考虑了出现在标题中的... 为了对用户访问过并感兴趣的网页进行准确描述,分析了对网页特征描述中涉及到的特征抽取范围以及特征词权重计算方法。根据"主题相关词非线性加权的方法"提出了一种改进特征词权重计算的方法,该方法不仅考虑了出现在标题中的特征词的重要性,而且利用非线性函数对特征词出现频率的处理思想,使得权重的计算更加准确。使用改进的特征权重计算方法提高了网页特征描述的准确性,从而提高了用户个性化搜索的效率。 展开更多
关键词 个性化搜索 网页特征 权重计算 特征 非线性函数
下载PDF
基于网页特征的TFIDF改进算法 被引量:9
4
作者 宋斌 方小璐 《微计算机应用》 2002年第1期18-20,共3页
本文分析了传统的TFIDF算法。提出了一种改进的TFIDF算法,将提取到的网页特征加入传统的TFIDF算法,从而更为准确地抽取网页中的重要文字。
关键词 权重 网页标记 网页特征 IFIDF算法 计算机网络
下载PDF
色情网页特征提取技术刍议
5
作者 吕宏伟 程鹏 周昊 《信息网络安全》 2007年第10期40-41,共2页
为构建网页内容自动过滤系统,封锁色情网页,通过统计和分析,本文提出采取色情网页特征提取技术是十分有效的手段。据调查表明,与色情有关的诸如"性"、"色情书刊"一类的内容高居于网络点击率和搜索率的前20位。更有... 为构建网页内容自动过滤系统,封锁色情网页,通过统计和分析,本文提出采取色情网页特征提取技术是十分有效的手段。据调查表明,与色情有关的诸如"性"、"色情书刊"一类的内容高居于网络点击率和搜索率的前20位。更有研究显示色情内容容易让人上瘾并将导致严重的负面影响。此外,色情网页特征提取技术的基本框架也适用于过滤网上除色情以外的其它不益内容。 展开更多
关键词 网页特征 提取技术 色情 自动过滤系统 网页内容 调查表 过滤网 封锁
下载PDF
基于扩展锚文本的网页特征识别
6
作者 严海兵 《苏州科技学院学报(自然科学版)》 CAS 2009年第2期51-54,共4页
基于源网页的信息比目标网页的更具有区别性,提出通过提取源网页扩展的锚文本,进行目标网页特征识别。分析了不同位置的扩展锚文本,获取其XPath表达式,用于提取网页特征,并通过实验分析其性能。
关键词 网页特征 锚文本 XPATH
下载PDF
钓鱼网页特征向量提取方法研究
7
作者 司响 李秋锐 宋士超 《信息网络安全》 2011年第9期201-203,共3页
随着电子商务和在线交易的增加,网络钓鱼已经成为最严重的一种网络犯罪形式。文章从网页中包含的超链接这一角度出发,给出了网页的身份特征,并结合网页ICP号,版权所有者以及网页行为等对网页特征进行了提取,得到了钓鱼网页的特征向量,... 随着电子商务和在线交易的增加,网络钓鱼已经成为最严重的一种网络犯罪形式。文章从网页中包含的超链接这一角度出发,给出了网页的身份特征,并结合网页ICP号,版权所有者以及网页行为等对网页特征进行了提取,得到了钓鱼网页的特征向量,为及时准确检测钓鱼网页提供了依据。 展开更多
关键词 钓鱼网页 网页特征 特征向量
下载PDF
基于特征码的网页去重 被引量:11
8
作者 陈基漓 牛秦洲 《微计算机信息》 北大核心 2006年第03X期113-115,共3页
网页去重处理是提高检索质量的有效途径,本文给出了一个基于特征码的网页去重算法,介绍了算法的具体实现步骤,采用二叉排序树实现。算法有较高的判断正确率,在信息检索中有较好的应用前景。
关键词 网页去重 网页特征 二叉排序树
下载PDF
中文学术文献网页的特征 被引量:2
9
作者 邹永利 林智昊 《图书馆论坛》 CSSCI 北大核心 2011年第6期178-185,共8页
互联网上免费的中文学术资源数量庞大,但实用的专门检索工具仍然或缺。文章以网络中文学术文献的识别与检索为目标,调查分析网络学术文献网页的特征,并以非学术文献网页作为参照,验证所发现特征的可靠性。研究结果显示,学术文献网页在... 互联网上免费的中文学术资源数量庞大,但实用的专门检索工具仍然或缺。文章以网络中文学术文献的识别与检索为目标,调查分析网络学术文献网页的特征,并以非学术文献网页作为参照,验证所发现特征的可靠性。研究结果显示,学术文献网页在关键词词频、链接数量和相关链接比例等特征方面与非学术文献网页具有明显差别,差异程度都大于75%,属于程度明显,能较好地用于区分学术文献网页与非学术文献网页,为今后系统开发学术文献网页的自动化识别工具提供了依据和理论支持。 展开更多
关键词 网络文献 学术文献 网页特征 信息检索
下载PDF
基于特征融合和机器学习的恶意网页识别研究 被引量:4
10
作者 魏旭 成卫青 《南京邮电大学学报(自然科学版)》 北大核心 2019年第5期95-104,共10页
互联网高速发展的同时催生了众多恶意网页。恶意网页是指侵犯用户安全,包括个人隐私和财产等安全的网页。文中基于对若干恶意网页的传统网页特征:网页URL、JavaScript代码和HTML代码的分析,定义了若干特征用于恶意网页识别;提出了若干基... 互联网高速发展的同时催生了众多恶意网页。恶意网页是指侵犯用户安全,包括个人隐私和财产等安全的网页。文中基于对若干恶意网页的传统网页特征:网页URL、JavaScript代码和HTML代码的分析,定义了若干特征用于恶意网页识别;提出了若干基于HTTP请求信息的特征;并提出了一个基于特征融合和机器学习的恶意网页识别方法,将HTTP请求特征与传统网页特征相融合,再利用机器学习分类算法构建网页分类模型区分正常和恶意网页。从Alexa选取500个正常网页,从PhishTank和Malwaredomains中共选取500个网页作为恶意网页构建数据集,训练网页分类模型。通过实验验证了基于URL特征、网页代码特征和HTTP请求特征的方法优于不使用HTTP请求特征的方法,并且发现随机森林分类算法更适用于恶意网页识别。 展开更多
关键词 恶意网页 网页安全 网页特征 HTTP请求 机器学习
下载PDF
基于特征相似度计算的网页包装器自适应 被引量:1
11
作者 陈迎仁 郭莹楠 +2 位作者 郭享 倪一涛 陈星 《计算机科学》 CSCD 北大核心 2021年第S02期218-224,257,共8页
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加... 随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。 展开更多
关键词 网页数据抽取 自适应 包装器 相似度计算 网页特征
下载PDF
基于视觉特征的网页最优分割算法 被引量:3
12
作者 李文昊 彭红超 +1 位作者 童名文 石俊杰 《计算机科学》 CSCD 北大核心 2015年第11期284-287,309,共5页
网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-base... 网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-based Web Optimal Segmentation)。考虑到视觉特征和网页结构,将网页构造为加权无向连通图,网页分割转化为图的最优划分,基于Kruskal算法并结合网页分割的过程,设计网页分割算法VWOS。实验证明,与VIPS相比,采用VWOS算法分割网页的语义完整性更好,且不需要人工参与。 展开更多
关键词 网页最优分割 网页视觉特征 网页自适应呈现 最优划分
下载PDF
基于匈牙利匹配算法的钓鱼网页检测方法 被引量:15
13
作者 张卫丰 周毓明 +1 位作者 许蕾 徐宝文 《计算机学报》 EI CSCD 北大核心 2010年第10期1963-1975,共13页
如何快速有效地计算网页的相似性是发现钓鱼网页的关键.现有的钓鱼网页检测方法在检测效果上依然存在较大的提升空间.文中提出基于匈牙利匹配的钓鱼网页检测模型,该模型首先提取渲染后网页的文本特征签名、图像特征签名以及网页整体特... 如何快速有效地计算网页的相似性是发现钓鱼网页的关键.现有的钓鱼网页检测方法在检测效果上依然存在较大的提升空间.文中提出基于匈牙利匹配的钓鱼网页检测模型,该模型首先提取渲染后网页的文本特征签名、图像特征签名以及网页整体特征签名,比较全面地刻画了网页访问后的特征;然后通过匈牙利算法计算二分图的最佳匹配来寻找不同网页签名之间匹配的特征对,在此基础上能够更加客观地度量网页之间的相似性,从而提高钓鱼网页的检测效果.一系列的仿真实验表明文中方法可行,并具有较高的准确率和召回率. 展开更多
关键词 钓鱼网页 网页特征 匈牙利匹配算法 相似性 网页签名
下载PDF
基于百度指数的网页用户关注度研究 被引量:13
14
作者 王洪伟 张艺伟 《情报学报》 CSSCI 北大核心 2012年第8期837-845,共9页
针对海量的互联网信息,提出一种计算网页理论用户关注度的方法,以期提高网络信息搜索的效率,改进搜索排名的准确性。本文以中文论坛的新闻网页为研究对象,利用百度指数提供的用户搜索信息,通过正文抽取、特征项提取、关注度计算等... 针对海量的互联网信息,提出一种计算网页理论用户关注度的方法,以期提高网络信息搜索的效率,改进搜索排名的准确性。本文以中文论坛的新闻网页为研究对象,利用百度指数提供的用户搜索信息,通过正文抽取、特征项提取、关注度计算等步骤,实现面向内容分析的网页理论用户关注度的计算,最后对150条网页进行实验和回归分析。结果表明,特征词提取的最佳个数为3,理论用户关注度与实际用户关注度(点击量)的相关系数达0.8以上,说明该方法具有一定的准确性。 展开更多
关键词 用户关注度 百度指数 网页特征 回归分析
下载PDF
结构和内容联合提取的XML网页分类研究 被引量:2
15
作者 阎红灿 李敏强 +1 位作者 任蕴丽 阎少宏 《天津大学学报(社会科学版)》 CSSCI 2009年第3期272-276,共5页
针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提取XML网页特征矩阵,分别就结构、... 针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提取XML网页特征矩阵,分别就结构、内容联合提取三种情况进行分类测试,通过ROSSETA系统,利用粗糙集优越的属性约简构造文本分类系统,实现XML文档分类。实验表明,该方法分类准确度较高,计算量较小。 展开更多
关键词 XML网页分类 频繁结构层次空间模型 联合特征提取 粗糙集 网页特征矩阵
下载PDF
基于文本相似度的网页消重策略 被引量:6
16
作者 刘书一 《计算机应用与软件》 CSCD 2011年第11期228-229,278,共3页
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基... 针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基础上得到网页的相似度。经与相似方法比较,结果表明,该方法减少了时间复杂度,具有较高的查全率和查准率,适于大规模网页消重。 展开更多
关键词 网页消重 网页特征 文本相似度 编辑距离
下载PDF
基于属性agent模型的新闻信息网页筛选技术
17
作者 胡军 杨先芬 +1 位作者 刘喜亮 黄慎 《计算机应用研究》 CSCD 北大核心 2009年第5期1760-1763,共4页
随着人工智能技术的不断发展和复杂动态系统建模手段的不断完善,agent技术因其自主性、反应性、预动性等特点和在协作、推理及规划方面的优势,使其对非结构性的决策与不确定性的推理有很强的刻画能力,能很好地解决一些非数学模型的动态... 随着人工智能技术的不断发展和复杂动态系统建模手段的不断完善,agent技术因其自主性、反应性、预动性等特点和在协作、推理及规划方面的优势,使其对非结构性的决策与不确定性的推理有很强的刻画能力,能很好地解决一些非数学模型的动态推理与筛选特征事件为基础的问题,从而为人们解决类似的问题提供非常好的新途径。从构建的属性agent模型出发,利用网页筛选技术的风格特征:HTML标签、URL字符、文本内容和视觉效果等获取风格特征的属性值,从而构建新的风格决策树模式,提高网页识别、筛选的精度。实验表明,该技术能提高网页筛选的精度。 展开更多
关键词 属性agent 网页特征风格 决策树
下载PDF
一种基于文本抽取的网页正文去重算法 被引量:1
18
作者 曹传东 郭理 《科技信息》 2009年第1期102-103,共2页
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于... 搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。 展开更多
关键词 文本抽取 网页特征 二叉排序树 网页去重
下载PDF
利用关键词倒排表实时检索中文网页 被引量:4
19
作者 王远定 梁久祯 《计算机工程与应用》 CSCD 北大核心 2010年第28期135-137,159,共4页
研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根... 研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根据关键词在所有网页中出现的频率统计生成关键词倒排文件。实验中,通过对比访问网页库、特征表和倒排文件三种不同的数据来源,分别实现了中文网页的关键词检索,比较了三种数据源检索的实时性。实验表明,基于关键词的倒排表检索算法大大优于其他两种方法,具有很好的实时性。 展开更多
关键词 检索 网页特征 倒排文件 实时性
下载PDF
基于兴趣网页的个性化词典的研究与设计
20
作者 李力沛 罗颖 《电脑知识与技术(过刊)》 2012年第10X期6992-6995,共4页
在基于用户浏览历史的个性化服务中,网页特征提取和兴趣建模通常是基于传统全局词典进行的,但是传统全局词典容易向网页特征里引入较多的噪声数据。因此有必要采用个性化词典替换传统全局词典。针对目前个性化词典的建立无法自动获取用... 在基于用户浏览历史的个性化服务中,网页特征提取和兴趣建模通常是基于传统全局词典进行的,但是传统全局词典容易向网页特征里引入较多的噪声数据。因此有必要采用个性化词典替换传统全局词典。针对目前个性化词典的建立无法自动获取用户兴趣网页以及缺乏网页预处理的缺点,介绍了一种基于兴趣网页的个性化词典UPDBIWP,其特点是引入基于浏览行为量化分析的兴趣网页自动捕获技术和基于超链接的网页正文提取技术,使个性化词典的建立更加智能化和自动化。通过实验验证UPDBIWP对用户的兴趣点和兴趣偏好的描述更准确。 展开更多
关键词 兴趣网页 超链接 个性化词典 网页特征提取 兴趣建模
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部