-
题名基于内容的网页特征提取
被引量:9
- 1
-
-
作者
张义忠
赵明生
朱精南
-
机构
清华大学电子工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2001年第10期1-3,共3页
-
基金
国家自然科学基金!(编号:60003014)
国家863高技术项目!(编号:863-317-01-06-99)
清华大学985
-
文摘
文章主要研究基于内容的中文网页的特征提取技术,具体介绍了分词词典的建造方法,网页正文、标记信息和超链信息的特征提取。通过对旅游类网页的实验结果显示,文中的方法和应用效果良好。
-
关键词
网页特征提取
信息检索
数据库
信息资源
知识库
-
Keywords
in the dictionary are these words that represent the contents and concepts of a certain web pages. Then,feature extraction methods for text,tag information and hyperlink information are addressed.Experiments have shown that the proposed methods
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
-
-
题名面向个性化服务的网页特征描述
被引量:3
- 2
-
-
作者
王术
付关友
朱征宇
-
机构
重庆大学计算机学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2005年第3期651-653,659,共4页
-
基金
重庆大学骨干教师基金项目(2003A33)
-
文摘
个性化服务研究核心点在于准确描述用户兴趣,即对用户访问过并感兴趣的网页进行准确描述。现今对网页特征描述方法还未有系统的研究。针对网页特征描述中涉及的特征抽取范围、特征词规范化及词语权重计算3方面内容进行了分析研究,将改进后的新方法应用于个性化服务系统时取得了较好的信息推荐效果。
-
关键词
网页特征
特征抽取
个性化服务系统
描述方法
用户访问
特征词
推荐
兴趣
准确
信息
-
Keywords
describe character
web page
standardization
term-weighing
personalization
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名个性化搜索引擎中网页特征描述的研究
被引量:2
- 3
-
-
作者
韩立毛
鞠时光
羊晶璟
-
机构
盐城工学院信息工程学院
江苏大学计算机科学与通信学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第11期94-97,共4页
-
文摘
为了对用户访问过并感兴趣的网页进行准确描述,分析了对网页特征描述中涉及到的特征抽取范围以及特征词权重计算方法。根据"主题相关词非线性加权的方法"提出了一种改进特征词权重计算的方法,该方法不仅考虑了出现在标题中的特征词的重要性,而且利用非线性函数对特征词出现频率的处理思想,使得权重的计算更加准确。使用改进的特征权重计算方法提高了网页特征描述的准确性,从而提高了用户个性化搜索的效率。
-
关键词
个性化搜索
网页特征
权重计算
特征词
非线性函数
-
Keywords
personalized search
Web page characteristics
term-weighing
characteristic words
non-linear function
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网页特征的TFIDF改进算法
被引量:9
- 4
-
-
作者
宋斌
方小璐
-
机构
南京理工大学计算机系
南京市交通局
-
出处
《微计算机应用》
2002年第1期18-20,共3页
-
文摘
本文分析了传统的TFIDF算法。提出了一种改进的TFIDF算法,将提取到的网页特征加入传统的TFIDF算法,从而更为准确地抽取网页中的重要文字。
-
关键词
权重
网页标记
网页特征
IFIDF算法
计算机网络
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名色情网页特征提取技术刍议
- 5
-
-
作者
吕宏伟
程鹏
周昊
-
机构
武警工程学院训练部
-
出处
《信息网络安全》
2007年第10期40-41,共2页
-
文摘
为构建网页内容自动过滤系统,封锁色情网页,通过统计和分析,本文提出采取色情网页特征提取技术是十分有效的手段。据调查表明,与色情有关的诸如"性"、"色情书刊"一类的内容高居于网络点击率和搜索率的前20位。更有研究显示色情内容容易让人上瘾并将导致严重的负面影响。此外,色情网页特征提取技术的基本框架也适用于过滤网上除色情以外的其它不益内容。
-
关键词
网页特征
提取技术
色情
自动过滤系统
网页内容
调查表
过滤网
封锁
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于扩展锚文本的网页特征识别
- 6
-
-
作者
严海兵
-
机构
苏州科技学院图书馆
-
出处
《苏州科技学院学报(自然科学版)》
CAS
2009年第2期51-54,共4页
-
文摘
基于源网页的信息比目标网页的更具有区别性,提出通过提取源网页扩展的锚文本,进行目标网页特征识别。分析了不同位置的扩展锚文本,获取其XPath表达式,用于提取网页特征,并通过实验分析其性能。
-
关键词
网页特征
锚文本
XPATH
-
Keywords
webpage feature
anchor text
Xpath
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名钓鱼网页特征向量提取方法研究
- 7
-
-
作者
司响
李秋锐
宋士超
-
机构
中国人民公安大学
-
出处
《信息网络安全》
2011年第9期201-203,共3页
-
文摘
随着电子商务和在线交易的增加,网络钓鱼已经成为最严重的一种网络犯罪形式。文章从网页中包含的超链接这一角度出发,给出了网页的身份特征,并结合网页ICP号,版权所有者以及网页行为等对网页特征进行了提取,得到了钓鱼网页的特征向量,为及时准确检测钓鱼网页提供了依据。
-
关键词
钓鱼网页
网页特征
特征向量
-
Keywords
Phishing web
web feature
feature vector
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于特征码的网页去重
被引量:11
- 8
-
-
作者
陈基漓
牛秦洲
-
机构
桂林工学院电子与计算机系
-
出处
《微计算机信息》
北大核心
2006年第03X期113-115,共3页
-
基金
广西区科技攻关项目(桂科攻0428002-1)
-
文摘
网页去重处理是提高检索质量的有效途径,本文给出了一个基于特征码的网页去重算法,介绍了算法的具体实现步骤,采用二叉排序树实现。算法有较高的判断正确率,在信息检索中有较好的应用前景。
-
关键词
网页去重
网页特征码
二叉排序树
-
Keywords
Duplicated webpages deletion
feature code of webpages
binary sort tree
-
分类号
TP285
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名中文学术文献网页的特征
被引量:2
- 9
-
-
作者
邹永利
林智昊
-
机构
中山大学资讯管理学院
-
出处
《图书馆论坛》
CSSCI
北大核心
2011年第6期178-185,共8页
-
基金
国家社会科学基金项目(2010-2012年)"网络中文学术文献的自动识别与检索研究--基于学术文献文体
链接及图文相关度的研究与系统开发"(项目编号:10BTQ049)研究成果之一
-
文摘
互联网上免费的中文学术资源数量庞大,但实用的专门检索工具仍然或缺。文章以网络中文学术文献的识别与检索为目标,调查分析网络学术文献网页的特征,并以非学术文献网页作为参照,验证所发现特征的可靠性。研究结果显示,学术文献网页在关键词词频、链接数量和相关链接比例等特征方面与非学术文献网页具有明显差别,差异程度都大于75%,属于程度明显,能较好地用于区分学术文献网页与非学术文献网页,为今后系统开发学术文献网页的自动化识别工具提供了依据和理论支持。
-
关键词
网络文献
学术文献
网页特征
信息检索
-
Keywords
web document
academic paper
characteristics of web page
information retrieval
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于特征融合和机器学习的恶意网页识别研究
被引量:4
- 10
-
-
作者
魏旭
成卫青
-
机构
南京邮电大学计算机学院
东南大学计算机网络和信息集成教育部重点实验室
-
出处
《南京邮电大学学报(自然科学版)》
北大核心
2019年第5期95-104,共10页
-
基金
计算机网络和信息集成教育部重点实验室课题(K93-9-2014-04B)
国家自然科学基金(61170322)资助项目
-
文摘
互联网高速发展的同时催生了众多恶意网页。恶意网页是指侵犯用户安全,包括个人隐私和财产等安全的网页。文中基于对若干恶意网页的传统网页特征:网页URL、JavaScript代码和HTML代码的分析,定义了若干特征用于恶意网页识别;提出了若干基于HTTP请求信息的特征;并提出了一个基于特征融合和机器学习的恶意网页识别方法,将HTTP请求特征与传统网页特征相融合,再利用机器学习分类算法构建网页分类模型区分正常和恶意网页。从Alexa选取500个正常网页,从PhishTank和Malwaredomains中共选取500个网页作为恶意网页构建数据集,训练网页分类模型。通过实验验证了基于URL特征、网页代码特征和HTTP请求特征的方法优于不使用HTTP请求特征的方法,并且发现随机森林分类算法更适用于恶意网页识别。
-
关键词
恶意网页
网页安全
网页特征
HTTP请求
机器学习
-
Keywords
malicious web pages
web security
web page features
HTTP requests
machine learning
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于特征相似度计算的网页包装器自适应
被引量:1
- 11
-
-
作者
陈迎仁
郭莹楠
郭享
倪一涛
陈星
-
机构
福州大学数学与计算机科学学院
福建省网络计算与智能信息处理重点实验室(福州大学)
-
出处
《计算机科学》
CSCD
北大核心
2021年第S02期218-224,257,共8页
-
基金
国家重点研发计划(2017YFB1002000)
福建省自然科学基金杰青项目(2020J06014)
福建省自然科学基金项目(2018J07005)。
-
文摘
随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%。
-
关键词
网页数据抽取
自适应
包装器
相似度计算
网页特征
-
Keywords
Web page data extraction
Adaptation
Wrapper
Similarity calculation
Page features
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于视觉特征的网页最优分割算法
被引量:3
- 12
-
-
作者
李文昊
彭红超
童名文
石俊杰
-
机构
华中师范大学教育信息技术学院
解放军
-
出处
《计算机科学》
CSCD
北大核心
2015年第11期284-287,309,共5页
-
基金
教育部科技发展中心网络时代的科技论文快速共享专项研究资助课题:基于学术社交网络的多粒度科技论文共享技术研究(2013123)
中央高校基本科研业务费项目:内容适配系统中最优适配决策器模型及分布式寻优算法研究(CCNU14A02012)资助
-
文摘
网页分割技术是实现网页自适应呈现的关键。针对经典的基于视觉的网页分割算法VIPS(Vision-based Page Segmentation Algorithm)分割过碎和半自动的问题,基于图最优划分思想提出了一种新颖的基于视觉的网页最优分割算法VWOS(Vision-based Web Optimal Segmentation)。考虑到视觉特征和网页结构,将网页构造为加权无向连通图,网页分割转化为图的最优划分,基于Kruskal算法并结合网页分割的过程,设计网页分割算法VWOS。实验证明,与VIPS相比,采用VWOS算法分割网页的语义完整性更好,且不需要人工参与。
-
关键词
网页最优分割
网页视觉特征
网页自适应呈现
最优划分
-
Keywords
Web page optimal segmentation, Web page vision features, Web page adaptive presentation, Optimal division
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于匈牙利匹配算法的钓鱼网页检测方法
被引量:15
- 13
-
-
作者
张卫丰
周毓明
许蕾
徐宝文
-
机构
南京邮电大学计算机学院
南京大学计算机科学与工程系
-
出处
《计算机学报》
EI
CSCD
北大核心
2010年第10期1963-1975,共13页
-
基金
国家自然科学基金(60703086
60873050
+3 种基金
60803008
60973046
苏州大学江苏省计算机信息处理技术重点实验室基金(KJS0714)
江苏省高校自然科学研究计划(09KJB520012)资助
-
文摘
如何快速有效地计算网页的相似性是发现钓鱼网页的关键.现有的钓鱼网页检测方法在检测效果上依然存在较大的提升空间.文中提出基于匈牙利匹配的钓鱼网页检测模型,该模型首先提取渲染后网页的文本特征签名、图像特征签名以及网页整体特征签名,比较全面地刻画了网页访问后的特征;然后通过匈牙利算法计算二分图的最佳匹配来寻找不同网页签名之间匹配的特征对,在此基础上能够更加客观地度量网页之间的相似性,从而提高钓鱼网页的检测效果.一系列的仿真实验表明文中方法可行,并具有较高的准确率和召回率.
-
关键词
钓鱼网页
网页特征
匈牙利匹配算法
相似性
网页签名
-
Keywords
antiphishing
web metric
bipartite graph matching
similarity
web page signature
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于百度指数的网页用户关注度研究
被引量:13
- 14
-
-
作者
王洪伟
张艺伟
-
机构
同济大学经济与管理学院
-
出处
《情报学报》
CSSCI
北大核心
2012年第8期837-845,共9页
-
基金
国家自然科学基金资助项目(70971099)
中央高校基本科研业务费专项资金资助.
-
文摘
针对海量的互联网信息,提出一种计算网页理论用户关注度的方法,以期提高网络信息搜索的效率,改进搜索排名的准确性。本文以中文论坛的新闻网页为研究对象,利用百度指数提供的用户搜索信息,通过正文抽取、特征项提取、关注度计算等步骤,实现面向内容分析的网页理论用户关注度的计算,最后对150条网页进行实验和回归分析。结果表明,特征词提取的最佳个数为3,理论用户关注度与实际用户关注度(点击量)的相关系数达0.8以上,说明该方法具有一定的准确性。
-
关键词
用户关注度
百度指数
网页特征项
回归分析
-
Keywords
degree of user attention, baidu index, feature vector of webpage, regression analysis
-
分类号
G206
[文化科学—传播学]
-
-
题名结构和内容联合提取的XML网页分类研究
被引量:2
- 15
-
-
作者
阎红灿
李敏强
任蕴丽
阎少宏
-
机构
天津大学管理学院
河北理工大学理学院
河北科技师范学院数理系
-
出处
《天津大学学报(社会科学版)》
CSSCI
2009年第3期272-276,共5页
-
基金
高等学校博士学科点专项科研基金资助项目(20020056047)
-
文摘
针对XML网页特点,重点研究了XML文档结构和内容特征的提取方法,提出了一种基于频繁结构层次空间模型的联合特征提取策略,并给出了结构特征权重和关键词出现的位置及频度权重的计算公式,并根据计算结果提取XML网页特征矩阵,分别就结构、内容联合提取三种情况进行分类测试,通过ROSSETA系统,利用粗糙集优越的属性约简构造文本分类系统,实现XML文档分类。实验表明,该方法分类准确度较高,计算量较小。
-
关键词
XML网页分类
频繁结构层次空间模型
联合特征提取
粗糙集
网页特征矩阵
-
Keywords
XML page classification
frequent structure hierarchy space model
combined feature extraction
rough set
Web page feature matrix
-
分类号
F270.7
[经济管理—企业管理]
-
-
题名基于文本相似度的网页消重策略
被引量:6
- 16
-
-
作者
刘书一
-
机构
江苏科技大学南徐学院
-
出处
《计算机应用与软件》
CSCD
2011年第11期228-229,278,共3页
-
文摘
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基础上得到网页的相似度。经与相似方法比较,结果表明,该方法减少了时间复杂度,具有较高的查全率和查准率,适于大规模网页消重。
-
关键词
网页消重
网页特征码
文本相似度
编辑距离
-
Keywords
Elimination of duplicated web pages Web page feature code Text similarity Editing distance
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于属性agent模型的新闻信息网页筛选技术
- 17
-
-
作者
胡军
杨先芬
刘喜亮
黄慎
-
机构
湖南大学计算机科学与通信学院
湖南大学软件学院
-
出处
《计算机应用研究》
CSCD
北大核心
2009年第5期1760-1763,共4页
-
基金
国家自然科学基金资助项目(60773208)
高等学校博士学科点专项科研基金资助项目(20070532075)
-
文摘
随着人工智能技术的不断发展和复杂动态系统建模手段的不断完善,agent技术因其自主性、反应性、预动性等特点和在协作、推理及规划方面的优势,使其对非结构性的决策与不确定性的推理有很强的刻画能力,能很好地解决一些非数学模型的动态推理与筛选特征事件为基础的问题,从而为人们解决类似的问题提供非常好的新途径。从构建的属性agent模型出发,利用网页筛选技术的风格特征:HTML标签、URL字符、文本内容和视觉效果等获取风格特征的属性值,从而构建新的风格决策树模式,提高网页识别、筛选的精度。实验表明,该技术能提高网页筛选的精度。
-
关键词
属性agent
网页特征风格
决策树
-
Keywords
attribution agent
genres of Web page
decision tree
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名一种基于文本抽取的网页正文去重算法
被引量:1
- 18
-
-
作者
曹传东
郭理
-
机构
石河子大学信息科学与技术学院
-
出处
《科技信息》
2009年第1期102-103,共2页
-
文摘
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。
-
关键词
文本抽取
网页特征码
二叉排序树
网页去重
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名利用关键词倒排表实时检索中文网页
被引量:4
- 19
-
-
作者
王远定
梁久祯
-
机构
江南大学信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第28期135-137,159,共4页
-
基金
江苏省自然科学基金No.BK20080544~~
-
文摘
研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根据关键词在所有网页中出现的频率统计生成关键词倒排文件。实验中,通过对比访问网页库、特征表和倒排文件三种不同的数据来源,分别实现了中文网页的关键词检索,比较了三种数据源检索的实时性。实验表明,基于关键词的倒排表检索算法大大优于其他两种方法,具有很好的实时性。
-
关键词
检索
网页特征表
倒排文件
实时性
-
Keywords
retrieval
webpage feature table
inverted file
real-time
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于兴趣网页的个性化词典的研究与设计
- 20
-
-
作者
李力沛
罗颖
-
机构
长江师范学院数学与计算机学院
中冶赛迪技术股份有限公司
-
出处
《电脑知识与技术(过刊)》
2012年第10X期6992-6995,共4页
-
基金
重庆市教委科技基金项目(KJ091306)
-
文摘
在基于用户浏览历史的个性化服务中,网页特征提取和兴趣建模通常是基于传统全局词典进行的,但是传统全局词典容易向网页特征里引入较多的噪声数据。因此有必要采用个性化词典替换传统全局词典。针对目前个性化词典的建立无法自动获取用户兴趣网页以及缺乏网页预处理的缺点,介绍了一种基于兴趣网页的个性化词典UPDBIWP,其特点是引入基于浏览行为量化分析的兴趣网页自动捕获技术和基于超链接的网页正文提取技术,使个性化词典的建立更加智能化和自动化。通过实验验证UPDBIWP对用户的兴趣点和兴趣偏好的描述更准确。
-
关键词
兴趣网页
超链接
个性化词典
网页特征提取
兴趣建模
-
Keywords
interesting web pages
hyperlink
user personalization dictionary
extraction of web pages feature
user interests mod eling
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-