-
题名基于内容的网页特征提取
被引量:9
- 1
-
-
作者
张义忠
赵明生
朱精南
-
机构
清华大学电子工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2001年第10期1-3,共3页
-
基金
国家自然科学基金!(编号:60003014)
国家863高技术项目!(编号:863-317-01-06-99)
清华大学985
-
文摘
文章主要研究基于内容的中文网页的特征提取技术,具体介绍了分词词典的建造方法,网页正文、标记信息和超链信息的特征提取。通过对旅游类网页的实验结果显示,文中的方法和应用效果良好。
-
关键词
网页特征提取
信息检索
数据库
信息资源
知识库
-
Keywords
in the dictionary are these words that represent the contents and concepts of a certain web pages. Then,feature extraction methods for text,tag information and hyperlink information are addressed.Experiments have shown that the proposed methods
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
-
-
题名基于兴趣网页的个性化词典的研究与设计
- 2
-
-
作者
李力沛
罗颖
-
机构
长江师范学院数学与计算机学院
中冶赛迪技术股份有限公司
-
出处
《电脑知识与技术(过刊)》
2012年第10X期6992-6995,共4页
-
基金
重庆市教委科技基金项目(KJ091306)
-
文摘
在基于用户浏览历史的个性化服务中,网页特征提取和兴趣建模通常是基于传统全局词典进行的,但是传统全局词典容易向网页特征里引入较多的噪声数据。因此有必要采用个性化词典替换传统全局词典。针对目前个性化词典的建立无法自动获取用户兴趣网页以及缺乏网页预处理的缺点,介绍了一种基于兴趣网页的个性化词典UPDBIWP,其特点是引入基于浏览行为量化分析的兴趣网页自动捕获技术和基于超链接的网页正文提取技术,使个性化词典的建立更加智能化和自动化。通过实验验证UPDBIWP对用户的兴趣点和兴趣偏好的描述更准确。
-
关键词
兴趣网页
超链接
个性化词典
网页特征提取
兴趣建模
-
Keywords
interesting web pages
hyperlink
user personalization dictionary
extraction of web pages feature
user interests mod eling
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于极限学习机的网页分类应用
被引量:1
- 3
-
-
作者
陈先福
李石君
曾慧
-
机构
武汉大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第5期102-106,共5页
-
基金
国家自然科学基金(No.61272109)
-
文摘
极限学习机ELM不同于传统的神经网络学习算法(如BP算法),是一种高效的单隐层前馈神经网络(SLFNs)学习算法。将极限学习机引入到中文网页分类任务中。对中文网页进行预处理,提取其特性信息,从而形成网页特征树,产生定长编码作为极限学习机的输入数据。实验结果表明该方法能够有效地分类网页。
-
关键词
极限学习机
中文网页分类
神经网络
网页特征提取
-
Keywords
extreme learning machine
Chinese web page classification
artificial neural network
trait extraction for web page
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名网页分类技术研究综述
被引量:2
- 4
-
-
作者
薛永大
-
机构
中国民航大学电子信息工程学院
-
出处
《电脑知识与技术》
2012年第9期5958-5961,共4页
-
文摘
随着互联网的快速发展,网络上丰富的网页数据为各种应用研究提供了海量信息,网页分类是信息组织管理和信息检索的重要技术,随着最近几年的不断研究,网页分类技术又有了新发展,文章首先对网页预处理、特征选择与提取、网页表示模型、分类算法和评价指标等基础技术的研究动态进行了归纳和总结:其次,对近年来网页分类方法的新进展综述分析;最后,文章对研究中面临的主要挑战和发展趋势进行了讨论和展望。
-
关键词
网页分类
网页模型:特征提取
分类算法
评估指标
-
Keywords
web page classification
representation model
feature selection
classification algorithm
assessment indicators
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-