期刊文献+
共找到146篇文章
< 1 2 8 >
每页显示 20 50 100
Research on Web Page Automatic Classification Based on Internet News Corpus
1
作者 蔡巍 王永成 尹中航 《Journal of Shanghai Jiaotong university(Science)》 EI 2007年第6期731-735,共5页
Web pages contain more abundant contents than pure text ,such as hyperlinks,html tags and metadata et al.So that Web page categorization is different from pure text. According to Internet Chinese news pages, a practic... Web pages contain more abundant contents than pure text ,such as hyperlinks,html tags and metadata et al.So that Web page categorization is different from pure text. According to Internet Chinese news pages, a practical algorithm for extracting subject concepts from web page without thesaurus was proposed, when incorporated these category-subject concepts into knowledge base, Web pages was classified by hybrid algorithm, with experiment corpus extracting from Xinhua net. Experimental result shows that the categorization performance is improved using Web page feature. 展开更多
关键词 AUTOMATIC classification web pageS SUBJECT EXTRACTION
下载PDF
Improved Term Weighting Technique for Automatic Web Page Classification
2
作者 Kathirvalavakumar Thangairulappan Aruna Devi Kanagavel 《Journal of Intelligent Learning Systems and Applications》 2016年第4期63-76,共14页
Automatic web page classification has become inevitable for web directories due to the multitude of web pages in the World Wide Web. In this paper an improved Term Weighting technique is proposed for automatic and eff... Automatic web page classification has become inevitable for web directories due to the multitude of web pages in the World Wide Web. In this paper an improved Term Weighting technique is proposed for automatic and effective classification of web pages. The web documents are represented as set of features. The proposed method selects and extracts the most prominent features reducing the high dimensionality problem of classifier. The proper selection of features among the large set improves the performance of the classifier. The proposed algorithm is implemented and tested on a benchmarked dataset. The results show the better performance than most of the existing term weighting techniques. 展开更多
关键词 web page classification Term-Weighting Scheme Feature Selection Feature Extraction Artificial Neural Network Back Propagation
下载PDF
基于Web网页的DOM树链接预分类、信息抽取方法研究
3
作者 罗莎 《长江信息通信》 2023年第11期133-135,共3页
为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的... 为满足Web网页的数据记录、自动抽取需求,提出依托DOM树特征的网页信息链接预分类、领域本体的Web信息抽取方法,根据HTML、XML网页文档结构设置DOM对象节点树,标记网页页码导航节点、前导符节点、数据特征节点,用DOM根节点到目标节点的标签序列计算树路径,根据各网页链接的XPATH树路径进行分组,DOM树特征预分类模块完成站点信息链接预分类,采用SVM分类器、支持向量机SVM算法,将网页的数据记录样本作出数据信息抽取、属性特征提取计算,从而抽取出满足用户需求的数据文本、数据记录信息。 展开更多
关键词 web网页 DOM树特征 信息链接预分类 信息抽取方法
下载PDF
Web网页识别中的特征选择问题研究 被引量:29
4
作者 朱明 王军 王俊普 《计算机工程》 CAS CSCD 北大核心 2000年第8期35-37,共3页
对Web网页识别中有关特征选择的两个重要问题进行了较为深入的探讨.提出了一种新的描述特征选择方法,并将其与3种已有的描述特征选择方法进行实验比较,证实其有效性;此外还对5种在文本归类中,具有代表性的识别特征选择方法在... 对Web网页识别中有关特征选择的两个重要问题进行了较为深入的探讨.提出了一种新的描述特征选择方法,并将其与3种已有的描述特征选择方法进行实验比较,证实其有效性;此外还对5种在文本归类中,具有代表性的识别特征选择方法在Web网页识别中的实际应用效果进行了评估比较,并发现信息增益和统计方法,选择识别特征效果最佳. 展开更多
关键词 特征选择 网页分类 机器学习 web 网页识别
下载PDF
基于Web的新闻文本分类技术的研究 被引量:7
5
作者 胡凌云 胡桂兰 +1 位作者 徐勇 李龙澍 《安徽大学学报(自然科学版)》 CAS 北大核心 2010年第6期66-70,共5页
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基... 从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果. 展开更多
关键词 网页解析 文本 分类
下载PDF
一种基于节点密度分割和标签传播的Web页面挖掘方法 被引量:13
6
作者 张乃洲 曹薇 李石君 《计算机学报》 EI CSCD 北大核心 2015年第2期349-364,共16页
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中... 获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性. 展开更多
关键词 页面分割 节点密度 标签传播 DOM树 块分类 社会计算 社交网络
下载PDF
基于网站结构挖掘的Web文档自动分类 被引量:2
7
作者 谢振亮 何丕廉 +1 位作者 陈霞 孟昭鹏 《计算机应用》 CSCD 北大核心 2003年第7期37-39,共3页
对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式... 对Web文档进行人工分类可以达到准确的分类效果,但需要大量的时间和人力的投入。传统的基于特征向量的分类方法准确性较低,文中提出把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式,再将多个网站的分类模式进行综合,生成搜索引擎的分类模式。 展开更多
关键词 结构挖掘 web文档自动分类 分类模式 扩展网页
下载PDF
基于页面分类的Web信息抽取方法研究 被引量:5
8
作者 成卫青 于静 +1 位作者 杨晶 杨龙 《计算机技术与发展》 2013年第1期54-58,共5页
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通... 通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。 展开更多
关键词 web信息抽取 正则表达式 页面分类 HTMLPARSER 结点树
下载PDF
基于BP神经网络的Web页面分类算法 被引量:3
9
作者 徐家树 覃征 杨盾 《微电子学与计算机》 CSCD 北大核心 2006年第5期83-85,88,共4页
提出了一种基于BP神经网络的Web页面分类算法。在搜索引擎的结构中提取页面标题、内容标题和内容摘要来表示页面,采用向量空间模型计算分类组合与页面组合的相关性对页面进行矢量化,将训练后的BP神经网络用于对Web页面进行分类。实验结... 提出了一种基于BP神经网络的Web页面分类算法。在搜索引擎的结构中提取页面标题、内容标题和内容摘要来表示页面,采用向量空间模型计算分类组合与页面组合的相关性对页面进行矢量化,将训练后的BP神经网络用于对Web页面进行分类。实验结果表明,该分类算法有一定的实用价值。 展开更多
关键词 分类技术 信息检索 web页面
下载PDF
一种Web文档在线自适应分类新方法 被引量:1
10
作者 黎昱 黄席樾 +1 位作者 周欣 刘涛 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第7期47-51,共5页
Web文档自动分类是Web挖掘中的重要研究内容。文档向量空间模型 (VSM)是实现文档自动分类的基础 ,但如何排除冗余属性并降低向量空间的维数是一个难点。文中运用粗集理论对由样本文档集合构成的信息系统进行数据泛化 ,并求取文档的最优... Web文档自动分类是Web挖掘中的重要研究内容。文档向量空间模型 (VSM)是实现文档自动分类的基础 ,但如何排除冗余属性并降低向量空间的维数是一个难点。文中运用粗集理论对由样本文档集合构成的信息系统进行数据泛化 ,并求取文档的最优规约属性集 ,大大降低了文档的特征空间的维数 ,减少了冗余属性对文档分类的干扰 ,提高了分类效率。运用FuzzyARTMAP(adaptiveresonancetheorymapping)神经网络 ,利用其自适应分类和增量学习的优良特性 。 展开更多
关键词 网页分类 粗集 属性规约 在线自适应分类 web文档
下载PDF
Web使用挖掘下的Web页面层次分类技术研究 被引量:2
11
作者 汤亚玲 秦锋 《情报学报》 CSSCI 北大核心 2008年第3期351-356,共6页
Web使用挖掘研究用户访问行为所体现的行为特征,Web站点结构分析对于Web使用挖掘具有重要意义。本文讨论如何结合Web站点内页面间的超链结构和关键页面分析技术实现对Web站点的链接结构分析,得到清晰的站点拓扑结构和页面层次分类,... Web使用挖掘研究用户访问行为所体现的行为特征,Web站点结构分析对于Web使用挖掘具有重要意义。本文讨论如何结合Web站点内页面间的超链结构和关键页面分析技术实现对Web站点的链接结构分析,得到清晰的站点拓扑结构和页面层次分类,进而以此为Web页面进行层次编码,和Web用户行为向量的建立方法,为准确表述用户的访问行为提供数据支持;用一种新的方式进一步有效的挖掘用户的行为特征。最后,把它同一些重要的页面分类方法,从算法的计算效率和页面分类的准确率上进行了比较,试验数据的分析表明,该方法在效率和准确率上有一定提高。 展开更多
关键词 web使用挖掘 页面分类 行为向量
下载PDF
一种基于C4.5决策树算法的Web页面分类算法 被引量:1
12
作者 吕琳 刘培玉 《山东师范大学学报(自然科学版)》 CAS 2015年第2期20-23,共4页
页面分类是Web信息处理的一个基础性问题,而页面分类算法是页面分类中设计实现分类器的理论基础.在页面分类算法领域,目前最典型的分类算法包括决策树算法、贝叶斯算法、KNN算法等.笔者讨论了这几种典型的分类算法的理论基础,分析了每... 页面分类是Web信息处理的一个基础性问题,而页面分类算法是页面分类中设计实现分类器的理论基础.在页面分类算法领域,目前最典型的分类算法包括决策树算法、贝叶斯算法、KNN算法等.笔者讨论了这几种典型的分类算法的理论基础,分析了每个算法的优缺点,最后,笔者给出了一种基于C4.5算法的Web页面分类器的实现过程. 展开更多
关键词 web页面分类 决策树 C4.5
下载PDF
基于Google Web API的中文训练库自动获取方法研究 被引量:1
13
作者 胡燕 张颂扬 《计算机与数字工程》 2008年第5期8-10,共3页
主要研究中文训练库自动获取方法,提出基于Google Web API的方法收集训练样本,然后给出自动获取训练库的方法。通过实验,初步实现中文训练库的自动建立。
关键词 中文网页自动分类 训练库 GOOGLE web API
下载PDF
基于半监督学习的Web页面内容分类技术研究 被引量:1
14
作者 赵夫群 《现代电子技术》 北大核心 2016年第1期108-112,117,共6页
针对如何使用标记和未标记数据进行Web分类这一关键性问题,探索一种生成模型和判别模型相互结合的分类器,在无标记训练集中采用最大似然估计,构造一种具有良好分类性能的半监督分类器。利用狄利克雷-多项式混合分布对文本进行建模,提出... 针对如何使用标记和未标记数据进行Web分类这一关键性问题,探索一种生成模型和判别模型相互结合的分类器,在无标记训练集中采用最大似然估计,构造一种具有良好分类性能的半监督分类器。利用狄利克雷-多项式混合分布对文本进行建模,提出了适用于半监督学习的混合模型。针对半监督学习的EM算法收敛速度过快,容易陷入局部最优的难题,引入两种智能优化的方法——模拟退火算法和遗传算法进行分析和处理,结合这两种算法形成一种新型智能的半监督分类算法,并且验证了该算法的可行性。 展开更多
关键词 web页面内容分类 半监督学习 半监督分类 智能优化 Dirichlet分布
下载PDF
基于Web挖掘的专业文本特征提取方法研究 被引量:1
15
作者 吕林霞 张明新 《兰州石化职业技术学院学报》 2007年第3期33-35,共3页
通过对专业信息自动分类的文本特征提取方法的分析研究,提出在文本分析时根据Web内容挖掘和结构挖掘的方法提取特征词条来建立文本特征空间,同时利用专业类别向量、专业词典技术可有效解决高维空间问题。
关键词 web挖掘 专业信息 文档自动分类 特征提取
下载PDF
Web页面分类中特征提取方法的改进 被引量:1
16
作者 焦莉娟 冯丽萍 《科技广场》 2009年第9期39-40,共2页
本文研究了基于互信息、相关性的特征选择方法,并介入网页页面中超链接因素,对特征提取中互信息计算公式作了改进-引入超链接因子。实验表明,改进之后比之以往的简单的基于互信息方法进行特征选择的网页分类精度有一定的提高。
关键词 网页分类 特征提取 互信息
下载PDF
基于Web页面有效信息抽取的分类方法 被引量:1
17
作者 王立建 尹四清 《电脑开发与应用》 2010年第6期71-73,共3页
随着Internet的迅猛发展,Web上的网页数目呈现指数级的爆炸性增长趋势,在Web上检索及发现有价值的信息已成为了一项重要的任务,"噪音"的出现往往会降低基于页面处理的各种算法的效率。因此,如何删除页面的噪音,提取页面中的... 随着Internet的迅猛发展,Web上的网页数目呈现指数级的爆炸性增长趋势,在Web上检索及发现有价值的信息已成为了一项重要的任务,"噪音"的出现往往会降低基于页面处理的各种算法的效率。因此,如何删除页面的噪音,提取页面中的主要内容是Web挖掘中的重要问题。给出了抽取网页中各种分类有效的文本的具体实现。 展开更多
关键词 web有效信息 信息抽取 网页分类
下载PDF
基于Web挖掘和文档对象模型树的XML网页分类方法
18
作者 马勇 郑翔 +1 位作者 鲜敏 黎远松 《微型电脑应用》 2016年第7期47-49,52,共4页
Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法。首先,收集XML网页的文本信息。然后,对XML文本进行去冗余操作,并提取网页源代码。再后,利... Web网页的自动分类有助于更好地对其内容进行组织和管理,针对XML网页的分类问题,提出了一种基于Web挖掘和文档对象模型(DOM)树的XML网页分类方法。首先,收集XML网页的文本信息。然后,对XML文本进行去冗余操作,并提取网页源代码。再后,利用DOM树结构进行标签提取,创建知识库。最后,通过从测试网页中获取的标签与知识库进行匹配来分类网页。实验结果表明,提出的方法在各种XML网页下获得了97%的整体准确度。 展开更多
关键词 XML网页分类 web挖掘 文档对象模型树 标签匹配
下载PDF
基于网页分类的Web应用软件测试研究
19
作者 刘小园 《湖南工程学院学报(自然科学版)》 2013年第2期37-39,共3页
随着Web应用软件的广泛应用,为了保证Web应用软件的质量和可靠性,人们越来越重视Web应用软件测试.但目前大多数基于模型的测试技术都很难满足人们对Web应用软件的测试要求,本文在模型测试技术的基础上,提出基于网页分类的Web应用软件测... 随着Web应用软件的广泛应用,为了保证Web应用软件的质量和可靠性,人们越来越重视Web应用软件测试.但目前大多数基于模型的测试技术都很难满足人们对Web应用软件的测试要求,本文在模型测试技术的基础上,提出基于网页分类的Web应用软件测试方法,并通过一个网上购物系统的实例,验证了该方法在功能覆盖率和错误检测率两方面都有较好的表现. 展开更多
关键词 web应用软件 软件测试 网页分类 测试用例
下载PDF
基于文本分类的林业Web黄页分类系统 被引量:2
20
作者 王欢 武刚 杨抒 《计算机系统应用》 2012年第1期21-24,共4页
将文本分类技术应用于林业Web黄页的分类,实现了林业Web黄页信息的高效应用和管理。讨论了林业Web黄页多层次分类体系,并给出了分类系统的设计方案和关键技术,详细介绍了类别区分词特征选择算法。实验结果具有较好的准确率和查全率。
关键词 文本分类 林业web黄页 多层次分类 类别区分词
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部