期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
Improved Term Weighting Technique for Automatic Web Page Classification
1
作者 Kathirvalavakumar Thangairulappan Aruna Devi Kanagavel 《Journal of Intelligent Learning Systems and Applications》 2016年第4期63-76,共14页
Automatic web page classification has become inevitable for web directories due to the multitude of web pages in the World Wide Web. In this paper an improved Term Weighting technique is proposed for automatic and eff... Automatic web page classification has become inevitable for web directories due to the multitude of web pages in the World Wide Web. In this paper an improved Term Weighting technique is proposed for automatic and effective classification of web pages. The web documents are represented as set of features. The proposed method selects and extracts the most prominent features reducing the high dimensionality problem of classifier. The proper selection of features among the large set improves the performance of the classifier. The proposed algorithm is implemented and tested on a benchmarked dataset. The results show the better performance than most of the existing term weighting techniques. 展开更多
关键词 web page Classification Term-weighting Scheme Feature Selection Feature Extraction Artificial Neural Network Back Propagation
下载PDF
Web页面中文文本主题的自动提取研究 被引量:12
2
作者 韩客松 王永成 滕伟 《情报学报》 CSSCI 北大核心 2001年第2期217-223,共7页
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的... Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。 展开更多
关键词 web页面文本 主题抽取 加权 机器标引 主题标引
下载PDF
一种改进的基于网页主题链接的PageRank算法研究 被引量:1
3
作者 杨泳丹 《科技通报》 2019年第7期178-181,185,共5页
针对PageRank算法存在的不足,本文对网络链接的结构进行分析,并以此为基础对PageRank的算法进行了改进,提出了主题链接相似度的PageRank算法。本文算法的核心是将当前网页与入链网页的主题相关度作为传递权值,替换PageRank算法中以平均... 针对PageRank算法存在的不足,本文对网络链接的结构进行分析,并以此为基础对PageRank的算法进行了改进,提出了主题链接相似度的PageRank算法。本文算法的核心是将当前网页与入链网页的主题相关度作为传递权值,替换PageRank算法中以平均值作为权值。本文的PageRank-I算法将网页之间的链接作为链接的向量,以这种链接的关系来对向量的余弦相似度进行主题相关性的描述,而不用对额外的文本信息进行处理,减少了系统负担。实验结果证实本文的PageRank-I算法在没有增加系统的额外负担的同时,也没有增加时间上的复杂度,解决了PageRank算法中主题漂移的问题。 展开更多
关键词 网页主题链接 相似度 pageRANK算法 传递权值
下载PDF
基于大数据挖掘的体育课堂情景教学质量评价系统 被引量:1
4
作者 杨艳 何佳佳 卢琼 《自动化技术与应用》 2023年第2期147-150,共4页
为了提高体育课堂情景教学质量,提出基于大数据挖掘的体育课堂情景教学质量评价系统。系统由初始设置、数据准备、评价过程管理和评价结果管理4个模块组合而成,评价指标体系由一级指标与二级指标组成,且通过粗糙集理论完成各项指标的权... 为了提高体育课堂情景教学质量,提出基于大数据挖掘的体育课堂情景教学质量评价系统。系统由初始设置、数据准备、评价过程管理和评价结果管理4个模块组合而成,评价指标体系由一级指标与二级指标组成,且通过粗糙集理论完成各项指标的权重值标定,采用数据挖掘中决策树法完成综合评价的分析。最后给出系统的网页结构和具体工作流程,实现体育课堂情境教学质量评价系统的构建。实验证明系统评价结果符合客观实际基础上科学性更强,且系统运行速度较快、页面简洁、操作便捷,适用于实际的教学质量评价应用中。 展开更多
关键词 质量评价 粗糙集理论 权重值标定 决策树法 网页结构
下载PDF
中文网页标引源主题表达能力的调查统计 被引量:29
5
作者 丁璇 侯汉清 章成志 《大学图书馆学报》 CSSCI 北大核心 2002年第6期70-72,共3页
通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,... 通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,以便为自动标引及人工智能搜索引擎的研制提供数据。 展开更多
关键词 标引源 主题表达能力 汉语 网页 主题标引 加权 自动标引 调查
下载PDF
基于语义关联的中文网页主题词提取方法研究 被引量:5
6
作者 李芳芳 葛斌 +1 位作者 毛星亮 汤大权 《计算机应用研究》 CSCD 北大核心 2011年第1期105-107,123,共4页
提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和"知网"计算词语间的语义相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权重进行建模;最后选取权值... 提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和"知网"计算词语间的语义相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权重进行建模;最后选取权值较高的名词作为主题词。实验结果表明,相比未建立语义关联的主题词提取方法,本方法在查准率、召回率和F1测度值上均有一定的提高,当提取主题词个数为7时,本方法召回率和F1测度值达到最大值,且分别较传统方法最大值提高了12.5%和9.53%。 展开更多
关键词 语义关联 中文网页 主题词 权重
下载PDF
一种中医药行业搜索引擎的推荐词产生方式 被引量:3
7
作者 蔡勇 刘美玲 +1 位作者 李玫 胡豪 《计算机系统应用》 2013年第5期151-154,202,共5页
随着计算机信息技术的发展,中医药行业大量的文献资料和数据库资源需要共享到Internet网上,以方便专业人士进行查询搜索,独特的中医药行业搜索引擎就是顺应这个需求而开发的.文章中笔者结合自己的经验和体会,提出了一种根据用户输入的... 随着计算机信息技术的发展,中医药行业大量的文献资料和数据库资源需要共享到Internet网上,以方便专业人士进行查询搜索,独特的中医药行业搜索引擎就是顺应这个需求而开发的.文章中笔者结合自己的经验和体会,提出了一种根据用户输入的查询词产生相关推荐词的方法.该推荐词产生方法与其它的搜索引擎如谷歌、雅虎、百度不同,结合了中医药行业搜素引擎与中医药行业中文分词的特点,应用一种算法来统计推荐词之间的相关性,用关系数据表方式对推荐词进行专门存储管理.实践证明此方法能够及时、准确的生成推荐词集,行业特征明显,具有一定的创新性和推广价值. 展开更多
关键词 中医药行业 垂直搜索引擎 推荐词 中文分词 网页权重
下载PDF
基于发布时间的新闻网页去重方法研究 被引量:3
8
作者 罗永莲 张永奎 《计算机工程与应用》 CSCD 北大核心 2007年第6期119-121,共3页
网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网... 网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时间,提高了去重准确性。 展开更多
关键词 新闻网页 主题内容抽取 网页去重 权值计算
下载PDF
面向信息无障碍检测的网页距离权重学习方法 被引量:1
9
作者 王鹰汉 高斐 +2 位作者 卜佳俊 于智 陈荣华 《科技通报》 2018年第9期195-200,205,共7页
在信息无障碍评估领域中,为了便于预测网页评估结果的相关性,提出一种融合网页特征与URL相似性的网页距离度量方法,并利用部分已知样本评估结果的偏序关系学习出不同特征应分配的权重,从而提升网页距离偏序关系与评估结果偏序关系的相... 在信息无障碍评估领域中,为了便于预测网页评估结果的相关性,提出一种融合网页特征与URL相似性的网页距离度量方法,并利用部分已知样本评估结果的偏序关系学习出不同特征应分配的权重,从而提升网页距离偏序关系与评估结果偏序关系的相关性。实验结果表明该方法较传统距离度量方法能更好的表征评估结果的偏序关系,使得加权距离越相近的网页,其信息无障碍评估结果越相似。 展开更多
关键词 数据挖掘 网页距离 权重学习 半监督学习
下载PDF
网页自动分类中特征权重计算方法的改进 被引量:2
10
作者 谭金波 杨晓江 李艺 《情报学报》 CSSCI 北大核心 2008年第1期56-61,共6页
目前,在网页分类中,对HTML主要结构特征进行加权的常用方法是绝对数值加权方法。这种方法的缺点是加权系数为定值,其对长文本和短文本所起的作用不同,使得结构特征对正文的影响随着正文长度的增加而削弱。针对该缺点,本文提出了一... 目前,在网页分类中,对HTML主要结构特征进行加权的常用方法是绝对数值加权方法。这种方法的缺点是加权系数为定值,其对长文本和短文本所起的作用不同,使得结构特征对正文的影响随着正文长度的增加而削弱。针对该缺点,本文提出了一种改进型加权方法,即相对数值加权方法。通过网页层次分类的实验,比较了这两种方法对单个标签域以及多个标签域结合的分类性能。实验结果表明,相对数值加权方法能有效提高分类的精确度,并且效果优于绝对数值加权方法。 展开更多
关键词 网页分类 层次分类 特征项 权重算法 相对数值加权
下载PDF
中文网页体裁分类特征项的权值调整策略 被引量:3
11
作者 黄臻臻 吴扬扬 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期173-177,共5页
研究了中文网页体裁分类的特征项选取问题及权重计算方法,探讨不同特征空间对体裁类别的判别能力问题,给出了一种评价方法。据此,提出一种特征项的权值调整策略,实验结果验证了该方法的有效性。
关键词 网页分类 体裁 特征选取 权值调整
下载PDF
中文网页分类的研究与实现 被引量:13
12
作者 程传鹏 《中原工学院学报》 CAS 2007年第1期61-64,共4页
描述了一个完整的中文网页分类系统的设计和实现过程,重点介绍了网页分类中的网页净化、特征加权、KNN分类等关键技术.并结合网页的特征,对分类中的特征加权公式进行了一定的改进.实验结果表明改进后的特征加权公式取得了较高的分类准确率.
关键词 网页分类 网页净化 特征加权 KNN分类
下载PDF
复杂网络在新闻网页关键词提取中的应用 被引量:4
13
作者 唐俊 《云南民族大学学报(自然科学版)》 CAS 2012年第4期305-308,312,共5页
通过分析新闻网页文档的特征,引入节点权重、有向网络加权聚类系数、中心介数等特征量,并结合传统关键词提取算法的一些优点及网页文档的部分特征,提出了一种改进的基于加权复杂网络的新闻网页关键词提取算法,并通过实验证实了该算法的... 通过分析新闻网页文档的特征,引入节点权重、有向网络加权聚类系数、中心介数等特征量,并结合传统关键词提取算法的一些优点及网页文档的部分特征,提出了一种改进的基于加权复杂网络的新闻网页关键词提取算法,并通过实验证实了该算法的正确性. 展开更多
关键词 关键词自动提取 新闻网页关键词 复杂网络 节点权重
下载PDF
网页文本分类中的特征选择研究 被引量:1
14
作者 庞宁 杨尔弘 《太原科技大学学报》 2007年第4期279-281,共3页
由于超链接语言结构本身所提供的信息,网页分类问题不同于一般的文本分类。本文分析了网页内部特征,并在1000篇网页规模语料库的基础上,通过试验对比了三种特征选择方法对高维特征向量空间进行降维的效果。文章还提出了一种新方法,根据... 由于超链接语言结构本身所提供的信息,网页分类问题不同于一般的文本分类。本文分析了网页内部特征,并在1000篇网页规模语料库的基础上,通过试验对比了三种特征选择方法对高维特征向量空间进行降维的效果。文章还提出了一种新方法,根据特征项所处的位置赋予不同权重的方法,实验表明这种由文本结构导出的权重计算方法能够取得很好的分类效果。 展开更多
关键词 网页分类 特征选择 权重计算
下载PDF
结合有监督广度优先搜索策略的通用垂直爬虫方法 被引量:7
15
作者 高峰 刘震 高辉 《计算机工程》 CAS CSCD 北大核心 2018年第11期289-299,共11页
垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队... 垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。 展开更多
关键词 垂直爬虫 URL聚类 赋权网页 路径模板解析 有监督广度优先搜索策略
下载PDF
一种互联网新闻网页的采集分析方法 被引量:1
16
作者 吴定明 赵东岩 《计算机工程与应用》 CSCD 北大核心 2007年第36期169-172,共4页
设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、... 设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、标题字体属性及日期,采用NewsPageRank算法计算每个新闻链接的权重。测试结果表明该方法对Internet上的新闻站点普遍具有较好的分析效果,性能可以满足实用要求。 展开更多
关键词 链接分析 页面评估 互联网 网页采集 链接识别 链接权重 网页权重分析 新闻网页
下载PDF
基于网页分类与加权的网民聚类方法研究
17
作者 陈震 马铭 李欣 《北华大学学报(自然科学版)》 CAS 2008年第3期284-288,共5页
提出一种基于网页分类和网页加权的网民聚类算法,其基本思想是:先以各个网民对每个网页的点击量为依据,通过模糊等价矩阵聚类法对网页进行分类,并根据网页内容与深度确定网页的加权,即给每个网页一个分数,最后根据这个加权分数再... 提出一种基于网页分类和网页加权的网民聚类算法,其基本思想是:先以各个网民对每个网页的点击量为依据,通过模糊等价矩阵聚类法对网页进行分类,并根据网页内容与深度确定网页的加权,即给每个网页一个分数,最后根据这个加权分数再次对网民进行聚类,即使用两次模糊等价矩阵聚类. 展开更多
关键词 网页分类 网页加权 模糊等价矩阵聚类
下载PDF
利用网页结构特征建立用户模型 被引量:2
18
作者 刘茵 《电脑知识与技术(过刊)》 2010年第23期6457-6458,共2页
该文提出将网页的结构特征提取出来,用于用户建模过程中。根据网页结构特征,人为提升部分词汇的词频权重,从而来建立用户模型。实验结果表明,此技术建立的用户模型更符合用户兴趣。
关键词 网页结构 用户模型 词频权重
下载PDF
基于关联图的改进关联规则在推荐系统中的应用
19
作者 王林林 石冰 +1 位作者 胡元 邢海华 《山东科学》 CAS 2011年第5期76-80,84,共6页
提出了推荐模型中的关联规则挖掘方法的改进,给出了自定义的页面权值的定义,并改进了基于关联图的关联规则挖掘算法,将页面权值应用于关联规则的挖掘中。此算法是利用Web日志中经过预处理后得到的数据进行规则挖掘,将处理后的数据应用... 提出了推荐模型中的关联规则挖掘方法的改进,给出了自定义的页面权值的定义,并改进了基于关联图的关联规则挖掘算法,将页面权值应用于关联规则的挖掘中。此算法是利用Web日志中经过预处理后得到的数据进行规则挖掘,将处理后的数据应用正态分布函数来得到页面权值。用页面权值重新计算支持度,最后将得到的支持度应用于改进的规则挖掘算法中,形成一种基于权值的关联图的关联规则算法。 展开更多
关键词 页面权值 正态分布 web日志数据挖掘:关联规则
下载PDF
结合深度学习与词性标注的网页分类算法研究 被引量:1
20
作者 骆聪 王帅 《计算机技术与发展》 2018年第8期71-74,95,共5页
为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用k NN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(sup... 为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用k NN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(support vector machines)等进行分类。不同于传统的网页分类算法,结合深度学习的知识采用更深层次的方法进行特征提取。通过考虑网页HTML标签权重提取网页的内容,然后利用词性标注技术在剔除部分对网页分类贡献较小的词语的同时,也为区分能力高的名词赋予更高的权重,最后结合深度信念网络(deep belief network)进行特征提取和特征分类。实验结果表明,提出的网页分类算法具有和采用支持向量机相当的准确性,并且在使用词性标注技术后,网页分类结果的F1值又提升了3.35%。 展开更多
关键词 网页分类 深度学习 HTML标签权重 词性标注 深度信念网络
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部