期刊文献+
共找到69篇文章
< 1 2 4 >
每页显示 20 50 100
Web页面清洗技术的研究与实现 被引量:20
1
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 web页面 清洗技术 文本块 链接块 DOM 解析器 Internet 信息检索
下载PDF
Web页面中文文本主题的自动提取研究 被引量:12
2
作者 韩客松 王永成 滕伟 《情报学报》 CSSCI 北大核心 2001年第2期217-223,共7页
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的... Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。 展开更多
关键词 web页面文本 主题抽取 加权 机器标引 主题标引
下载PDF
基于Web的新闻文本分类技术的研究 被引量:7
3
作者 胡凌云 胡桂兰 +1 位作者 徐勇 李龙澍 《安徽大学学报(自然科学版)》 CAS 北大核心 2010年第6期66-70,共5页
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基... 从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果. 展开更多
关键词 网页解析 文本 分类
下载PDF
基于PageRank和锚文本的网页排序研究 被引量:6
4
作者 刘菁菁 林鸿飞 赵晶 《计算机工程与应用》 CSCD 北大核心 2007年第10期170-173,共4页
网页和纯文本结构差异性决定了传统的IR排序技术不能适应网络发展。为合理排序检索结果,引入了基于文献引文分析法原理的链接分析方法。该方法对被多个网页链接的网页赋予较高评价,同时考虑锚文本与查询词的相似度。源网页质量参差不齐... 网页和纯文本结构差异性决定了传统的IR排序技术不能适应网络发展。为合理排序检索结果,引入了基于文献引文分析法原理的链接分析方法。该方法对被多个网页链接的网页赋予较高评价,同时考虑锚文本与查询词的相似度。源网页质量参差不齐,链向相同网页的锚文本质量也有优劣之分,但高质量源网页的锚文本不一定比质量低源网页的准确。对相似度高的锚文本加以修正,即通过计算查询词和锚文本相似度,对于相似度较高但源于PageRank值低的源网页的锚文本加以补偿,并重新排序查询结果。 展开更多
关键词 链接分析 锚文本 pageRANK 网页排序
下载PDF
一种Web文本的自动提取方法 被引量:1
5
作者 印国成 孙茂圣 《江苏科技大学学报(自然科学版)》 CAS 北大核心 2010年第6期596-599,共4页
文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页... 文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于Web知识获取的预处理. 展开更多
关键词 网页 文本 格式控制符 分离
下载PDF
基于用户搜索意图的Web网页动态泛化 被引量:14
6
作者 王大玲 于戈 +2 位作者 鲍玉斌 张沫 沈洲 《软件学报》 EI CSCD 北大核心 2010年第5期1083-1097,共15页
基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的Web网页动态泛化模型,为搜索的Web网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次,通过网页内容、类型和格式的泛化为... 基于目前对用户搜索意图的分类,进一步分析了每种用户意图的信息需求,提出了基于用户搜索意图的Web网页动态泛化模型,为搜索的Web网页动态地建立文档片段、关键词、导航类型、文档格式之间的概念层次,通过网页内容、类型和格式的泛化为不同的访问意图提供进一步的搜索导航,从而返回与搜索意图更相关的结果.与相关工作对比,重点并非获取用户意图,也不是对用户意图分类,而是基于用户搜索意图的Web网页动态泛化模型的建立及Web网页泛化过程的实现.实验结果表明,该泛化模型不仅能够通过导航自动获取用户搜索意图,而且能够基于该意图提供相关搜索结果以及进一步的搜索导航. 展开更多
关键词 网页泛化 用户意图 动态建模 搜索导航 文本挖掘
下载PDF
基于Java Applet与servlet通信技术的Web文本页面保护方法
7
作者 唐建平 刘晓玲 《内蒙古大学学报(自然科学版)》 CAS CSCD 北大核心 2003年第1期89-92,共4页
针对目前各类Web站点上,大量有价值的文本信息被用户轻易地下载重用的情况,提出了一种基于JavaApplet与servlet通信技术实现Web文本页面保护的方法.文中讨论了该方法的原理,介绍了解决方案中所涉及到的JavaAPI相关类,并给出了完整的程... 针对目前各类Web站点上,大量有价值的文本信息被用户轻易地下载重用的情况,提出了一种基于JavaApplet与servlet通信技术实现Web文本页面保护的方法.文中讨论了该方法的原理,介绍了解决方案中所涉及到的JavaAPI相关类,并给出了完整的程序实现. 展开更多
关键词 保护方法 Java APPLET SERVLET web文本页面 保护软件 文本信息 网络通信
下载PDF
基于文本分类的林业Web黄页分类系统 被引量:2
8
作者 王欢 武刚 杨抒 《计算机系统应用》 2012年第1期21-24,共4页
将文本分类技术应用于林业Web黄页的分类,实现了林业Web黄页信息的高效应用和管理。讨论了林业Web黄页多层次分类体系,并给出了分类系统的设计方案和关键技术,详细介绍了类别区分词特征选择算法。实验结果具有较好的准确率和查全率。
关键词 文本分类 林业web黄页 多层次分类 类别区分词
下载PDF
基于叠加编码的Web网页抓取路径损耗估计 被引量:1
9
作者 邢计亮 《科技通报》 北大核心 2015年第6期181-183,共3页
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且... 对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。 展开更多
关键词 web网页 文本特征 抓取路径 数据挖掘
下载PDF
支持维、哈、柯文的Web浏览器的研究与实现
10
作者 李端端 吾守尔.斯拉木 艾尼宛尔.托乎提 《新疆大学学报(自然科学版)》 CAS 2014年第4期470-474,共5页
本文主要是针对网页浏览器在其界面和功能方面的不足,保留了现有Web浏览器所具备的所有功能的基础上,在Windows平台下,设计并开发出基于IE内核的具有维、哈、柯文特色的Web浏览器.主要内容包括了介绍向浏览器中嵌入维、哈、柯文字库及... 本文主要是针对网页浏览器在其界面和功能方面的不足,保留了现有Web浏览器所具备的所有功能的基础上,在Windows平台下,设计并开发出基于IE内核的具有维、哈、柯文特色的Web浏览器.主要内容包括了介绍向浏览器中嵌入维、哈、柯文字库及输入法技术,实现网页地址转换和文种转换等功能,在浏览器上实现汉、维、哈、柯四种语言来支持用户的使用需求. 展开更多
关键词 柯文 网页地址转换和文种转换 web浏览器
下载PDF
一种基于自动WEB数据抽取生成黄页的方法
11
作者 扬抒 陈尚安 武刚 《微计算机信息》 2010年第33期14-16,共3页
利用蜘蛛技术爬取相关行业网站的数据。通过基于一种基于新的定位与模式匹配抽取WEB数据的方法,将得到的数据分类后以XML文件保存;通过相应的信息处理、表现技术对分类后的行业URL地址进行展现。最后以林业行业网址的获取和黄页的生成... 利用蜘蛛技术爬取相关行业网站的数据。通过基于一种基于新的定位与模式匹配抽取WEB数据的方法,将得到的数据分类后以XML文件保存;通过相应的信息处理、表现技术对分类后的行业URL地址进行展现。最后以林业行业网址的获取和黄页的生成为例进行了实现。 展开更多
关键词 行业黄页 web信息抽取 模式匹配 抽取规则
下载PDF
基于Python爬虫技术的网页内容文本大数据提取方法研究
12
作者 党浩予 《电脑与电信》 2023年第8期90-93,共4页
现如今网站的页面布局较为复杂、展示内容与文本信息较多,在单位时间内提高文本大数据提取数量难度较大,基于此以Python爬虫技术为支撑,开展网页内容文本大数据提取方法的设计研究。首先,对网页内容进行综合解析,获取网页内容文本数据,... 现如今网站的页面布局较为复杂、展示内容与文本信息较多,在单位时间内提高文本大数据提取数量难度较大,基于此以Python爬虫技术为支撑,开展网页内容文本大数据提取方法的设计研究。首先,对网页内容进行综合解析,获取网页内容文本数据,计算网页内容文本复杂度;其次,引进Python爬虫技术,计算特征信息权重,进行文本大数据特征的识别;最后,通过提取的文本大数据特征,构建网页内容文本相空间,采集大数据矢量信息,根据预设的条件,进行大数据关键信息的维度划分及信息提取。通过实验对比,在相同的条件下对比传统方法,本文设计的方法提取文本大数据数量最多、能力最强,可以提取更多的文本大数据信息,即该方法的文本大数据提取能力较强。 展开更多
关键词 Python爬虫技术 关联维度信息 提取方法 大数据 文本 网页内容
下载PDF
基于内容相似度的网页正文提取 被引量:20
13
作者 王利 刘宗田 +1 位作者 王燕华 廖涛 《计算机工程》 CAS CSCD 北大核心 2010年第6期102-104,共3页
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此... 提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。 展开更多
关键词 网页正文抽取 网页映射 网页清洗 文本相似度
下载PDF
基于SVM的中文网页分类方法的研究 被引量:22
14
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机工程与设计》 CSCD 北大核心 2007年第8期1893-1895,共3页
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取... 中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 支持向量机 特征提取 核函数 网页 文本分类
下载PDF
基于正文结构和长句提取的网页去重算法 被引量:13
15
作者 黄仁 冯胜 +2 位作者 杨吉云 刘宇 敖民 《计算机应用研究》 CSCD 北大核心 2010年第7期2489-2491,2497,共4页
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证... 针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。 展开更多
关键词 网页去重 正文结构树 长句提取 层次指纹
下载PDF
一种基于预分类的高效SVM中文网页分类器 被引量:19
16
作者 许世明 武波 +3 位作者 马翠 邸思 徐洪奎 杜如虚 《计算机工程与应用》 CSCD 北大核心 2010年第1期125-128,共4页
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重... 中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。 展开更多
关键词 支持向量机 中文网页分类 文本分类 机器学习
下载PDF
基于改进K最近邻分类算法的不良网页并行识别 被引量:6
17
作者 徐雅斌 李卓 陈俊伊 《计算机应用》 CSCD 北大核心 2013年第12期3368-3371,3379,共5页
互联网中,黄色、暴力、赌博、反动等不良网页大量存在。如果不进行有效过滤,将给搜索服务带来不良的影响。采用改进的K最近邻分类算法来提高识别的准确率,并在虚拟化平台上通过开源的Hadoop软件所提供的MapReduce模型进行分布式并行处... 互联网中,黄色、暴力、赌博、反动等不良网页大量存在。如果不进行有效过滤,将给搜索服务带来不良的影响。采用改进的K最近邻分类算法来提高识别的准确率,并在虚拟化平台上通过开源的Hadoop软件所提供的MapReduce模型进行分布式并行处理。对比实验结果表明,所采用的识别方法的识别准确率和识别效率都有较大的提高。 展开更多
关键词 不良网页 文本分类 K最近邻分类算法 HADOOP MAPREDUCE
下载PDF
基于Lucene的中文全文检索系统的研究与设计 被引量:6
18
作者 索红光 孙鑫 《计算机工程与设计》 CSCD 北大核心 2008年第19期5083-5086,共4页
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使... 提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。 展开更多
关键词 全文检索 网页正文提取 中文分词模块 索引文档预处理 文本聚类
下载PDF
基于支持向量机的中文网页自动分类 被引量:12
19
作者 贾泂 梁久祯 《计算机工程》 EI CAS CSCD 北大核心 2005年第10期145-147,共3页
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向量机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。
关键词 支持向量机 统计学习 优化 网页 文本分类
下载PDF
一种改进的页面相似性度量方法 被引量:4
20
作者 张霞 王建东 顾海花 《计算机工程与应用》 CSCD 北大核心 2010年第19期141-144,147,共5页
Web信息检索是指从大量Web文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。为了更准确地找到相似文档,借助于两个页面的单词覆盖程度,提出一种改进的Web页面检索度量方法,并在KNN分类实验中得到验证。
关键词 web页面检索 相似性 文本分类
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部