期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于PLSA模型的Web页面语义标注算法研究 被引量:5
1
作者 王云英 《情报杂志》 CSSCI 北大核心 2013年第1期141-144,共4页
高效的Web页面语义标注方法是提高Web信息资源利用效率和知识创新的关键。针对当前Web页面语义标注方法存在的问题和Web页面表现出的结构特征和文本特征及其主题分布规律,设计了基于PLSA主题模型的Web页面语义标注算法。该算法分别对We... 高效的Web页面语义标注方法是提高Web信息资源利用效率和知识创新的关键。针对当前Web页面语义标注方法存在的问题和Web页面表现出的结构特征和文本特征及其主题分布规律,设计了基于PLSA主题模型的Web页面语义标注算法。该算法分别对Web页面的结构特征和文本特征构建独立的PLSA主题模型,采用自适应不对称学习算法对这些独立的PLSA主题模型进行集成和优化,最终形成新的综合性的PLSA主题模型进行未知Web页面的自动语义标注。实验结果表明,该算法能够显著提高Web页面语义标注的准确率和效率,可以有效地解决大规模Web页面语义标注问题。 展开更多
关键词 语义标注 PLSA模型 潜在语义主题 标注算法 web页面
下载PDF
Web链接结构信息研究综述 被引量:5
2
作者 李剑 金蓓弘 《计算机科学》 CSCD 北大核心 2003年第4期95-98,138,共5页
As the size of WWW is growing at an incredible rate, there is some limitation in the methods that only analyzes the Web pages' information. This paper presents a basic model of Web link structure. Then it classifi... As the size of WWW is growing at an incredible rate, there is some limitation in the methods that only analyzes the Web pages' information. This paper presents a basic model of Web link structure. Then it classifies the algorithms that analyze the Web link structure information and their applications. At last, it presents the practical approach of analyzing Web link structure information. 展开更多
关键词 网络搜索引擎 网页内容 web链接结构信息 计算机网络
下载PDF
基于页面分块模型的PageRank算法研究 被引量:4
3
作者 白似雪 刘华斌 《南昌大学学报(工科版)》 CAS 2008年第2期179-183,共5页
提出了一个基于页面分块重要性模型的PageRank改进算法。该算法考虑同一页面内属于不同分块的出链接有着不同的重要性,故对不同分块的出链接赋予相应的权重,从而更合理、更公正、更有效地计算页面的PageRank值。与以往的PageRank算法及... 提出了一个基于页面分块重要性模型的PageRank改进算法。该算法考虑同一页面内属于不同分块的出链接有着不同的重要性,故对不同分块的出链接赋予相应的权重,从而更合理、更公正、更有效地计算页面的PageRank值。与以往的PageRank算法及其改进算法相比,该算法以基于视觉特征的页面分块算法为核心,更好地反映了网页的特性,符合了用户的使用习惯,具有良好的效果。 展开更多
关键词 pageRANK 页面分块重要性模型 链接分析 主题漂移 支持向量机
下载PDF
基于Web挖掘的专业文本特征提取方法研究 被引量:1
4
作者 吕林霞 张明新 《兰州石化职业技术学院学报》 2007年第3期33-35,共3页
通过对专业信息自动分类的文本特征提取方法的分析研究,提出在文本分析时根据Web内容挖掘和结构挖掘的方法提取特征词条来建立文本特征空间,同时利用专业类别向量、专业词典技术可有效解决高维空间问题。
关键词 web挖掘 专业信息 文档自动分类 特征提取
下载PDF
基于新型主题信息量化方法的Web主题信息提取研究 被引量:1
5
作者 吕聚旺 都云程 +1 位作者 王弘蔚 施水才 《现代图书情报技术》 CSSCI 北大核心 2008年第12期48-53,共6页
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采... 针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。 展开更多
关键词 网页主题信息信息抽取信息块语义信息IB—DOM树
下载PDF
基于最大流及页面相似度的Web结构挖掘 被引量:1
6
作者 李莹 吴晓军 《计算机技术与发展》 2011年第10期112-115,共4页
针对Web结构挖掘算法容易出现"主题漂移"以及主机间的多重互相加强关系的问题,提出了一种基于最大流与页面相似度值的超链接结构挖掘方法。该方法在传统的超链接结构挖掘算法HITS的基础上引入页面相似度值构造邻接矩阵,并结... 针对Web结构挖掘算法容易出现"主题漂移"以及主机间的多重互相加强关系的问题,提出了一种基于最大流与页面相似度值的超链接结构挖掘方法。该方法在传统的超链接结构挖掘算法HITS的基础上引入页面相似度值构造邻接矩阵,并结合基于最大流的Web社区发现技术来构建特征向量空间模型,通过迭代计算最终获得价值最高的权威结果集和中心结果集。实验结果证明该方法有较好的查准率与查全率,并有效抑制了"主题漂移"现象,具有一定的实用价值。 展开更多
关键词 web结构挖掘 主题漂移 页面相似度值
下载PDF
一种改进的基于网页主题链接的PageRank算法研究 被引量:1
7
作者 杨泳丹 《科技通报》 2019年第7期178-181,185,共5页
针对PageRank算法存在的不足,本文对网络链接的结构进行分析,并以此为基础对PageRank的算法进行了改进,提出了主题链接相似度的PageRank算法。本文算法的核心是将当前网页与入链网页的主题相关度作为传递权值,替换PageRank算法中以平均... 针对PageRank算法存在的不足,本文对网络链接的结构进行分析,并以此为基础对PageRank的算法进行了改进,提出了主题链接相似度的PageRank算法。本文算法的核心是将当前网页与入链网页的主题相关度作为传递权值,替换PageRank算法中以平均值作为权值。本文的PageRank-I算法将网页之间的链接作为链接的向量,以这种链接的关系来对向量的余弦相似度进行主题相关性的描述,而不用对额外的文本信息进行处理,减少了系统负担。实验结果证实本文的PageRank-I算法在没有增加系统的额外负担的同时,也没有增加时间上的复杂度,解决了PageRank算法中主题漂移的问题。 展开更多
关键词 网页主题链接 相似度 pageRANK算法 传递权值
下载PDF
IPSMS:一个网络舆情监控系统的设计与实现 被引量:21
8
作者 丁杰 徐俊刚 《计算机应用与软件》 CSCD 2010年第4期188-190,共3页
描述一个网络舆情监控系统IPSMS(Internet public sentiment monitoring system)。该系统试图将网络新闻及论坛、BBS上的帖子依关键词搜索,并依"事件"聚类,让管理者通过阅读事件可以了解正在发生或已经发生的事件,并提供自动... 描述一个网络舆情监控系统IPSMS(Internet public sentiment monitoring system)。该系统试图将网络新闻及论坛、BBS上的帖子依关键词搜索,并依"事件"聚类,让管理者通过阅读事件可以了解正在发生或已经发生的事件,并提供自动持续追踪事件发展的功能,以协助管理者快速完整且全面地了解事件全貌。系统由网页抓取器、网页解析器及跟踪检测系统三部分组成。由于网络舆情的特点是数据量巨大,为了提高效率,系统采用了网页清理技术,并且在话题跟踪过程中使用了k-d tree方法。最后,对系统的未来工作进行了展望。 展开更多
关键词 网络舆情 话题跟踪 话题检测 网页清理 k-d TREE
下载PDF
面向主题网页的公共图书馆知识服务——基于参与网络主题信息推送实践的思考 被引量:3
9
作者 陈天伦 李萍 《图书馆工作与研究》 CSSCI 北大核心 2017年第4期65-68,共4页
公共图书馆参与主题网页的信息整合工作,推送某一领域或主题的相关信息,是一种针对特定群体的知识服务。文章基于参与网络主题信息推送工作的实践,探讨这种知识服务的活动模式、寻找发现相关文献的方法、思考编辑高质量文摘的策略、审... 公共图书馆参与主题网页的信息整合工作,推送某一领域或主题的相关信息,是一种针对特定群体的知识服务。文章基于参与网络主题信息推送工作的实践,探讨这种知识服务的活动模式、寻找发现相关文献的方法、思考编辑高质量文摘的策略、审视构建特色知识库的思路。 展开更多
关键词 主题网页 web资源 知识服务 嵌入式服务 公共图书馆
下载PDF
基于分块的网页主题信息自动提取算法 被引量:6
10
作者 殷贤亮 李猛 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第10期39-41,共3页
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用... 对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率. 展开更多
关键词 网页分块 主题信息 自动提取 特征选择 网页分类
下载PDF
基于语义关联树的分类查询扩展算法 被引量:4
11
作者 任永功 范丹 武佳林 《计算机科学》 CSCD 北大核心 2009年第9期238-241,277,共5页
查询扩展技术中引入语义计算是一个重要的研究方向。针对现有解决方法普遍存在缺少主题知识、引入无关词以及筛选函数不恰当的问题,提出了一种结合主题选取与局部反馈方法的语义关联树模型,从语义的角度进行分类查询扩展。在传统方法基... 查询扩展技术中引入语义计算是一个重要的研究方向。针对现有解决方法普遍存在缺少主题知识、引入无关词以及筛选函数不恰当的问题,提出了一种结合主题选取与局部反馈方法的语义关联树模型,从语义的角度进行分类查询扩展。在传统方法基础上结合Web文本分类语料库进行了有主题的分类扩展,并改进了扩展词筛选函数,增加了阈值限定,有效控制了噪音。结合用户交互与局部反馈的方法不但减少了传统相关反馈中用户的工作量而且弥补了单纯局部反馈高度依赖于初次检索结果的缺陷。在SMART平台的实验结果表明,该方法相比一般的查询扩展算法查全率及查准率均有所提高。 展开更多
关键词 语义关联树 主题选取 查询扩展 web文本分类
下载PDF
面向新闻网的智能抓取技术 被引量:2
12
作者 吕振辽 翟莹莹 魏彦婧 《控制工程》 CSCD 北大核心 2013年第4期707-710,共4页
随着新闻网信息的急剧增加,研究面向新闻网的智能抓取技术变得十分必要。在基于主题网络爬虫的基础上,改进了网页与主题的相关度算法,设计出面向新闻网的智能抓取技术。按照预先确定的主题,分析超链接和刚刚抓取的网页内容,获取下一个... 随着新闻网信息的急剧增加,研究面向新闻网的智能抓取技术变得十分必要。在基于主题网络爬虫的基础上,改进了网页与主题的相关度算法,设计出面向新闻网的智能抓取技术。按照预先确定的主题,分析超链接和刚刚抓取的网页内容,获取下一个要爬行的URL。有选择的访问新闻网上的网页和相关的链接,尽可能保证多爬行与主题相关的网页。实验结果表明,改进后的抓取技术比以往的新闻网抓取技术在性能上有较大提升,抓取准确率显著提高。 展开更多
关键词 主题提取 网络爬虫 页面相关度
下载PDF
网页去重方法研究 被引量:7
13
作者 樊勇 郑家恒 《计算机工程与应用》 CSCD 北大核心 2009年第12期141-143,183,共4页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。 展开更多
关键词 组块 主题句向量 网页去重
下载PDF
改进的Shark-search算法在网络采集中的应用 被引量:1
14
作者 张玲 祁玉娟 姜华 《计算机技术与发展》 2017年第8期192-194,199,共4页
Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研... Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研究,提出了一种基于网页主题分块的Shark-search算法。该算法在经典Shark-search算法的基础上依据网页组织结构根据网页布局标签对页面内容进行分块,从网页,块和链接三个层面与主题的相关性得到链接的综合价值,因而具有自学习功能,能统计学习与主题相关性较大的块特征,并在发生主题漂移的时候具有自调整功能,给予主题相关性较大的父页面上的链接更多被抓取的机会。采集实验结果表明,所提出的算法在经典Shark-search的基础上能较好地改进主题信息采集的查准率,能够更灵活地针对实际的Web资源状况进行自调整。 展开更多
关键词 Shark-search算法 网页分块 web信息搜集 链接价值 主题漂移
下载PDF
一种有效的专题信息集中和检索策略 被引量:4
15
作者 王宇新 刘海峰 +1 位作者 郭禾 陈鑫 《计算机应用研究》 CSCD 北大核心 2010年第6期2106-2108,共3页
Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页... Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端。实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量。 展开更多
关键词 HITS算法 锚文本 网页标题 专题相关度 向量模型 专题训练集
下载PDF
基于非内容信息的网络关键资源有效定位 被引量:2
16
作者 刘奕群 张敏 马少平 《智能系统学报》 2007年第1期45-52,共8页
网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网... 网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的. 展开更多
关键词 网络信息检索 关键资源页面 主题过滤 机器学习
下载PDF
一个面向实时网页分类的主题特征提取算法 被引量:2
17
作者 彭浩 王雅琳 《计算机与现代化》 2008年第7期8-11,共4页
网页实时分类是聚焦爬虫需要解决的重要问题,现有主题特征提取方法多数是面向离线分类的,性能达不到应用要求。本文首先扩展了标签树表示模型DocView的节点类型,且将其作为加权的重要因素,然后提出一个面向实时网页分类的Web文本和文本... 网页实时分类是聚焦爬虫需要解决的重要问题,现有主题特征提取方法多数是面向离线分类的,性能达不到应用要求。本文首先扩展了标签树表示模型DocView的节点类型,且将其作为加权的重要因素,然后提出一个面向实时网页分类的Web文本和文本集主题特征提取算法。实验结果表明,算法的准确率提高了31%,主题偏移度降低了1倍多,能够满足应用要求。同时,还提出了一个新的主题特征提取性能评价模型。 展开更多
关键词 文本表示模型 实时分类 主题特征提取 聚焦爬虫
下载PDF
基于主题的网页去重 被引量:2
18
作者 樊勇 郑家恒 《电脑开发与应用》 2008年第4期4-6,25,共4页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于主题的去重方法。该方法通过组块的思想提取出网页正文的主题,然后进行主题的相似度计算,把重复的网页去除。实验证明,该方法... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于主题的去重方法。该方法通过组块的思想提取出网页正文的主题,然后进行主题的相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。 展开更多
关键词 组块 向量空间 网页去重 主题
下载PDF
WinHelp和HTML Help 被引量:2
19
作者 吕维先 《苏州丝绸工学院学报》 2000年第4期55-60,共6页
简要介绍了WinHelp和HTMLHelp以及如何使用HTMLHelpWorkshop设计帮助系统 ;详细介绍了如何在VB6 .0中和VC6 0中添加对帮助的支持 ,以及如何设计上下文敏感帮助。
关键词 WINHELP web 主题映射 帮助系统 设计
下载PDF
主题驱动的链接分析搜索算法
20
作者 李晓丽 杜振龙 《计算机工程与设计》 CSCD 北大核心 2009年第4期842-844,共3页
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移。对HITS算法进行了扩展,提出了一种主题驱动的HITS算法。该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性... 网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移。对HITS算法进行了扩展,提出了一种主题驱动的HITS算法。该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性计算,利用页面链接的拓扑结构传播页面的权威性。该算法能够搜索到与主题高耦合的结果,有效控制主题漂移,改善搜索质量。 展开更多
关键词 主题相关性 链接分析 web搜索 页面权威性 主题驱动
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部