期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于网页分块的正文信息提取方法 被引量:13
1
作者 黄玲 陈龙 《计算机应用》 CSCD 北大核心 2008年第S2期326-328,共3页
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中... 网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。 展开更多
关键词 WEB信息抽取 主题内容块 网页正文信息
下载PDF
Web页面自顶向下的正文信息定位算法 被引量:2
2
作者 缪霖 邱会中 《计算机工程》 CAS CSCD 北大核心 2010年第13期76-78,共3页
正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从... 正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。 展开更多
关键词 正文信息定位 文字链接率 最佳正文子树 标签树
下载PDF
词典正文前信息的历史与现状
3
作者 申伟 《广东行政学院学报》 2003年第6期93-96,共4页
词典正文前信息通常由书名页、目录、序言或前言或导言、词典用法指南、缩略语及符号说明等内容组成。它们为正文提供背景材料,起引言作用,并引导用户查阅所期望的信息。
关键词 词典 正文信息 历史 现状 书名页 目录 序言
下载PDF
标题与正文语义融合的新闻向量表示方法
4
作者 连晓颖 薛源海 +1 位作者 刘悦 沈华伟 《计算机工程与应用》 CSCD 北大核心 2023年第4期89-96,共8页
针对新闻正文文本长度大、语义信息复杂的问题,提出了一种标题与正文语义融合的新闻向量表示方法(NRTA模型)。以新闻标题为查询,从正文的多个区域中挖掘标题的补充信息,关注前文语义的同时也关注后文语义,减少对新闻正文理解的偏差。在... 针对新闻正文文本长度大、语义信息复杂的问题,提出了一种标题与正文语义融合的新闻向量表示方法(NRTA模型)。以新闻标题为查询,从正文的多个区域中挖掘标题的补充信息,关注前文语义的同时也关注后文语义,减少对新闻正文理解的偏差。在两个真实新闻推荐数据集MIND和Adressa上的实验表明,该方法较基线方法在各评价指标上的提升幅度在0.86%到3.95%之间,验证了正文后文语义信息的重要性,进一步丰富了新闻向量表示。 展开更多
关键词 新闻推荐 正文语义信息 向量表示 注意力机制
下载PDF
基于DIV标签分段的藏文网页正文提取研究 被引量:4
5
作者 才让叁智 赵栋材 《西藏大学学报(社会科学版)》 CSSCI 2016年第2期70-77,共8页
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实... 文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。 展开更多
关键词 藏文网页 分段 正文信息 DIV元素 标签
下载PDF
基于标签密度的自适应正文提取方法 被引量:3
6
作者 孙皓 董守斌 《郑州大学学报(理学版)》 CAS 北大核心 2009年第1期44-47,共4页
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分... 提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的. 展开更多
关键词 标签密度 锚文本密度 正文信息 网页去噪
下载PDF
基于视觉热区的网页内容抽取方法 被引量:1
7
作者 邵俊 《计算机应用与软件》 CSCD 北大核心 2012年第6期199-201,共3页
对网页抽取进行研究,提出一种新的网页正文信息提取方法,它利用网页布局特征与网页视觉热区来确定网页正文信息。首先选取网页的一部分区域作为网页视觉热区,通过文档对象模型得到候选正文信息块,在此基础上,给出候选正文信息块重要度... 对网页抽取进行研究,提出一种新的网页正文信息提取方法,它利用网页布局特征与网页视觉热区来确定网页正文信息。首先选取网页的一部分区域作为网页视觉热区,通过文档对象模型得到候选正文信息块,在此基础上,给出候选正文信息块重要度函数确定网页正文信息。实验结果表明,该方法具有良好的性能。 展开更多
关键词 布局特征 视觉热区 文档对象模型 候选正文信息 重要度函数
下载PDF
基于主题句相似度的标题党新闻鉴别技术研究 被引量:6
8
作者 王志超 翁楠 王宇 《现代图书情报技术》 CSSCI 北大核心 2011年第11期48-53,共6页
针对目前网络上的标题党新闻,提出一种标题党新闻自动识别的算法。通过分析新闻网页构成的特点,抽取出新闻标题和新闻正文;以句子关系矩阵为基础,提出一种以语句为单位的主题句抽取算法;根据句子相似度计算结果来进行判断。实验表明,本... 针对目前网络上的标题党新闻,提出一种标题党新闻自动识别的算法。通过分析新闻网页构成的特点,抽取出新闻标题和新闻正文;以句子关系矩阵为基础,提出一种以语句为单位的主题句抽取算法;根据句子相似度计算结果来进行判断。实验表明,本方法的识别精度可达到80%,是一种有效的方法。 展开更多
关键词 标题党新闻 新闻标题抽取 新闻正文信息抽取 句子相似度计算 主题句抽取
原文传递
IHS美国军用标准全文数据库光盘系统介绍
9
作者 王玉坤 《航空标准化与质量》 1994年第3期19-21,共3页
在简要介绍美国军用标准全文数据库光盘系统引进和变更情况后,对IHS的全文库系统的数据组成、运行环境。
关键词 美国军用标准 全文数据库 全文库 光盘系统 系统功能 美国国家标准化协会 正文信息 缩微平片 联邦信息处理标准 运行环境
原文传递
国家军用标准全文数据库系统
10
作者 谢维民 《航空标准化与质量》 1994年第2期8-10,共3页
简要介绍了国家军用标准全文数据库系统的开发背景、构成和意义,描述了系统的功能、性能、处理流程和运行环境等。
关键词 全文数据库 国家军用标准 国军标 正文信息 处理流程 国家军用标准化 运行环境 管理系统 全文检索系统 管理效率
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部