-
题名基于网页分块的正文信息提取方法
被引量:13
- 1
-
-
作者
黄玲
陈龙
-
机构
重庆邮电大学计算机科学与技术研究所
-
出处
《计算机应用》
CSCD
北大核心
2008年第S2期326-328,共3页
-
基金
重庆市自然科学基金资助项目(2007BB2454)
-
文摘
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。
-
关键词
WEB信息抽取
主题内容块
网页正文信息
-
Keywords
Web information extraction
informative content block
main text of Web page
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名Web页面自顶向下的正文信息定位算法
被引量:2
- 2
-
-
作者
缪霖
邱会中
-
机构
电子科技大学计算机科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第13期76-78,共3页
-
基金
国家"863"计划基金资助项目"Web舆情的社会网络关系挖掘"(2007AA01Z440)
-
文摘
正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。
-
关键词
正文信息定位
文字链接率
最佳正文子树
标签树
-
Keywords
content information localization
text link rate
best content sub tree
tag tree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名词典正文前信息的历史与现状
- 3
-
-
作者
申伟
-
机构
广东行政学院外语系
-
出处
《广东行政学院学报》
2003年第6期93-96,共4页
-
文摘
词典正文前信息通常由书名页、目录、序言或前言或导言、词典用法指南、缩略语及符号说明等内容组成。它们为正文提供背景材料,起引言作用,并引导用户查阅所期望的信息。
-
关键词
词典
正文前信息
历史
现状
书名页
目录
序言
-
Keywords
dictionary
front matter
ahead of main body
the past
current situation
-
分类号
H06
[语言文字—语言学]
-
-
题名标题与正文语义融合的新闻向量表示方法
- 4
-
-
作者
连晓颖
薛源海
刘悦
沈华伟
-
机构
中国科学院计算技术研究所数据智能系统研究中心
中国科学院大学
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第4期89-96,共8页
-
基金
国家自然科学基金(62002347)。
-
文摘
针对新闻正文文本长度大、语义信息复杂的问题,提出了一种标题与正文语义融合的新闻向量表示方法(NRTA模型)。以新闻标题为查询,从正文的多个区域中挖掘标题的补充信息,关注前文语义的同时也关注后文语义,减少对新闻正文理解的偏差。在两个真实新闻推荐数据集MIND和Adressa上的实验表明,该方法较基线方法在各评价指标上的提升幅度在0.86%到3.95%之间,验证了正文后文语义信息的重要性,进一步丰富了新闻向量表示。
-
关键词
新闻推荐
正文语义信息
向量表示
注意力机制
-
Keywords
news recommendation
semantic information of news body
news vector representation
attention mechanism
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于DIV标签分段的藏文网页正文提取研究
被引量:4
- 5
-
-
作者
才让叁智
赵栋材
-
机构
西藏大学藏文信息技术研究中心
-
出处
《西藏大学学报(社会科学版)》
CSSCI
2016年第2期70-77,共8页
-
基金
2015年度西藏自治区自然科学基金项目"藏文搜索引擎关键技术研究"(项目号:2015ZR-14-9)
2015年度西藏自治区自然科学基金项目"基于逐字匹配的藏文分词技术与未登录词研究"(项目号:2015ZR-14-10)
2013年度国家自然科学基金重大项目"跨语言社会舆情分析基础理论与关键技术研究"(项目号:61331013)阶段性成果
-
文摘
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。
-
关键词
藏文网页
分段
正文信息
DIV元素
标签
-
Keywords
Tibetan webpage
paragraphing
main body text information
DIV element
tagging
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于标签密度的自适应正文提取方法
被引量:3
- 6
-
-
作者
孙皓
董守斌
-
机构
华南理工大学广东省计算机网络重点实验室
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2009年第1期44-47,共4页
-
基金
国家863计划项目
编号2006AA012196
-
文摘
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.
-
关键词
标签密度
锚文本密度
正文信息
网页去噪
-
Keywords
tag density
anchor density
content information
Web denoising
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于视觉热区的网页内容抽取方法
被引量:1
- 7
-
-
作者
邵俊
-
机构
盐城工学院实验教学部
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第6期199-201,共3页
-
文摘
对网页抽取进行研究,提出一种新的网页正文信息提取方法,它利用网页布局特征与网页视觉热区来确定网页正文信息。首先选取网页的一部分区域作为网页视觉热区,通过文档对象模型得到候选正文信息块,在此基础上,给出候选正文信息块重要度函数确定网页正文信息。实验结果表明,该方法具有良好的性能。
-
关键词
布局特征
视觉热区
文档对象模型
候选正文信息块
重要度函数
-
Keywords
Layout features Visual hot zone Document object model Candidate content blocks Significance function
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题句相似度的标题党新闻鉴别技术研究
被引量:6
- 8
-
-
作者
王志超
翁楠
王宇
-
机构
上海交通大学情报科学技术研究所
南京大学工程管理学院
大连理工大学管理学院
-
出处
《现代图书情报技术》
CSSCI
北大核心
2011年第11期48-53,共6页
-
文摘
针对目前网络上的标题党新闻,提出一种标题党新闻自动识别的算法。通过分析新闻网页构成的特点,抽取出新闻标题和新闻正文;以句子关系矩阵为基础,提出一种以语句为单位的主题句抽取算法;根据句子相似度计算结果来进行判断。实验表明,本方法的识别精度可达到80%,是一种有效的方法。
-
关键词
标题党新闻
新闻标题抽取
新闻正文信息抽取
句子相似度计算
主题句抽取
-
Keywords
Title party news News title extraction News information extraction Sentence similarity computing Topic sentence extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名IHS美国军用标准全文数据库光盘系统介绍
- 9
-
-
作者
王玉坤
-
出处
《航空标准化与质量》
1994年第3期19-21,共3页
-
文摘
在简要介绍美国军用标准全文数据库光盘系统引进和变更情况后,对IHS的全文库系统的数据组成、运行环境。
-
关键词
美国军用标准
全文数据库
全文库
光盘系统
系统功能
美国国家标准化协会
正文信息
缩微平片
联邦信息处理标准
运行环境
-
分类号
T-657.12
[一般工业技术]
-
-
题名国家军用标准全文数据库系统
- 10
-
-
作者
谢维民
-
机构
国防科工委军标中心计算机分部
-
出处
《航空标准化与质量》
1994年第2期8-10,共3页
-
文摘
简要介绍了国家军用标准全文数据库系统的开发背景、构成和意义,描述了系统的功能、性能、处理流程和运行环境等。
-
关键词
全文数据库
国家军用标准
国军标
正文信息
处理流程
国家军用标准化
运行环境
管理系统
全文检索系统
管理效率
-
分类号
T-652.1
[一般工业技术]
-