期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于DOM树及行文本统计去噪的网页文本抽取技术
被引量:
4
1
作者
李霞
蒋盛益
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2012年第3期38-42,共5页
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本...
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。
展开更多
关键词
网页文本抽取
DOM树
行
文本
统计
标点符号统计
原文传递
基于统计的多文本网站文本内容抽取算法
被引量:
2
2
作者
王晴
《安徽电子信息职业技术学院学报》
2021年第4期6-12,共7页
随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的...
随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的研究成果,对各种算法进行了综合分析,然后针对科研网站这类多文本内容的网站,提出了一种基于统计的网站文本信息的抽取算法。该算法利用宽度优先搜索策略爬虫,获取网站的HTML源码,对源码的结构进行分析,将其解析成DOM树,最后再利用基于统计的方法将网站的文本信息抽取出来。通过验证,该算法可以较好地实现用于网站摘要的综合文本的抽取。
展开更多
关键词
自动
文本
摘要
网页文本抽取
宽度优先搜索
DOM树
ROUGE评价
下载PDF
职称材料
题名
基于DOM树及行文本统计去噪的网页文本抽取技术
被引量:
4
1
作者
李霞
蒋盛益
机构
广东外语外贸大学思科信息学院
出处
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2012年第3期38-42,共5页
基金
国家自然科学基金资助项目(61070061)
教育部人文社会科学研究青年基金资助项目(11YJCZH086)
广州社科青年基金资助项目(11Q20)
文摘
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。
关键词
网页文本抽取
DOM树
行
文本
统计
标点符号统计
Keywords
content extraction from web pages
DOM tree
statistical of line-text
statistical of punctuation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于统计的多文本网站文本内容抽取算法
被引量:
2
2
作者
王晴
机构
徐州开放大学
出处
《安徽电子信息职业技术学院学报》
2021年第4期6-12,共7页
基金
2019年度江苏开放大学(江苏城市职业学院)“十三五”科研规划课题“基于SPOC的高职混合教学模式探讨”(19TXZC-10)。
文摘
随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的研究成果,对各种算法进行了综合分析,然后针对科研网站这类多文本内容的网站,提出了一种基于统计的网站文本信息的抽取算法。该算法利用宽度优先搜索策略爬虫,获取网站的HTML源码,对源码的结构进行分析,将其解析成DOM树,最后再利用基于统计的方法将网站的文本信息抽取出来。通过验证,该算法可以较好地实现用于网站摘要的综合文本的抽取。
关键词
自动
文本
摘要
网页文本抽取
宽度优先搜索
DOM树
ROUGE评价
Keywords
automatic text summarization
webpage text extraction
breadth-first search
DOM tree
ROUGE evaluation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于DOM树及行文本统计去噪的网页文本抽取技术
李霞
蒋盛益
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2012
4
原文传递
2
基于统计的多文本网站文本内容抽取算法
王晴
《安徽电子信息职业技术学院学报》
2021
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部