-
题名基于文本块密度和标签路径覆盖率的网页正文抽取
被引量:5
- 1
-
-
作者
刘鹏程
胡骏
吴共庆
-
机构
合肥工业大学计算机与信息学院
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第6期1645-1650,共6页
-
基金
国家重点研发计划资助项目(2016YFB1000901)
国家自然科学基金资助项目(61273297
+3 种基金
61229301
61673152)
国家教育部创新团队发展计划资助项目(IRT13059)
国家留学基金资助项目(201506695019)
-
文摘
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。
-
关键词
正文抽取
文本块密度
标签路径覆盖率
特征融合
-
Keywords
content extraction
text block density
tag path coverage
feature fusion
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于标签路径覆盖率和多文本特征的正文抽取算法
- 2
-
-
作者
郑野
宋旭东
于林林
陈鑫影
-
机构
大连交通大学软件学院
大连科技学院数字技术学院
-
出处
《大连交通大学学报》
CAS
2019年第5期112-116,共5页
-
基金
辽宁省自然科学基金资助项目(1553735707452,20170540144)
-
文摘
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.
-
关键词
文本块密度
标签路径覆盖率
正文抽取
-
Keywords
text block density
label path coverage
text extraction
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于块密度加权标签路径特征的Web新闻在线抽取
被引量:3
- 3
-
-
作者
吴共庆
刘鹏程
胡骏
胡学钢
-
机构
合肥工业大学计算机与信息学院
-
出处
《中国科学:信息科学》
CSCD
北大核心
2017年第8期1078-1094,共17页
-
基金
国家重点研发计划(批准号:2016YFB1000901)
教育部创新团队发展计划(批准号:IRT13059)
+2 种基金
国家自然科学基金(批准号:612-73297
61673152)
国家留学基金(批准号:201506695019)资助项目
-
文摘
Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声和噪声块中的内容;文本块密度特征能较好地识别高密度的内容块,但鲁棒性不足.因此,本文提出了一种可有效结合标签路径特征和文本块密度特征的Web信息抽取模型CEDP,结合两种特征的优点,设计了一种基于文本块密度加权的标签路径特征,并设计了基于该特征的Web新闻抽取算法CEDP-NLTD.CEDP-NLTD是一种快速的、通用的、无需训练的在线Web新闻内容抽取算法,适用于Web大数据环境下的多种来源、多种风格、多种语言的异构Web新闻网页抽取任务.在Clean Eval等测试数据集上的实验结果表明,CEDP-NLTD方法优于CETR,CETD,CEPR,CEPF等在线抽取方法,且优于基于CEDP模型直接使用CETD方法设计的3种块密度特征所形成的算法CEDP-TD,CEDP-CTD,CEDP-DSum.
-
关键词
内容抽取
WEB新闻
文本块密度
标签路径特征
在线算法
-
Keywords
content extraction
Web news
text block density
tag path feature
online algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP393.09
[自动化与计算机技术—计算机应用技术]
-