-
题名基于文本块密度和标签路径覆盖率的网页正文抽取
被引量:5
- 1
-
-
作者
刘鹏程
胡骏
吴共庆
-
机构
合肥工业大学计算机与信息学院
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第6期1645-1650,共6页
-
基金
国家重点研发计划资助项目(2016YFB1000901)
国家自然科学基金资助项目(61273297
+3 种基金
61229301
61673152)
国家教育部创新团队发展计划资助项目(IRT13059)
国家留学基金资助项目(201506695019)
-
文摘
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。
-
关键词
正文抽取
文本块密度
标签路径覆盖率
特征融合
-
Keywords
content extraction
text block density
tag path coverage
feature fusion
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于标签路径覆盖率和多文本特征的正文抽取算法
- 2
-
-
作者
郑野
宋旭东
于林林
陈鑫影
-
机构
大连交通大学软件学院
大连科技学院数字技术学院
-
出处
《大连交通大学学报》
CAS
2019年第5期112-116,共5页
-
基金
辽宁省自然科学基金资助项目(1553735707452,20170540144)
-
文摘
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.
-
关键词
文本块密度
标签路径覆盖率
正文抽取
-
Keywords
text block density
label path coverage
text extraction
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名有约束的三维RFID读写器网络规划方法
- 3
-
-
作者
郁诺
-
机构
西安财经学院实验实训教学管理中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第6期59-65,共7页
-
基金
陕西省自然科学基础研究计划项目(2015JQ7277)
-
文摘
针对现有的读写器网络规划计算量大和优化困难的问题,基于微遗传算法,提出一种带有约束的网络规划方法,以优化无线射频识别读写器。运用空间交叉的方法解决种群数量较少导致的搜索能力退化问题,提高搜索能力。为降低迭代成本,校正方案包含了冗余读写器的消除操作,使得校正后的可行性染色体都是低成本染色体。实验结果表明,与典型遗传算法和粒子群优化算法相比,该方法的计算效率较高,在计算时间和标签覆盖率方面具有较大优势。
-
关键词
网络规划
遗传算法
标签覆盖率
染色体
空间交叉
-
Keywords
network planning
Genetic Algorithm (GA)
tag coverage rate
chromosome
space crossing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-