期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于文本块密度和标签路径覆盖率的网页正文抽取 被引量:5
1
作者 刘鹏程 胡骏 吴共庆 《计算机应用研究》 CSCD 北大核心 2018年第6期1645-1650,共6页
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征... 大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。 展开更多
关键词 正文抽取 文本块密度 标签路径覆盖率 特征融合
下载PDF
基于标签路径覆盖率和多文本特征的正文抽取算法
2
作者 郑野 宋旭东 +1 位作者 于林林 陈鑫影 《大连交通大学学报》 CAS 2019年第5期112-116,共5页
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正... 如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法. 展开更多
关键词 文本块密度 标签路径覆盖率 正文抽取
下载PDF
有约束的三维RFID读写器网络规划方法
3
作者 郁诺 《计算机工程》 CAS CSCD 北大核心 2017年第6期59-65,共7页
针对现有的读写器网络规划计算量大和优化困难的问题,基于微遗传算法,提出一种带有约束的网络规划方法,以优化无线射频识别读写器。运用空间交叉的方法解决种群数量较少导致的搜索能力退化问题,提高搜索能力。为降低迭代成本,校正方案... 针对现有的读写器网络规划计算量大和优化困难的问题,基于微遗传算法,提出一种带有约束的网络规划方法,以优化无线射频识别读写器。运用空间交叉的方法解决种群数量较少导致的搜索能力退化问题,提高搜索能力。为降低迭代成本,校正方案包含了冗余读写器的消除操作,使得校正后的可行性染色体都是低成本染色体。实验结果表明,与典型遗传算法和粒子群优化算法相比,该方法的计算效率较高,在计算时间和标签覆盖率方面具有较大优势。 展开更多
关键词 网络规划 遗传算法 标签覆盖率 染色体 空间交叉
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部