-
题名基于SVM与DOM重心半径模型的Web正文提取
被引量:3
- 1
-
-
作者
易国洪
代瑜
冯智莉
黎慧源
-
机构
武汉工程大学计算机科学与工程学院
武汉工程大学智能机器人湖北省重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第6期206-210,共5页
-
基金
国家自然科学基金青年项目“基于能力集成动态规划的自适应软件需求的群体决策问题研究”(61502355)
-
文摘
为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并给出相应的公式推导和超参数选取过程。实验结果表明,与统计抽取、FFT抽取等算法相比,该算法的准确率和提取效率较高,泛化能力较好。
-
关键词
支持向量机
特征向量
重心半径
网页
正文提取
-
Keywords
Support Vector Machine(SVM)
feature vector
gravity radius
Web pages
content extraction
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名贪婪双尺寸频率算法的优化与改进
被引量:2
- 2
-
-
作者
黎慧源
易国洪
代瑜
冯智莉
-
机构
智能机器人湖北省重点实验室(武汉工程大学)
武汉工程大学计算机科学与工程学院
-
出处
《武汉工程大学学报》
CAS
2018年第6期685-690,共6页
-
基金
国家自然科学基金(61502355)
-
文摘
针对贪婪双尺寸频率算法不能反映频率未来走势的问题,在贪婪双尺寸频率算法的基础上,提出了一种新的缓存替换算法。该算法通过对文件和系统的访问次数进行周期性的计数,得到了文件的平均周期访问频率、最近周期访问频率和周期相对频率,并通过周期相对频率来体现文件访问频率的未来走势,弥补了传统的贪婪双尺寸频率算法的不足。新的缓存替换算法具有良好的适应性,提供了周期次数N和频率影响程度k这两个参数。使用者可以通过调整这两个参数让算法适应实际的访问情况。在符合齐普夫定律的数据下进行实验,结果表明该算法比传统的贪婪双尺寸频率算法具有更高的缓存命中率。
-
关键词
缓存替换算法
贪婪双尺寸频率算法
相对频率
访问周期
命中率
-
Keywords
cache replacement algorithm
GDSF algorithm
relative frequency
access cycle
hit ratio
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名并行化遗传算法研究综述
被引量:36
- 3
-
-
作者
冯智莉
易国洪
李普山
黎慧源
代瑜
-
机构
武汉工程大学计算机科学与工程学院
武汉工程大学智能机器人湖北省重点实验室
-
出处
《计算机应用与软件》
北大核心
2018年第11期1-7,80,共8页
-
基金
国家自然科学基金项目(61502355)
-
文摘
说明遗传算法的基本思想和特点。根据近五年国内遗传算法的研究现状,分析遗传算法当前发展的潜力与不足。对遗传算法未来的发展和研究热点进行了推理,指出遗传算法的主要发展方向是并行化,研究热点将集中在早熟机理和参数设置等方面,并且遗传算法未来会跟其他的技术进一步结合。从遗传算法的主要环节入手,分析遗传算法的并行化策略和4种常见的并行化模型,并分析不同模型使用的硬件环境和模型的优缺点。对并行化遗传算法的评价模型进行讨论,说明了常见的评价模型和改进之处。
-
关键词
经典遗传算法
并行化
性能评估
-
Keywords
Classical genetic algorithm
Parallelization
Performance evaluation
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-