期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
基于文本频率页面分割算法对论坛正文提取
下载PDF
职称材料
导出
摘要
如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页面内的链接文本及结构特征,找出帖子所分布在的所有网址。再利用页面文本的频率特征,去除HTML标签后按空格对文本进行分词,根据其频率分布计算网页的分割标志,得到回帖所在的文本块。再用正则表达式提取时间信息,进一步去噪后即可得到主贴及回帖信息。
作者
马凯凯
钱亚赫
阮东跃
机构地区
浙江海洋大学数理与信息学院
出处
《中国水运(下半月)》
2018年第2期78-79,共2页
关键词
网页链接相似度
文本频率
正则表达式
网页去噪
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
引文网络
相关文献
节点文献
二级参考文献
39
参考文献
6
共引文献
113
同被引文献
0
引证文献
0
二级引证文献
0
参考文献
6
1
高丙坤,成战刚,李倩.
基于正则表达式的信息滤除算法[J]
.现代计算机,2008,14(2):54-55.
被引量:6
2
黄文蓓,杨静,顾君忠.
基于分块的网页正文信息提取算法研究[J]
.计算机应用,2007,27(B06):24-26.
被引量:32
3
赵鹏,蔡庆生,王清毅,耿焕同.
一种基于复杂网络特征的中文文档关键词抽取算法[J]
.模式识别与人工智能,2007,20(6):827-831.
被引量:44
4
陈富赞,寇继凇,王以直.
数据挖掘方法的研究[J]
.系统工程与电子技术,2000,22(8):78-81.
被引量:22
5
张旭,张振江,刘云.
BBS舆情系统爬虫模块的研究[J]
.铁路计算机应用,2010,19(12):18-21.
被引量:7
6
张恒,屈景辉,张亮.
网页文本信息提取及结果评价[J]
.微计算机应用,2007,28(9):921-924.
被引量:10
二级参考文献
39
1
欧健文,董守斌,蔡斌.
模板化网页主题信息的提取方法[J]
.清华大学学报(自然科学版),2005,45(S1):1743-1747.
被引量:70
2
荆涛,左万利.
基于可视布局信息的网页噪音去除算法[J]
.华南理工大学学报(自然科学版),2004,32(z1):84-87.
被引量:21
3
吴亮.
搜索引擎中网络爬虫的设计[J]
.决策与信息(财经观察),2008(7):139-140.
被引量:3
4
张志刚,陈静,李晓明.
一种HTML网页净化方法[J]
.情报学报,2004,23(4):387-393.
被引量:57
5
常育红,姜哲,朱小燕.
基于标记树表示方法的页面结构分析[J]
.计算机工程与应用,2004,40(16):129-132.
被引量:24
6
王琦,唐世渭,杨冬青,王腾蛟.
基于DOM的网页主题信息自动提取[J]
.计算机研究与发展,2004,41(10):1786-1792.
被引量:81
7
韦洛霞,李勇,李伟,邵明珠,罗诗裕.
汉字网络的3度分隔与小世界效应[J]
.科学通报,2004,49(24):2615-2616.
被引量:16
8
于满泉,陈铁睿,许洪波.
基于分块的网页信息解析器的研究与设计[J]
.计算机应用,2005,25(4):974-976.
被引量:55
9
程冲,黄水清.
利用正则表达式解析新闻网页的算法研究[J]
.农业图书情报学刊,2005,17(4):5-8.
被引量:7
10
吕铁强,于满泉,孟庆发,周立德.
基于网页分块的个性化信息采集的研究与设计[J]
.微电子学与计算机,2005,22(10):120-123.
被引量:10
共引文献
113
1
黄玲,陈龙.
基于网页分块的正文信息提取方法[J]
.计算机应用,2008,28(S2):326-328.
被引量:13
2
王丽菊.
面向属性归纳的特征规则挖掘方法的改进[J]
.鞍山科技大学学报,2004,27(6):443-445.
3
王杰,张静,张继生,曾子维.
数据挖掘中关联规则的研究与论证[J]
.鞍山科技大学学报,2005,28(2):123-126.
被引量:2
4
孙宪华.
知情房价构成[J]
.数据,2005(8):31-33.
被引量:2
5
彭广川,李颖.
数据挖掘的常用分析方法与算法研究[J]
.电脑知识与技术,2005(10):5-7.
被引量:2
6
马正华.
数据挖掘技术及其在煤炭企业中的应用研究[J]
.煤炭工程,2005,37(12):80-81.
被引量:8
7
井彦林,仵彦卿,杨丽娜,侯晓涛.
基于数据挖掘技术的黄土湿陷性评价[J]
.西北农林科技大学学报(自然科学版),2006,34(4):130-134.
被引量:10
8
邓菲楠,孙名松,鲁宁.
基于关联规则自动建模的入侵检测模型[J]
.哈尔滨理工大学学报,2006,11(2):94-96.
9
白云晖,郑怡文.
数据挖掘在影剧院信息管理中的应用分析[J]
.现代电影技术,2006(6):43-46.
被引量:2
10
白云晖.
决策树在厅堂音质分析中的应用[J]
.电声技术,2006,30(8):19-22.
1
钱志亮.
这些神逻辑正在无形中伤害孩子[J]
.爱情婚姻家庭(中旬),2017(11):85-86.
2
李琳.
基于Python的网络爬虫系统的设计与实现[J]
.信息通信,2017,30(9):26-27.
被引量:32
3
寄萍.
和林阳先生的几次相遇——在多重社会身份中穿梭的当代书家[J]
.大众书法,2017,0(4):4-11.
4
王健,张金.
基于节点权重的网页去噪方法的研究[J]
.计算机技术与发展,2017,27(10):83-86.
被引量:2
5
马雷雷,李宏伟,魏勇,梁汝鹏,龚竞.
基于规则的中文文本时间表达式识别和规范化方法[J]
.信息工程大学学报,2017,18(5):560-565.
被引量:8
6
张身贵.
品味名师揭题导课的“另有图谋”[J]
.教学月刊(小学版)(语文),2018(1):86-90.
7
闫继权.
虚拟语气讲与练[J]
.考试(高考理科版),2008,0(Z2):64-65.
8
刘胜.
基于警校网络社区舆情监测系统的研究[J]
.云南警官学院学报,2018(1):84-86.
9
陈翀,董悦,耿骞,潘京华.
以信息需求匹配为视角的政府信息公开效果评价[J]
.图书情报工作,2017,61(24):13-23.
被引量:7
10
旷志光,纪婷婷,吴小丽.
基于Vue.js的后台单页应用管理系统的研究与实现[J]
.现代计算机,2017,23(20):51-55.
被引量:16
中国水运(下半月)
2018年 第2期
职称评审材料打包下载
相关作者
内容加载中请稍等...
相关机构
内容加载中请稍等...
相关主题
内容加载中请稍等...
浏览历史
内容加载中请稍等...
;
用户登录
登录
IP登录
使用帮助
返回顶部