网络舆情中的信息预处理与自动摘要算法被引量：8

Web Data Preprocessing and Automatic Abstract for the Public Opinion

下载PDF

导出

摘要提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法. This paper firstly introduced an approach of the data preprocessing and formatting from the original web pages based on web wrappers. Then, an algorithm of automatic abstract for the public opinion is presented. During the process of the automatic abstract operation, we use the technique of Inverted-Index to furthermore decrease the algorithm＇s complexity. And the policy of weight analysis based on key words is used to ensure people to find the most cared information. Finally, the experiment results show that the proposed algorithm is very efficient.

作者廉捷刘云

机构地区北京交通大学电子信息工程学院

出处《北京交通大学学报》 CAS CSCD 北大核心 2010年第5期94-99,共6页 JOURNAL OF BEIJING JIAOTONG UNIVERSITY

基金国家自然科学基金资助项目(60972012) 北京市自然科学基金资助项目(4102047) 教育部哲学人文社会科学研究重大课题(08WL1101) 北京市教育委员会学科建设与研究生建设项目资助(JXKJD20090001) 科技人员服务企业项目资助(2009GJA00048) 中央高校基本科研业务费专项资金资助(2009YJS007)

关键词自动摘要网页预处理信息抽取倒排索引网络舆情 automatic abstract web page preprocessing information extraction inverted-index public opinion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1中国互联网络信息中.CNNIC中国互联网络发展状况统计报告[EB/OL].(2009-07-01)http://www.cnnie.net.cn.
2VeriSign the VeriSign Domain Report[EB/OL]. [2009- 09-07 ]. http: /// www. verisign.com/domain-name-ser- vices/domain-information-center/domainname- resources/ domain-name-report- sept09, pdf.
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
4张彦超,刘云,李勇,沈波.基于自动生成模板的Web信息抽取技术[J].北京交通大学学报,2009,33(5):40-45. 被引量：13
5欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
6Wang Jiying, Frederick H Lochovsky. Data-Rich Section Extraction From HTML Pages[C]//J Proc 3rd Int Conf on Web Info SystEng(WISE.02). Singapore: IEEE Computer Society Press, 2002:313 - 322.
7Ashraf F, yzyer T, Alhajj R. Employing Clustering Techniques for Automatic Information Extraction From HTML Documents[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2008, 38 (5) :660 - 673.
8张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
9刘挺,王开铸.自动文摘的四种主要方法[J].情报学报,1999,18(1):10-19. 被引量：55
10李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101

二级参考文献87

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
6莫燕,王永成.中文文献摘要的自动编制[J].现代图书情报技术,1993(3):10-12. 被引量：15
7李明.从字频统计出发的中文文摘自动编写[J].现代图书情报技术,1996(3):42-45. 被引量：20
8孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报,2007,18(6):1400-1418. 被引量：72
9Shian-Hua Lin, Jan-Ming Ho. Discovering informative content blocks from Web documents. In: SIGKDD, 2002
10Soumen Chakrabarti, Mukul M. Joshi and Vivek B. Tawde.Enhanced topic distillation using text, markup tags, and hyperlinks. In: SIGIR, 2001

共引文献412

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
3杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
4刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
5欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
6王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
7孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
8郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
9杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
10张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3

同被引文献39

1张东霞.基于高校学生微博的舆情热点分析与发现[J].东南传播,2013(6):87-89. 被引量：7
2何明升.复杂巨系统:互联网—社会研究的一个新视角[J].学术交流,2005(7):118-124. 被引量：9
3郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
4谢海光,陈中润.互联网内容及舆情深度分析模式[J].中国青年政治学院学报,2006,25(3):95-100. 被引量：114
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
6化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
7CNNIC.第28次中国互联网络发展状况统计报告[R].北京:中国互联网络信息中心,2011.
8LIU Hong, LI Xiaojun. Internet public opinion hotspot detection research based on K-means algorithm[C] //TAN Y, SHI Y, TAN K C. Advances in Swarm Intelligence. Berlin Heidelberg..Springer-verlag, 2010:594 -602.
9GUAN Quanlong, YE Saizhi, YAO Guoxiang, et al. Research and design of internet public opinion analysis system[Z]. IITA International Conference on Services Science, Management and Engineering, Zhangjiajie, 2009.
10郭茜,杨晓春,于戈,李广翱.用于改善web搜索的结构化数据抽取技术(英文)[J]Journal of Southeast University(English Edition),2008(03).

引证文献8

1彭静,翟英,冯爽.后缀树算法在舆情聚类中的应用[J].河北科技大学学报,2012,33(1):65-68. 被引量：1
2张寿华,丛帅,尚开雨,孟庆武,李继民.网络舆情追踪中热点关键词的提取[J].河北大学学报（自然科学版）,2012,32(3):311-315. 被引量：9
3张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统,2013,34(3):471-474. 被引量：25
4赵伟.高校网络突发事件应急处置系统的设计与实现[J].电子设计工程,2015,23(10):30-32.
5夏顺辉.高校网络舆情突发事件特点及应急处置系统设计——信息化背景下[J].现代商贸工业,2015,36(18):135-137. 被引量：1
6王珍.网络舆情监测技术研究及其在高校的应用[J].电脑知识与技术,2016,0(8):42-43. 被引量：1
7高云.基于DOM验证蒙提霍尔悖论的设计与实现[J].山西大同大学学报（自然科学版）,2017,33(1):1-6.
8王锦尧.互联网新闻对传统新闻媒体的影响及对策[J].新闻研究导刊,2015,6(21). 被引量：3

二级引证文献39

1范纯龙,肖昕,余玲,徐蕾.基于论坛信息的水军组织行为分析[J].沈阳航空航天大学学报,2012,29(5):64-67. 被引量：4
2吴姣.网络舆情主题的情感倾向分析[J].新闻传播,2013(3):105-105.
3张伟佳,丛帅,崔巍.论网络舆情监测系统中关键词智能追踪模型的建立[J].计算机光盘软件与应用,2013,16(23):29-30. 被引量：1
4张昭,艾中良.一种基于用户关联分析的热点话题识别算法[J].计算机与现代化,2014(1):156-160. 被引量：2
5黄斐一,孙立军,孔繁盛.构建移动互联网业务安全框架[J].移动通信,2014,38(5):27-30. 被引量：1
6武建军,罗文龙.基于SVM的热点话题跟踪实现过程研究[J].信息安全与技术,2016,7(3):21-23.
7马彦.大数据环境下微博舆情热点话题挖掘方法研究[J].现代情报,2014,34(11):29-33. 被引量：9
8骆绍烨.一种基于用户兴趣的STC改进算法[J].江南大学学报（自然科学版）,2015,14(1):85-89.
9李洪利,王箭.基于用户关联的热点话题检测方法[J].计算机与现代化,2015(4):20-25. 被引量：1
10林源.网络舆情研究综述[J].科技情报开发与经济,2015,28(8):146-150. 被引量：3

1刘艳民.中文网页分类方法的研究[J].微电子学与计算机,2009,26(9):166-169. 被引量：3
2段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现[J].计算机科学,2007,34(6):210-213. 被引量：12
3黄媛.面向网络爬虫的企业网站优化策略[J].信息系统工程,2017,30(4):23-23. 被引量：2
4梁党卫,彭文滔,边利亚.垂直搜索引擎中过滤器的设计与实现[J].计算机应用与软件,2009,26(12):148-151. 被引量：2
5刘冬梅,王俊义.HTML文本自动分类预处理方法的研究应用[J].内蒙古大学学报（自然科学版）,2007,38(1):75-78. 被引量：4
6张宇航.微博社交网络数据挖掘与用户权重分析[J].中国高新技术企业,2016(5):190-191.
7郭晓慧.基于层次分析的个性化推荐算法[J].长春工业大学学报,2016,37(6):587-591.
8薛永大.网页分类技术研究综述[J].电脑知识与技术,2012,8(9):5958-5961. 被引量：2
9李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35. 被引量：17
10顾韵华,高原,高宝,杜杰.基于模板和领域本体的Deep Web信息抽取研究[J].计算机工程与设计,2014,35(1):327-332. 被引量：15

北京交通大学学报

2010年第5期

浏览历史

内容加载中请稍等...

网络舆情中的信息预处理与自动摘要算法被引量：8

参考文献13

二级参考文献87

共引文献412

同被引文献39

引证文献8

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

网络舆情中的信息预处理与自动摘要算法 被引量：8

参考文献13

二级参考文献87

共引文献412

同被引文献39

引证文献8

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

网络舆情中的信息预处理与自动摘要算法被引量：8