互联网上信息报道的最早发布时间检测被引量：3

The Determination of the Earliest News Reporting Time on the Web

下载PDF

导出

摘要准确提取网上信息报道的最早发布时间,对于使用计算机辅助的社会科学研究来说具有重要价值。数据表明,有40%的信息报道无法从网页中直接提取出文章发布时间,此时,如果单纯依靠搜集时间和HTTP协议提供的网页文件最后修改时间信息来估计文章发布时间,就会造成较大误差。提出了两种能够提高计算精度的方法:链接分析法和拷贝分析法。大数据量实验表明,这两种方法具有很小的出错概率,是切实可用的。其中,链接分析法能够在一定程度上减少计算误差,而拷贝分析法则具有决定性的作用。当一篇信息报道能在网上找到多个拷贝(转载)时,就会有很大的概率准确推断出该报道在网上的最早发布时间。 Determination of the earliest time when an event is reported on the Web is of particular use for computer aided social science researches. Statistics has shown that 40% of Web pages have no evidence of publication time from their contents. For those cases, the crawling time or LMT （last-modified-time） from the H3TP header are often far off the real publication time. Therefore two methods for achieving better accuracy are proposed. The first one is based on link analysis and the other is based on replicas analysis. Experiments have shown that combining these two methods often gives rise to quite accurate results.

作者黄连恩张燕李晓明

机构地区北京大学信息科学技术学院

出处《计算机科学与探索》 CSCD 2009年第1期51-59,共9页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金国家高技术研究发展计划(863) 广东省重点实验室基金~~

关键词文章发布时间检测网络信息挖掘网页内容分析文本消重 publication time information mining content analysis replica detection

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1黄连恩,李晓明.基于历史网页的事件报导信息系统设计与分析[J].计算机工程与科学,2008,30(2):1-4. 被引量：3
2孟涛,闫宏飞,王继民.一个增量搜集中国W eb的系统模型及其实现[J].清华大学学报（自然科学版）,2005,45(S1):1882-1886. 被引量：7
3Eugene W. Myers. AnO(ND) difference algorithm and its variations[J] 1986,Algorithmica(1):251～266

二级参考文献17

1Huang Lianen, Yan Hongfei, Li Xiaoming. Engineering of Web InfoMall : The Chinese Web Archive[C]//Proc of the World Engineers Convention, 2004: 217-222.
2Internet Archive[EB/OL]. [2007-10-12]. http://www.archive. org.
3董关鹏.关于媒体与公关问题[R].在中央社会主义学院无党派人士学习班上的报告,2005.
4Koehler W. Web Page Change and Persistence: A Four-Year Longitudinal Study[J]. Journal of the American Society for Information Science and Technology,2002,53(2):162-171.
5祝建华李晓明.一个易用廉价的社会科学研究工具-‘易猫’.中国计算机学会通讯,2007,3(4):39-43.
6李晓明.当我们一天能搜集一千万网页后…….中国计算机学会通讯,2007,3(10):52-57.
7Zhang Zhigang, Chert Jing, Li Xiaoming A Preprocessing Framework and Approach for Web Applications[J]. Journal of Web Engineering, 2004,2 (3) : 176-192.
8Chakrabarti S. Mining the Web (Discovering Knowledge from Hypertext Data)[M]. San Fransisco, CA: Morgan Kaufmann, 2003.
9Broder A Z,Najork M,Janet L,et al.Efficient URL caching for world wide web crawling[].Proc th Int World Wide Web Conference.2003
10Cho J,Garcia-Molina H.Estimating frequency of change[].A CM Transactions on Internet Technology.2003

共引文献8

1王颖.主控网状通信策略在web搜集系统中的应用及模拟分析[J].中小企业管理与科技,2009(1):250-251.
2吴翠雁,黄建波,李浩,袁华.基于主动哈希和多级缓存的域名解析策略[J].广西师范大学学报（自然科学版）,2009,27(1):205-208. 被引量：1
3张燕,黄连恩,林武.一种基于领域的历史网页检索算法[J].计算机应用研究,2010,27(1):56-59.
4曾文,湛腾西.网络视频爬虫系统的设计与实现[J].中国科技信息,2010(15):96-99. 被引量：2
5杨颂,欧阳柳波.基于Heritrix的面向电子商务网站增量爬虫研究[J].软件导刊,2010,9(7):38-39. 被引量：6
6吴代文,詹海生.西安市数字方志全文检索系统的设计与实现[J].计算机技术与发展,2011,21(10):121-124. 被引量：1
7杨眉.网页更新预测算法研究现状[J].软件导刊,2013,20(4):57-59. 被引量：2
8阳广元.国内外Web Archive研究综述[J].图书馆杂志,2014,33(10):88-94. 被引量：8

同被引文献27

1王继民,陈翀,彭波.大规模中文搜索引擎的用户日志分析[J].华南理工大学学报（自然科学版）,2004,32(z1):1-5. 被引量：24
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3SALTON G, YANG C S, YU C T. A theory of term importance in automatic text analysis[J].Journal of the American Society for Information Science, 1975,26( 1 ) :33-44.
4ROBERTSON S, JONES K S. Relevance weighting of search terms [ J]. Journal of the American Society for Information Science, 1976,27(3) :129-146.
5PONTE J, CROFT W B. A language modeling approach to information retrieval[C]//Proc of the 21st ACM SIGIR Conference on Research and Development in Information Retrieval. 1995:275-281.
6SINGHAL A. Modem information retrieval: a brief overview [ J ].Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 200] ,24(4) :35-43.
7ROBERTSON S E, WALKER S, BEAULIEU M. Okapi at TREC-7 : automatic Ad hoc, filtering, VLC and interactive track[ C ]//Proc of the 7th Text Retrieval Conference, NIST Special Publication 500- 242. 1999:253-264.
8LAFFERTY J, ZHAI Cheng-xiang. Document language models, query models, and risk minimization for information retrieval [ C ]//Proc of the 24th ACM SIGIR Conference on Research and Development in Information Retrieval. 2001 : 111 - 119.
9SANDERSON M. Retrieving with good sense [ J ]. Information Retrieval, 2000,2( ] ) :49-69.
10SCHUTZE H, PEDERSEN J O. A cooccurrence-based thesaurus and two applications to information retrieval[ J]. Information Processing and Management, 1997,33(3) :307-318.

引证文献3

1张燕,黄连恩,林武.一种基于领域的历史网页检索算法[J].计算机应用研究,2010,27(1):56-59.
2耿瑞,李石君,尹为民.基于主题相关性和时间因素的改进PageRank算法[J].微电子学与计算机,2015,32(8):158-162. 被引量：1
3徐静,杨小平.基于线索特征的Web信息时效性评价方法[J].计算机应用,2018,38(11):3100-3104. 被引量：3

二级引证文献4

1应毅,黄慧,刘定一.基于PageRank的热点发现混合算法研究[J].计算机技术与发展,2019,29(9):81-85. 被引量：3
2周油,周园,王凯.“线上”智能支护系统设计[J].山东煤炭科技,2021,39(2):203-205.
3周南.基于属性分类的工程数据线索特征挖掘方法研究[J].信息工程大学学报,2020,21(6):694-698.
4张立莉,吕明辉,隋剑利,张晓美.内蒙古主要气象灾害预警信息发布时效性评估模型研究[J].科技创新与应用,2024,14(2):11-15. 被引量：1

1黄连恩,李晓明.基于历史网页的事件报导信息系统设计与分析[J].计算机工程与科学,2008,30(2):1-4. 被引量：3
2蒋旦,张翔.基于语义的短文本消重算法研究[J].网络新媒体技术,2017,6(1):45-51. 被引量：2
3李树青.结合网页内容分析的PageRank算法初探[J].情报杂志,2005,24(12):34-35. 被引量：1
4王圆,蔡增玉,王兴杰.WEB搜索引擎关键技术研究[J].科技资讯,2008,6(23):10-11. 被引量：1
5OASIS.在Windows中延长系统对USB设备的检测时间[J].大众电脑,2004(12):78-78.
6何俊林.浅谈计算机技术对社会科学研究的影响[J].才智,2012,0(27):55-55. 被引量：1
7巫宜国.基于声卡的信号继电器动作时间检测[J].中国科技博览,2013(36):72-73.
8阮进,袁景瑞,梁循.互联网金融新闻搜索的文本消重方法研究[J].西华大学学报（自然科学版）,2008,27(2):1-3.
9金明珠,丁岳伟.基于统计模型的主题爬虫的研究与实现[J].计算机工程与设计,2010,31(16):3700-3704. 被引量：3
10王小林,刘宏申.搜索引擎的设计研究[J].计算机技术与发展,2007,17(2):5-7. 被引量：7

计算机科学与探索

2009年第1期

浏览历史

内容加载中请稍等...

互联网上信息报道的最早发布时间检测被引量：3

参考文献3

二级参考文献17

共引文献8

同被引文献27

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

互联网上信息报道的最早发布时间检测 被引量：3

参考文献3

二级参考文献17

共引文献8

同被引文献27

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

互联网上信息报道的最早发布时间检测被引量：3