Web权威信息自动提取技术的研究及应用被引量：3

Study and Application of Automation Extraction Technology from Web Authoritative Information

下载PDF

导出

摘要 WWW为各行各业提供了大量的信息,但如何准确地从这些信息中提取出相关领域的权威信息是目前研究的热点问题之一。该文提出评判网站信息的多因素综合评估模型,该模型对网站的权威值进行合理计算,给出基于表格数据的语法树模型,完成了表格数据的自动提取。通过实例证明,该方法很好地解决了权威信息的准确和自动提取。 Although WWW has provided much information for all fields, how to extract the authoritative information from related fields exactly is becoming a hot topic. This paper provides a process of extracting table data it provides a multiple factors assessment model to judge the Web page. Using the model, the authoritative value of Web page can be gained correctly. It provides a table-based phrase tree method to extract the interesting data automatically. Example proves that this method can extract the authoritative information exactly and automatically.

作者李净袁小华沈晓晶

机构地区上海水产大学信息学院同济大学电信学院

出处《计算机工程》 CAS CSCD 北大核心 2008年第13期54-55,66,共3页 Computer Engineering

基金上海高校优秀青年教师科研专项基金资助项目

关键词数据提取 WEB数据挖掘语法树多因素综合评估表格 data extraction Web data mining phrasing tree multiple factors assessment table

分类号 TP311.132 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Chang Chia-Hui. Kayed M, Girgis M R. A Survey of Web Information Extraction Systems[J]. IEEE Trans. on Knowledge and Data Engineering, 2006, 18(10): 1411-1425.
2Laender A H F, Ribeiro-Neto B A, Da S A S, et al. A Brief Survey of Web Data Extraction Tools[J]. SIGMOD Record, 2002, 31(2): 84-93.
3Chirita P, Olmedilla D, Nejdl W, Finding Related PagesUsing the Link Structure of the WWW[C]//Proc. of IEEE/WIC/ACM International Conf. of Web Intelligence. New York, USA: ACM Press, 2004.
4Ingongngam P, Rungsawang A, Topic-centric Algorithm, A Novel Approach to Web Link Analysis[C]//Proc. of the 18th Int'l Conf. on Advanced Information Networking and Applications. [S. l.]:IEEE Press, 2004.
5袁毅.主题特征度在核心网站评价中的作用[J].情报杂志,2005,24(10):18-21. 被引量：3

二级参考文献6

1Search Engineer Watch.http:∥www.searchengineerwatch.com,2005-04-04
2Egghe L.Applications of the Theory of Bradford's Law to the Calculation of Leimkuhler's Law and to the Completion of Bibliographies.Journal of the American Society for Information Science,1990;(41)
3Cui L.Rating Health Web Sites Using the Principles of Citation Analysis:A Biblometric Cpproach.http:∥www.jmir.org/1999/1/e4/.1999/2005-04-04
4Thelwall M.Results from a Web Impact Factor Crawler.Journal of Documentation,2001;(2)
5Bar-Ilan J.Data Collection Methods on the Web for Informetric Purposes-A Review and Analysis.Scientometrics,2001;(1)
6蔡明月.资讯计量学与网路计量学[J].新世纪图书馆,2003(2):8-16. 被引量：20

共引文献2

1袁毅.基于Conglomerate的核心网域(站)确定方法[J].情报杂志,2007,26(2):74-76.
2黎远松.权威Web页面数据挖掘技术初探[J].科技信息,2010(26):237-237.

同被引文献21

1赵明清,蒋昌俊,陶树平.基于等价相异度矩阵的聚类[J].计算机科学,2004,31(7):183-184. 被引量：11
2刘茂福,何炎祥,彭敏.Web模糊聚类方法及其应用[J].计算机科学,2005,32(1):155-158. 被引量：7
3王泽彬,金飞,李夏,王冠.Web数据挖掘技术及实现[J].哈尔滨工业大学学报,2005,37(10):1403-1405. 被引量：11
4王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
5谢佳,王克峰.XML在数据交换中的应用[J].现代电子技术,2006,29(9):108-109. 被引量：2
6周晓梅,王潜平,苏琳.基于XML的Web数据挖掘模型的设计[J].计算机工程与设计,2007,28(2):272-274. 被引量：9
7袁新颜.简析XML与HTML的结合[J].电脑知识与技术,2007(4):263-264. 被引量：1
8张晓伟,杜龙非,刘丽娜.XML与Web数据挖掘技术[J].商场现代化,2007(08Z):27-28. 被引量：2
9范莉娅,肖田元.自动获取HTML表格语义层次结构方法[J].清华大学学报（自然科学版）,2007,47(10):1586-1590. 被引量：9
10肖剑,姜良华,章彪.Web浏览行为的客户端追踪的研究[J].微计算机信息,2007,23(33):270-272. 被引量：3

引证文献3

1肖强,钱晓东.使用去噪和相异度的电子商务网站用户访问聚类算法[J].计算机系统应用,2010,19(11):213-216. 被引量：2
2钱程,阳小兰.HTML到XML转换研究[J].计算机与现代化,2011(8):39-41. 被引量：2
3王仕艳.云环境中Web信息抓取技术的研究及应用[J].通信电源技术,2018,35(9):175-176. 被引量：1

二级引证文献5

1赵淑海,邵立.成长型中小企业电子商务应用调查与聚类分析——以山东省为例[J].济南大学学报（社会科学版）,2013,23(4):58-66. 被引量：4
2卢远征,叶晓彤.XML的DOM树结构在WEB挖掘中的应用[J].四川理工学院学报（自然科学版）,2013,26(3):64-67. 被引量：2
3李超建,朱晓姝.一种基于XML的中间转码模型设计与仿真[J].微电子学与计算机,2013,30(10):161-164. 被引量：1
4赵淑海,蔡永明,韩丹,马金柱,郭春燕.基于k-means聚类算法的山东省GSME企业网站应用分析[J].电子商务,2014,15(11):66-67.
5殷复莲,徐荣阁,刘志心,冀美琪.影视节目扁平化标签获取技术研究[J].软件导刊,2019,18(7):150-153. 被引量：1

1张严,冯登国,于爱民.云计算环境虚拟机匿名身份证明方案[J].软件学报,2013,24(12):2897-2908. 被引量：5
2徐雪.浅议数据安全的现状和发展[J].中国科技信息,2012(16):102-102. 被引量：1
3宋之杰,石蕊,王建.权威信息发布对突发事件微博谣言传播的影响研究[J].情报杂志,2016,35(12):41-46. 被引量：14
4杨平,王丹,赵文兵.微博网站中面向主题的权威信息搜索技术研究[J].计算机科学与探索,2013,7(12):1135-1145. 被引量：2
5胡长城.企业应用开发[J].程序员,2009(7):25-25.
6强强联手——华为3Com和瑞星共推家庭网络安全[J].上海信息化,2005(10):86-86.
7许会,金锋,王师,匡石.电容传感器场灵敏度的合理计算方法探讨[J].仪器仪表学报,1999,20(5):489-492. 被引量：6
8城市应急:很“急”[J].中国信息界,2015,0(6):36-41.
9第32次全国计算机安全学术交流会会议通知[J].计算机应用,2017,37(4).
10韩志君.大数据背景下的智慧政府门户研究[J].科技风,2014(4):216-216.

计算机工程

2008年第13期

浏览历史

内容加载中请稍等...

Web权威信息自动提取技术的研究及应用被引量：3

参考文献5

二级参考文献6

共引文献2

同被引文献21

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

Web权威信息自动提取技术的研究及应用 被引量：3

参考文献5

二级参考文献6

共引文献2

同被引文献21

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

Web权威信息自动提取技术的研究及应用被引量：3