HTML文件的文本信息预处理技术被引量：12

Text Information Preprocessing for HTML

下载PDF

导出

摘要介绍了一种常用的文件类型HTML文件的文本信息预处理技术。该方法能够解析HTML文件的组成结构,并从中提取出主体文本以供处理。测试表明该方法能有效地得到大部分HTML网页的主体部分。文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价值。 The paper proposes a text preprocessing method for HTML. The method can parse HTML file, and extract the main part from the HTML file, The experiment shows that the method is feasible to parse HTML, files. The method proposed in this paper can be used not only to extract main text of HTML files but also to get other element of HTML files.

作者王志琪王永成

机构地区上海交通大学计算机科学与工程系

出处《计算机工程》 CAS CSCD 北大核心 2006年第5期46-48,67,共4页 Computer Engineering

基金国家"863"计划基金资助项目(2002AA119050)

关键词 HTML 文本信息预处理 HTML Text information Preprocessing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1Tkach D.Technology Text Mining:Turning Information into Knowledge[R].A White Paper from IBM,1998.
2Baizilay R,Elhadad M.Using Lexical Chains for Text Summari-zation[C].Proceeding of the ACL'97 / EACL'97 Workshop on Intelligent Scalable Text Summarization,Madrid,Spain,1997:10.
3Lemay L,Danesh A.宛延闿,周晓牧,苏俊等译.HTML Web页面制作教程[M].北京:清华大学出版社,2000.

同被引文献79

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5马景娣,朱玉奴.SPIE数字图书馆及其检索[J].现代图书情报技术,2004(12):78-80. 被引量：1
6陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
7朱明,王庆伟.半结构化网页中多记录信息的自动抽取方法[J].计算机仿真,2005,22(12):95-97. 被引量：2
8代六玲,王树梅,黄河燕,陈肇雄.一种改进的多关键字匹配算法[J].南京理工大学学报,2005,29(6):735-739. 被引量：4
9谢佳,王克峰.XML在数据交换中的应用[J].现代电子技术,2006,29(9):108-109. 被引量：2
10潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16

引证文献12

1程仁贵.带反向词频的中英文词典的设计[J].重庆工学院学报（自然科学版）,2008,22(11):165-168.
2方元康,胡学钢,夏启寿,朱勇.改进的Web日志数据预处理技术[J].计算机工程,2009,35(10):73-74. 被引量：3
3宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,49(4):594-597. 被引量：20
4王舒,朱敏,张明,牛颢,赵瑜.一种基于特征符号的网页主题信息抽取方法[J].计算机应用研究,2009,26(12):4539-4541. 被引量：4
5孔胜,王宇.一种基于正文特征的新闻网页抽取方法[J].情报杂志,2010,29(8):122-124. 被引量：7
6张瑞雪,宋明秋,公衍磊.逆序解析DOM树及网页正文信息提取[J].计算机科学,2011,38(4):213-215. 被引量：15
7钱程,阳小兰.HTML到XML转换研究[J].计算机与现代化,2011(8):39-41. 被引量：2
8方爽,殷俊杰,徐武平.基于相似图片聚类的Web文本特征算法[J].计算机工程,2014,40(12):161-165. 被引量：3
9陈睿嘉,康志忠,张卫涛.基于网络爬虫的导航深度服务信息自动采集[J].测绘工程,2015,24(1):17-24. 被引量：8
10王亚普,王志坚,叶枫.一种改进的树路径模型在网页聚类中的研究[J].计算机科学,2015,42(5):109-113. 被引量：1

二级引证文献74

1宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
2熊子奇,张晖,林茂松.基于相似度的中文网页正文提取算法[J].西南科技大学学报,2010,25(1):80-84. 被引量：3
3王楠.一种实现Web数据到XML文档的转换算法[J].大连海事大学学报,2010,36(3):76-78.
4毕永成.Web日志挖掘中预处理过程的具体研究[J].现代电子技术,2010,33(18):97-100. 被引量：2
5李文立,王乐超,宋春雷.基于HTML树和模板的文献信息提取方法研究[J].计算机应用研究,2010,27(12):4615-4617. 被引量：7
6张瑞雪,宋明秋,公衍磊.逆序解析DOM树及网页正文信息提取[J].计算机科学,2011,38(4):213-215. 被引量：15
7陈志雄,朱向庆.基于特征词统计的网页结构化信息抽取[J].嘉应学院学报,2011,29(2):18-21. 被引量：1
8于成龙.中文网页信息抽取技术及分类算法研究[J].山东理工大学学报（自然科学版）,2011,25(3):108-110.
9梁吉光,田俊华,熊玲.基于二阶HMM的信息抽取研究[J].情报杂志,2011,30(7):169-171. 被引量：3
10殷彬,杨会志.灵活结构网页的正文提取[J].计算机技术与发展,2011,21(9):111-113. 被引量：3

1任翔,刘彬.基于超链接分析的网页正文提取方法[J].泰山学院学报,2010,32(3):44-48. 被引量：1
2王琳琳.基于HTML解析器的Web信息提取技术[J].郑州轻工业学院学报（自然科学版）,2008,23(6):100-102. 被引量：1
3常红要,朱征宇,陈烨,张鹏,曾丽芳.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24):5187-5191. 被引量：15
4易晓芳,卡米力.木依丁,艾斯卡尔.艾木都拉.基于连通域特征的维吾尔手写文本行分割[J].计算机工程与应用,2014,50(18):142-146. 被引量：6
5艾斯卡尔.艾木都拉,易晓芳,卡米力.木依丁.基于着色处理的维吾尔文手写文本行分割[J].清华大学学报（自然科学版）,2013,53(2):259-264. 被引量：4

计算机工程

2006年第5期

浏览历史

内容加载中请稍等...

HTML文件的文本信息预处理技术被引量：12

参考文献3

同被引文献79

引证文献12

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

HTML文件的文本信息预处理技术 被引量：12

参考文献3

同被引文献79

引证文献12

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

HTML文件的文本信息预处理技术被引量：12