-
题名基于提取网站层次结构的网页分类方法
被引量:4
- 1
-
-
作者
邓健爽
郑启伦
彭宏
-
机构
华南理工大学计算机科学与工程学院
-
出处
《计算机应用》
CSCD
北大核心
2006年第5期1134-1136,共3页
-
基金
广东省科技攻关项目(2005B10101033
A10202001)
广州市科技攻关项目(2004Z2-D0091)
-
文摘
网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法,提取网站隐含的层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的,并且已经成功应用到电子商务智能搜索和挖掘系统中。
-
关键词
网页分类
网站层次结构
URL聚类
-
Keywords
Web page classification
Hierarchy of Web site
URL clustering
-
分类号
TP393.02
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网站层次结构和主题模型LDA的网站自动摘要
被引量:1
- 2
-
-
作者
李舒嫒
杨静
顾君忠
-
机构
华东师范大学计算机科学技术系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第4期207-211,216,共6页
-
基金
国家科技支撑计划项目(2015BAH01F02)
上海张江国家自主创新示范区专项发展资金计划项目(201411-JA-B108-002)
-
文摘
近年来自动摘要方面的研究大多是关于多文档和Web网页的,而对网站自动摘要的研究较少。为此,基于主题模型隐含狄利克雷分布(LDA)和网站层次结构提出一个可以自动生成网站摘要的算法。该算法可获取整个网站内的网页信息并进行整合,根据提出的句子权重公式计算句子权重,选取权重最高的句子作为网站摘要。以20个商业和学术网站作为实验对象,使用ROUGE评测标准,结果表明,与仅使用主题模型LDA获取的网站摘要相比,不带停用词的ROUGE-1和ROUGE-L提高0.32,带停用词的ROUGE-1提高0.39,ROUGE-L提高0.38。与网站首页摘要相比,不带停用词的ROUGE-1提高0.03,ROUGE-L提高0.06,带停用词的ROUGE-1提高0.08,ROUGE-L提高0.07。
-
关键词
WEB网页
网站自动摘要
隐含狄利克雷分布
网站层次结构
宽度优先搜索
-
Keywords
Web pages
website automatic summarization
Latent Dirichlet Allocation (LDA)
website hierarchy
breadth-first search
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-