-
题名基于规则的HTML文档元数据提取
被引量:7
- 1
-
-
作者
狄涤
周竞扬
潘金贵
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第9期85-86,165,共3页
-
文摘
提出了一种基于规则提取HTML文档元数据的方法,介绍了规则的语法、语义和规则库的设计,研制了一个原型系统MEDES(MEtaData Extracting System),实现HTML文档元数据的自动提取。文章的最后给出了实验结果和评价,并指出进一步的工作。
-
关键词
元数据
提取规则
信息检索
WEB
HTML文档
-
Keywords
Metadata extracting
Rule controling
Information retrieval
Web
-
分类号
TN919.8
[电子电信—通信与信息系统]
-
-
题名多媒体Web服务器群MMWS的设计与分析
被引量:1
- 2
-
-
作者
周竞扬
叶保留
狄涤
陈道蓄
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第20期124-126,共3页
-
基金
国家"863"计划资助项目(2001AA113050)
-
文摘
针对多媒体服务的特点,提出了一种双层服务器集群系统MMWS,分析了所包含的Web请求服务子集群MMWS_O和多媒体请求服务子集群MMWS_M的“中心-本地”结构,并讨论了系统的工作流程。最后分析了MMWS的两大特点:高可扩展性和服务就近性。
-
关键词
WEB服务
多媒体服务
多路超链接
服务器集群
-
Keywords
Web service
Multimedia service
Multi-hyper-link
Server clustering
-
分类号
TP368.5
[自动化与计算机技术—计算机系统结构]
-
-
题名基于自动规约规则的HTML文档元数据提取
被引量:3
- 3
-
-
作者
王守芳
狄涤
潘金贵
-
机构
南京大学计算机科学与技术系计算机软件新技术国家重点实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2005年第4期405-411,共7页
-
文摘
利用HTML文档的元数据,可以为Web检索提供多样化的检索手段。本文提出了一种从HTML文档自动提取文档元数据的方法,对其中提取规则的设计、规约算法及其复杂度分析做出了重点介绍。该方法的提取规则在语法形式上和文档片断接近,更适合自动生成,通过自动规约生成规则无需人工分析,适应Web文档特点。文章最后给出了实验结果并进行了分析。
-
关键词
元数据提取
基于规则
自动规约
-
Keywords
Metadata Extracting, Rule Based, Automatic Induction
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-