-
题名基于DOM的中文人物WEB信息提取
被引量:2
- 1
-
-
作者
陈晓云
宋伟国
苗胜法
-
机构
兰州大学
-
出处
《微计算机信息》
2010年第36期15-17,共3页
-
文摘
本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、出生年月、性别等信息。结果表明,该方法有较好的查全率和准确率。
-
关键词
信息提取
文档对象模型
影响因子
中文人物
-
Keywords
Extraction of information from web pages
DOM tree
Influence degree
chinese characters
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名跨平台中文网页阅读系统
- 2
-
-
作者
阳爱民
孙星明
胡运发
李长云
-
机构
株洲工学院计算机系
国防科技大学计算机学院
复旦大学计算机系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第12期276-278,共3页
-
基金
湖南省科技厅2000年自然科学基金资助项目(00JJY2082)
-
文摘
介绍了一种全新的跨平台中文网页阅读系统,说明了系统的基本原理、功能特点和实现的技术。
-
关键词
跨平台中文网页阅读系统
汉字信息处理
计算机
汉字表达式
-
Keywords
chinese character expression;transplatform;chinese web page
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名中文网页分类方法的研究
被引量:3
- 3
-
-
作者
刘艳民
-
机构
青海大学计算机技术与应用系
-
出处
《微电子学与计算机》
CSCD
北大核心
2009年第9期166-169,共4页
-
文摘
实现了一个中文网页采集、过滤和分类系统.文中从网页预处理、特征选择、分类器模型等方面介绍了该系统的具体解决方案.实验结果表明,该分类系统取得了令人满意的分类效果.
-
关键词
中文网页
网页分类
特征选取
分类算法
-
Keywords
chinese web page
web page classify
character selection
classify arithmetic
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Nutch的物流信息平台网页资源定向采集系统
被引量:1
- 4
-
-
作者
刘兴邦
赵晓娇
-
机构
北京交通大学经济管理学院
-
出处
《物流技术》
北大核心
2012年第7期367-371,共5页
-
基金
国家自然科学基金项目"基于云计算
物联网的物流系统资源优化调度方法研究"(B12A200050)
-
文摘
针对物流信息平台中信息资源采集系统建设的不足,提出建立基于Nutch的网页资源定向采集系统,并对中文分词、主题相关度分析、结果排序、正文解析等关键模块进行重点探讨。最后在一定条件下进行了实验,并分析了实验结果。
-
关键词
NUTCH
主题爬虫
正文抽取
定向采集
中文分词
-
Keywords
Nutch
topic crawler
web-page extraction
targeted harvesting
segmentation of chinese characters
-
分类号
F253.9
[经济管理—国民经济]
G250
[文化科学—图书馆学]
-