期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于DOM的中文人物WEB信息提取 被引量:2
1
作者 陈晓云 宋伟国 苗胜法 《微计算机信息》 2010年第36期15-17,共3页
本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、... 本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、出生年月、性别等信息。结果表明,该方法有较好的查全率和准确率。 展开更多
关键词 信息提取 文档对象模型 影响因子 中文人物
下载PDF
跨平台中文网页阅读系统
2
作者 阳爱民 孙星明 +1 位作者 胡运发 李长云 《计算机工程》 CAS CSCD 北大核心 2002年第12期276-278,共3页
介绍了一种全新的跨平台中文网页阅读系统,说明了系统的基本原理、功能特点和实现的技术。
关键词 跨平台中文网页阅读系统 汉字信息处理 计算机 汉字表达式
下载PDF
中文网页分类方法的研究 被引量:3
3
作者 刘艳民 《微电子学与计算机》 CSCD 北大核心 2009年第9期166-169,共4页
实现了一个中文网页采集、过滤和分类系统.文中从网页预处理、特征选择、分类器模型等方面介绍了该系统的具体解决方案.实验结果表明,该分类系统取得了令人满意的分类效果.
关键词 中文网页 网页分类 特征选取 分类算法
下载PDF
基于Nutch的物流信息平台网页资源定向采集系统 被引量:1
4
作者 刘兴邦 赵晓娇 《物流技术》 北大核心 2012年第7期367-371,共5页
针对物流信息平台中信息资源采集系统建设的不足,提出建立基于Nutch的网页资源定向采集系统,并对中文分词、主题相关度分析、结果排序、正文解析等关键模块进行重点探讨。最后在一定条件下进行了实验,并分析了实验结果。
关键词 NUTCH 主题爬虫 正文抽取 定向采集 中文分词
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部