期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
Web页面中文文本主题的自动提取研究 被引量:12
1
作者 韩客松 王永成 滕伟 《情报学报》 CSSCI 北大核心 2001年第2期217-223,共7页
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的... Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。 展开更多
关键词 web页面文本 主题抽取 加权 机器标引 主题标引
下载PDF
基于多因素的中文文本主题自动抽取方法 被引量:3
2
作者 刘金岭 谈芸 +1 位作者 李健普 袁娜 《计算机技术与发展》 2010年第7期72-75,79,共5页
提出了一种基于多因素的文本主题的提取方法,并着重讨论了相应的权值体系。根据概念间的相互关系,对同义概念进行语义归并和上下位概念进行语义聚焦。对于给定的文本,先进行特征词抽取进而生成代表主题概念的重要词汇。综合语句所在位... 提出了一种基于多因素的文本主题的提取方法,并着重讨论了相应的权值体系。根据概念间的相互关系,对同义概念进行语义归并和上下位概念进行语义聚焦。对于给定的文本,先进行特征词抽取进而生成代表主题概念的重要词汇。综合语句所在位置、语句中的标题、语句中所含重要词汇等多因素构造语句权值表达式,在此基础上,采用主题句选择算法保证每一个主题句被选中,同时解决了主题句的去重问题。实验结果表明,该方法具有较高的抽准率。 展开更多
关键词 主题句 主题抽取 文本主题 重要词汇 语句权值
下载PDF
基于无向图构建策略的主题句抽取 被引量:10
3
作者 葛斌 李芳芳 +1 位作者 李阜 肖卫东 《计算机科学》 CSCD 北大核心 2011年第5期181-185,共5页
基于文档句构建无向图,将主题句的抽取问题转换为无向图中节点的权重计算问题。首先利用滑窗方法抽取主题词,构建空间向量并生成无向图,然后基于向量空间模型计算边权重,最后利用文档句相似度矩阵的权重模型对文档句权重进行建模与计算... 基于文档句构建无向图,将主题句的抽取问题转换为无向图中节点的权重计算问题。首先利用滑窗方法抽取主题词,构建空间向量并生成无向图,然后基于向量空间模型计算边权重,最后利用文档句相似度矩阵的权重模型对文档句权重进行建模与计算,依据压缩比得到文档的主题句。实验表明,该方法在不同的压缩比下生成的摘要质量高,主题句抽取结果接近于人工摘要,召回率和准确率综合指数较高。 展开更多
关键词 主题句抽取 无向图 文档句权重 自动文摘
下载PDF
一种基于结构分析的网页主题区域发现方法 被引量:1
4
作者 伊政 徐武平 徐爱萍 《计算机工程与应用》 CSCD 北大核心 2015年第6期227-230,259,共5页
随着互联网的发展,Web数据挖掘在帮助人们获取主题信息方面越来越具有重要意义。本研究基于树结构,将Web网页解析为标签树;在树匹配算法的基础上,提出了数据区域挖掘和语义链接块识别算法,实现了去链接的预处理;提出了文本结构权重的概... 随着互联网的发展,Web数据挖掘在帮助人们获取主题信息方面越来越具有重要意义。本研究基于树结构,将Web网页解析为标签树;在树匹配算法的基础上,提出了数据区域挖掘和语义链接块识别算法,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果发现主题区域,去噪后获得主题信息。实验表明该研究结果对新闻、博客类网页具有很好的识别效果。 展开更多
关键词 信息抽取 主题区域 文本结构权重 去噪
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部