期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一种新的分类评测方法 被引量:1
1
作者 龚笔宏 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期115-118,共4页
分类算法的现有评价指标存在一些问题,主要是评测数值在不同的数据集上呈现剧烈波动。为解决这一问题,通过考察数据集对分类结果的影响,提出了一种对分类算法的新评测指标new-macro-F1。这一新评测指标将数据集的因素从评测过程中独立... 分类算法的现有评价指标存在一些问题,主要是评测数值在不同的数据集上呈现剧烈波动。为解决这一问题,通过考察数据集对分类结果的影响,提出了一种对分类算法的新评测指标new-macro-F1。这一新评测指标将数据集的因素从评测过程中独立了出来,使得new-macro-F1表示的仅仅是分类算法本身。实验结果表明使用新评测指标,同一分类器在不同数据集上的表现波动较小;通过分类器在一个数据集上的表现,可以近似的估计该分类器在另一数据集上的分类质量。 展开更多
关键词 分类技术 评测方法 数据挖掘
下载PDF
基于Web挖掘的个性化技术研究 被引量:35
2
作者 冯是聪 单松巍 +2 位作者 张志刚 龚笔宏 李晓明 《计算机工程与设计》 CSCD 2004年第1期4-6,共3页
针对用户特性向用户提供个性化服务已经成为Web技术的研究热点。Web挖掘是实现Web个性化服务的关键技术之一。研究了Web挖掘技术,阐述了Web挖掘技术存在的不足,并对应用Web挖掘技术实现个性化服务的发展前景进行了分析。
关键词 WEB挖掘 个性化服务 用户建模 代理 人工智能 数据库
下载PDF
“天网”目录导航服务研究 被引量:8
3
作者 冯是聪 单松巍 +2 位作者 龚笔宏 张志刚 李晓明 《计算机研究与发展》 EI CSCD 北大核心 2004年第4期653-659,共7页
为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面... 为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集 ,这是实现中文网页自动分类的前提和基础 ;②针对中文网页信息的自身特性以及CHI方法的固有缺陷 ,提出一种自动清除“噪音”的特征选取算法 ,并实现了一个能够处理海量中文网页的分类器 实验结果表明该分类器有较高的分类质量 。 展开更多
关键词 搜索引擎 目录导航 WEB挖掘 中文网页分类
下载PDF
基于HowNet的VSM模型扩展在文本分类中的应用研究 被引量:8
4
作者 孙宏纲 陆余良 +1 位作者 刘金红 龚笔宏 《中文信息学报》 CSCD 北大核心 2007年第6期101-108,共8页
在采用VSM模型进行文本分类时,如果特征向量维数相差悬殊,会给分类结果产生很大负面影响。为了解决这一问题,本文引入了特征向量扩展的思想,同时定义了有效原始信息浓度的概念。特征向量扩展以HowNet语义词典为依据,对高维和低维特征向... 在采用VSM模型进行文本分类时,如果特征向量维数相差悬殊,会给分类结果产生很大负面影响。为了解决这一问题,本文引入了特征向量扩展的思想,同时定义了有效原始信息浓度的概念。特征向量扩展以HowNet语义词典为依据,对高维和低维特征向量采用不同的扩展策略,从而减小了不同类别语料间有效原始信息浓度的差值,进而改善复杂语料的分类结果。实验表明该方法在复杂语料情况下,通过对特征向量进行HowNet语义扩展,可以较好的改善分类结果。 展开更多
关键词 计算机应用 中文信息处理 HOWNET VSM模型 文本分类
下载PDF
多任务中文Web查询分析 被引量:1
5
作者 王继民 龚笔宏 孟涛 《计算机工程》 CAS CSCD 北大核心 2006年第14期25-26,68,共3页
用户在使用Web搜索引擎进行信息查询时,可能包含单个或多个主题。该文针对大规模中文搜索引擎系统——北大天网的多任务Web查询,进行了研究和分析。结果显示:多于1/3的用户进行多任务Web查询;超过1/2的多任务会话包含2个不同的主题并... 用户在使用Web搜索引擎进行信息查询时,可能包含单个或多个主题。该文针对大规模中文搜索引擎系统——北大天网的多任务Web查询,进行了研究和分析。结果显示:多于1/3的用户进行多任务Web查询;超过1/2的多任务会话包含2个不同的主题并进行2~7次查询;多任务会话时间的均值是一般会话时间均值的2倍;天网用户的多任务查询主要有3个主题:计算机,娱乐和教育;近1/4的多任务会话中包含不确定的信息。该文用关联分析的方法发现了用户查询主题之间的一些关系。 展开更多
关键词 搜索引擎 中文Web查询 多任务 关联规则
下载PDF
对文本分类评测方法稳定性的研究 被引量:2
6
作者 龚笔宏 彭波 《模式识别与人工智能》 EI CSCD 北大核心 2008年第1期12-17,共6页
文本分类算法一般采用宏平均精度、宏平均召回率以及宏平均F_1值作为评价指标,然而同一个分类器在不同数据集上所得的评测数值往往存在很大差异,使得评测数值只在特定的数据集上有价值,而在其他数据集上没有意义.为了解决这个问题.本文... 文本分类算法一般采用宏平均精度、宏平均召回率以及宏平均F_1值作为评价指标,然而同一个分类器在不同数据集上所得的评测数值往往存在很大差异,使得评测数值只在特定的数据集上有价值,而在其他数据集上没有意义.为了解决这个问题.本文提出3个因素来刻画数据集对分类结果的影响,并利用这3个因素构造一种评测指标,newmacro-F_1.这一评测指标将数据集的因素从评测过程中独立出来,使得,newmacro-F_1表示的仅仅是分类算法本身.实验结果表明使用该评测指标同一分类器在不同的数据集上波动较小.通过分类器在1个数据集上的表现,可以近似计算得到该分类器在另一个数据集上的分类质量. 展开更多
关键词 分类技术 评测方法 数据挖掘
原文传递
SCC——利用分类技术改进的短摘要比较方法 被引量:1
7
作者 龚笔宏 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1806-1809,共4页
搜索引擎返回结果的摘要的特点在于文档长度短,大部分关键字最多只出现一次,因此传统文档比较方法所使用的TF-IDF、夹角余弦等方法对摘要比较失去了作用。为了改进传统文档比较方法,该文利用分类技术对短摘要信息进行扩充,以改进摘要比... 搜索引擎返回结果的摘要的特点在于文档长度短,大部分关键字最多只出现一次,因此传统文档比较方法所使用的TF-IDF、夹角余弦等方法对摘要比较失去了作用。为了改进传统文档比较方法,该文利用分类技术对短摘要信息进行扩充,以改进摘要比较。将两个摘要分别与参照物进行比较,在较大的一个文档集合中找到与摘要相近的文档集合。用这些文档集合扩充短摘要的含义,以替代短摘要来衡量摘要相似度。实验结果表明,使用改进后的摘要比较算法,相关集合的DCG指标有了明显改进。 展开更多
关键词 信息检索 文档比较 摘要 用户反馈
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部