期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
不平衡数据集分类方法研究 被引量:3
1
作者 孙全尚 《科教文汇》 2013年第27期92-93,共2页
本文主要介绍了不平衡数据分类的方法,包括数据层面的方法和算法改进方面的方法;传统的分类方法的评价指标,对于不平衡数据集是不适用的,故本文最后又对不平衡数据集分类的评价指标作了简要的探讨。
关键词 不平衡数据集分类抽样代价敏感ROC曲线
下载PDF
基于Bloom分类法的CS1试题数据集的构建及其自动分类 被引量:1
2
作者 董荣胜 卫晨雨 +2 位作者 胡杰 乔宇澄 李凤英 《计算机科学》 CSCD 北大核心 2023年第6期175-182,共8页
课程评估是教学改革的一个关键环节,涉及教学案例、试题以及课堂教学等方面的内容。针对计算课程的试题评估,引入Bloom分类法,以普林斯顿大学和桂林电子科技大学“计算机科学导论”课程(CS1)的试题为语料库,给出针对CS1的Bloom分类法认... 课程评估是教学改革的一个关键环节,涉及教学案例、试题以及课堂教学等方面的内容。针对计算课程的试题评估,引入Bloom分类法,以普林斯顿大学和桂林电子科技大学“计算机科学导论”课程(CS1)的试题为语料库,给出针对CS1的Bloom分类法认知过程维度和知识维度的相应动词种子库和名词种子库,对试题所能达到的Bloom分类法二维矩阵的位置进行标注,构建CS1试题分类数据集。采用机器学习技术,给出CS1试题自动分类模型TFERNIE-LR,该模型由CSTFPOS-IDF算法、ERNIE模型和LR分类器3部分组成。CSTFPOS-IDF算法是在TFPOS-IDF算法的基础上,通过计算课程关键词权重因子,来提高模型对计算课程关键词的关注程度,生成词权重。同时,基于实体知识增强预训练模型ERNIE进行试题词语级向量嵌入,组合词权重和词语级向量生成用于自动分类的试题文本向量。最后,采用LR分类器将试题自动分类到Bloom分类法二维矩阵。实验结果表明,TFERNIE-LR模型具有良好的性能,在认知过程维度和知识维度上的加权精确率分别达到了83.3%和96.1%。 展开更多
关键词 Bloom分类 课程评估 CS1试题分类数据 动词种子库 名词种子库 自动分类
下载PDF
一种提高非平衡数据集PSVM分类精度的方法 被引量:1
3
作者 曾凡仔 裘正定 《铁道学报》 EI CAS CSCD 北大核心 2004年第2期124-127,共4页
邻近支撑向量机(PSVM)是一种比较快捷分类器,然而当它用于非平衡样本集时,PSVM过拟合样本点数较多的一类,而低估样本点数较少的错分误差,因此导致了PSVM比较低的整体分类性能。为此,提出了一种改进算法,算法通过在求解分类平面时,只考... 邻近支撑向量机(PSVM)是一种比较快捷分类器,然而当它用于非平衡样本集时,PSVM过拟合样本点数较多的一类,而低估样本点数较少的错分误差,因此导致了PSVM比较低的整体分类性能。为此,提出了一种改进算法,算法通过在求解分类平面时,只考虑错分样本造成误差,同时根据两类的错分样本数自适应的惩罚或奖励错分误差来消除两类样本点数差对整体分类性能的影响。实验结果验证了本文提出的改进算法的有效性。 展开更多
关键词 邻近支撑向量机 拟牛顿算法 非平衡数据集分类 错分样本
下载PDF
基于多重卷积神经网络跨数据集图像分类 被引量:5
4
作者 刘鑫童 刘立波 张鹏 《计算机工程与设计》 北大核心 2018年第11期3549-3554,共6页
为解决不同数据集共同类图像特征学习能力弱的问题,采用深度学习算法模型,提出一种基于多重卷积神经网络的跨数据集图像分类方法。以中值滤波预处理后的图像作为网络输入,在两个池化层之间采用两组连续卷积层,卷积特征提取和池化后,采... 为解决不同数据集共同类图像特征学习能力弱的问题,采用深度学习算法模型,提出一种基于多重卷积神经网络的跨数据集图像分类方法。以中值滤波预处理后的图像作为网络输入,在两个池化层之间采用两组连续卷积层,卷积特征提取和池化后,采用L2范数正则化的Softmax损失函数作为模型分类器,完成多重卷积神经网络分类的训练和测试。实验结果表明,相比于传统JDA方法、TCA方法和KPCA方法,该方法在经典数据集Caltech256、Amazon、Webcam和Dslr上具有更好的特征提取能力和更高的平均准确率。 展开更多
关键词 数据集分类 卷积神经网络 多重卷积 特征学习 L2正则化
下载PDF
融合特征优化的跨数据集高光谱图像分类
5
作者 马晓瑞 哈林 +2 位作者 谌敦斌 梅亮 王洪玉 《中国图象图形学报》 CSCD 北大核心 2024年第8期2175-2187,共13页
目的高光谱图像分类可实现对地物目标的逐像素识别,是对地观测中的关键技术。由于采集环境变迁与成像设备差异等因素的影响,不同高光谱图像特征分布偏移,影响现有模型的跨数据集分类精度。针对此,提出了一种融合特征优化的无监督跨数据... 目的高光谱图像分类可实现对地物目标的逐像素识别,是对地观测中的关键技术。由于采集环境变迁与成像设备差异等因素的影响,不同高光谱图像特征分布偏移,影响现有模型的跨数据集分类精度。针对此,提出了一种融合特征优化的无监督跨数据集高光谱图像分类方法。方法提出了基于奇异值抑制的特征均衡策略实现数据内独立优化,通过限制奇异值正则项兼顾特征的可迁移性与可鉴别性;提出了基于隐式增广的特征匹配策略实现数据间特征协同优化,引导源域特征逼近目标域提高模型的泛化性;设计了基于隐式鉴别器的对抗学习框架实现数据间特征类别级优化,提高了预测多样性,实现跨数据集分类。结果实验在Pavia数据集组和HyRANK数据集组上进行,与多种最新的跨数据高光谱图像分类方法进行了对比,在Pavia数据集组中,相比于性能第2的模型,总体精度、平均精度和к系数分别提高了1.75%、3.55%和2.17%;在HyRANK数据集组中,相比于性能第2的模型,总体精度、平均精度和к系数分别提高了6.58%、13.10%和7.96%。同时进行了消融实验,研究了各个模块对高光谱图像分类效果的影响。实验结果表明,每一模块在提高高光谱图像分类效果方面都是有效的。结论本文提出的融合特征优化的跨数据集高光谱图像分类方法可以在无监督的条件下显著提高跨数据集高光谱图像分类精度,提高分类预测的多样性,得到更好的分类效果。 展开更多
关键词 高光谱图像分类 数据集分类 特征优化 领域自适应 无监督分类 域对抗网络
原文传递
基于加权模糊聚类的不平衡数据分类方法 被引量:3
6
作者 董振波 《现代计算机(中旬刊)》 2016年第6期25-27,共3页
不平衡数据分类问题是数据分类的一个热门话题,经常出现在数据分类问题的实践当中,而且该问题给传统的分类方法提出了巨大的挑战。由于在分类过程中,样本对正负类的归属往往比较模糊,提出一种基于模糊聚类的不平衡数据分类方法,同时为... 不平衡数据分类问题是数据分类的一个热门话题,经常出现在数据分类问题的实践当中,而且该问题给传统的分类方法提出了巨大的挑战。由于在分类过程中,样本对正负类的归属往往比较模糊,提出一种基于模糊聚类的不平衡数据分类方法,同时为了增强对正负类的区分能力,将基于类差异的属性加权方法引入到该方法中。该方法在通过模糊C均值算法得出样本对正负类的归属程度后根据测试样本对正负类的相似性对其进行分类。 展开更多
关键词 不平衡数据集分类 模糊 Hellinger距离
下载PDF
基于Resnet的雷电电场波形识别与分类 被引量:1
7
作者 张潇艺 王彩霞 +1 位作者 田杨萌 杨辉 《计算机仿真》 北大核心 2023年第7期244-248,共5页
雷电更多时候会给人们的生产生活带来灾难性的打击,因此雷电的观测与预警作为防雷减灾工作的基础和前提就显得格外重要。在人工智能技术不断发展的背景下,图像识别作为人工智能的一个重要分支,已在各个领域得到了广泛应用。基于雷电发... 雷电更多时候会给人们的生产生活带来灾难性的打击,因此雷电的观测与预警作为防雷减灾工作的基础和前提就显得格外重要。在人工智能技术不断发展的背景下,图像识别作为人工智能的一个重要分支,已在各个领域得到了广泛应用。基于雷电发生时所收集的电场波形图像数据,利用卷积神经网络构建了图像识别模型,根据不同类型雷电电场波形的特征作为数据集分类的判定标准且保证数据量充足,对网络模型进行逐步优化以提高图像的识别率,最终实现雷电波形的快速分类,获取雷电定位信息达到实时定位的目的。 展开更多
关键词 人工智能 雷电电场波形 图像分类识别 卷积神经网络 数据集分类
下载PDF
视觉识别的生活垃圾分类系统设计 被引量:2
8
作者 马含章 王淼鑫 +3 位作者 钟拼扬 刘华 常若葵 董晋峰 《天津农学院学报》 CAS 2023年第4期53-57,共5页
为解决市民缺乏垃圾分类专业知识,不能准确判断垃圾种类,导致垃圾分类效果不够理想的问题,设计一款能自主识别垃圾种类并完成分装的垃圾分类系统。该系统采用视觉识别技术,将采集到的图片与训练好的模型进行比对,通过算法计算出相似度... 为解决市民缺乏垃圾分类专业知识,不能准确判断垃圾种类,导致垃圾分类效果不够理想的问题,设计一款能自主识别垃圾种类并完成分装的垃圾分类系统。该系统采用视觉识别技术,将采集到的图片与训练好的模型进行比对,通过算法计算出相似度最高的垃圾类型,并将结果发给控制中心,控制中心根据垃圾种类控制投放模块工作。经测试,该系统目前可识别的范围包括全部四个大类垃圾中常见的十余种垃圾及其不同形态,识别准确率约为78%。 展开更多
关键词 智能垃圾分类 垃圾分类数据 视觉识别 投放系统
下载PDF
一种采用LLE降维和贝叶斯分类的多类标学习算法 被引量:4
9
作者 李宏 谢政 +1 位作者 向遥 吴敏 《系统工程与电子技术》 EI CSCD 北大核心 2009年第6期1467-1472,共6页
多类标数据中的样本可能属于一个或多个类标,因此其分类问题较单类标分类更为复杂。提出一种新的多类标学习算法,首先针对多类标数据的特征属性维数高的特点,采用LLE算法对多类标数据的特征属性进行降维,提取能较完整描述数据的一组低... 多类标数据中的样本可能属于一个或多个类标,因此其分类问题较单类标分类更为复杂。提出一种新的多类标学习算法,首先针对多类标数据的特征属性维数高的特点,采用LLE算法对多类标数据的特征属性进行降维,提取能较完整描述数据的一组低维特征属性集;然后将多类标样本集按所属的类标进行划分,并采用贝叶斯分类模型来学习各组样本集的分类特性;根据各个分类模型的判定类标,综合得到多类标样本的最终类标集。将该算法分别应用到自然场景图像和基因数据的多类标分类学习中,实验结果表明,该算法针对不同的多类标数据集均能取得很好的分类效果,且相比于其他多类标算法有更高的性能。 展开更多
关键词 多类标学习 朴素贝叶斯分类 自然场景图像分类 基因数据集分类
下载PDF
基于影响函数的k-近邻分类 被引量:3
10
作者 职为梅 张婷 范明 《电子与信息学报》 EI CSCD 北大核心 2015年第7期1626-1632,共7页
分类是一种监督学习方法,通过在训练数据集学习模型判定未知样本的类标号。与传统的分类思想不同,该文从影响函数的角度理解分类,即从训练样本集对未知样本的影响来判定未知样本的类标号。首先介绍基于影响函数分类的思想;其次给出影响... 分类是一种监督学习方法,通过在训练数据集学习模型判定未知样本的类标号。与传统的分类思想不同,该文从影响函数的角度理解分类,即从训练样本集对未知样本的影响来判定未知样本的类标号。首先介绍基于影响函数分类的思想;其次给出影响函数的定义,设计3种影响函数;最后基于这3种影响函数,提出基于影响函数的k-近邻(k NN)分类方法。并将该方法应用到非平衡数据集分类中。在18个UCI数据集上的实验结果表明,基于影响函数的k-近邻分类方法的分类性能好于传统的k-近邻分类方法,且对非平衡数据集分类有效。 展开更多
关键词 数据挖掘 监督学习 非平衡数据集分类 影响函数 K-近邻
下载PDF
基于遗传规划集成学习的网络作弊检测
11
作者 牛小飞 马军 +1 位作者 马少平 张冬梅 《中文信息学报》 CSCD 北大核心 2012年第5期94-100,共7页
网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法 (简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基... 网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法 (简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基分类器;最后利用遗传规划得到t*c个基分类器的集成方式。新方法不仅将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能,还能方便地集成不同类型的基分类器。在WEBSPAM-UK2006数据集上所做的实验表明无论是同态集成还是异态集成,GPENL均能提高分类的性能,且异态集成比同态集成更加有效;GPENL比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。 展开更多
关键词 网络作弊 成学习 遗传规划 非平衡数据集分类
下载PDF
基于图卷积网络的非均衡数据船舶柴油机故障诊断 被引量:2
12
作者 王瑞涵 陈辉 +1 位作者 管聪 黄梦卓 《中国舰船研究》 CSCD 北大核心 2022年第5期289-300,共12页
[目的]船舶柴油机状态信息数据普遍存在类别不均衡的问题,非均衡数据集降低了基于数据驱动的故障诊断模型对柴油机健康状况自动识别的准确性。因此,提出基于样本间概率相似性的图卷积网络(GCN)模型,以解决非均衡数据集分类问题。[方法]... [目的]船舶柴油机状态信息数据普遍存在类别不均衡的问题,非均衡数据集降低了基于数据驱动的故障诊断模型对柴油机健康状况自动识别的准确性。因此,提出基于样本间概率相似性的图卷积网络(GCN)模型,以解决非均衡数据集分类问题。[方法]首先,引入Kullback-Leibler散度来计算样本间的概率相似性,以挖掘样本间的非线性关系,将各个样本间的相似性用构造概率图的拓扑结构体现。然后,利用图学习对样本特征及邻近样本特征进行聚合和提取,为非均衡数据集的分类提供更多的信息。最后,通过构造多层图卷积层,对样本特征信息进行更深层次的挖掘。[结果]仿真及台架实验表明,所提出的图卷积网络能够有效地学习更多样本信息,通过聚合邻近样本信息来提高非均衡数据集分类的准确率。[结论]该模型的召回率和精确率均高于其他分类模型,具有一定的工程应用价值。 展开更多
关键词 图卷积网络 故障诊断 船舶柴油机 非均衡数据集分类
下载PDF
时间序列数据趋势转折点提取算法 被引量:9
13
作者 邢邗 石晓达 +1 位作者 孙连英 葛娜 《计算机工程》 CAS CSCD 北大核心 2018年第1期56-61,68,共7页
时间序列数据蕴含趋势信息,可以根据数据的趋势信息提取趋势转折点,达到压缩数据、减少噪声影响的目的。通过分析时间序列数据的趋势信息,提出自适应数据趋势转折点提取算法。该算法不依赖任何先验知识,根据数据本身的趋势特征自动提取... 时间序列数据蕴含趋势信息,可以根据数据的趋势信息提取趋势转折点,达到压缩数据、减少噪声影响的目的。通过分析时间序列数据的趋势信息,提出自适应数据趋势转折点提取算法。该算法不依赖任何先验知识,根据数据本身的趋势特征自动提取趋势转折点,提取信息包括坐标索引和对应数据。UCR时间序列分类数据集与SEEP、CAP和PAA等算法进行对比的实验结果表明,在多种数据情况下,该算法拟合误差和分类错误率更小,平均拟合误差为0.373 6,分类错误率同原始数据的分类错误率相比减少3.39%。 展开更多
关键词 时间序列 趋势转折点 UCR时间序列分类数据 分段线性表示 拟合误差
下载PDF
基于多时相遥感数据的吉林盐碱区土地覆被信息提取方法对比——以镇赉为例 被引量:1
14
作者 李相坤 姜琦刚 +1 位作者 李晓东 徐言 《科学技术与工程》 北大核心 2017年第5期224-229,共6页
利用多时相的遥感数据制作的多维分类特征数据集,可以充分挖掘遥感影像中的植被信息提高地表覆被信息的分类精度。以世界三大盐碱土分布区之一的吉林省镇赉县为例,利用多时相Landsat8遥感数据制作的多维分类特征数据集,通过不同的分类... 利用多时相的遥感数据制作的多维分类特征数据集,可以充分挖掘遥感影像中的植被信息提高地表覆被信息的分类精度。以世界三大盐碱土分布区之一的吉林省镇赉县为例,利用多时相Landsat8遥感数据制作的多维分类特征数据集,通过不同的分类方法提取了实验区11类地表覆被信息,并进行精度对比分析。结果表明:1支持向量机(SVM)法对苏打盐碱化土壤特殊生态环境的地表覆被信息提取具有较好的分类效果,总体分类精度87.77%,Kappa系数0.864 9;其中盐碱地的分类效果较好,生产精度达到98.34%。2不同方案分类精度从高到低依次为:支持向量机、最大似然分类、神经网络、最小距离、光谱角法。3镇赉县的土地利用类型以旱地、水田、盐碱地为主,镇赉西部以旱地为主要,中部地区盐碱地、碱泡、旱地交错分布,东部以水田为主。 展开更多
关键词 多维分类特征数据 支持向量机 半变异函数 盐碱区 多时相遥感
下载PDF
基于遥感影像的飞机机型分类数据集 被引量:1
15
作者 陈军宇 李海巍 +2 位作者 张耿 王爽 陈铁桥 《全球变化数据学报(中英文)》 CSCD 2020年第2期188-195,188-195,共16页
飞机在遥感影像中是一种典型地物,然而,目前缺少基于遥感影像进行飞机机型分类的公开数据集,限制了使用遥感影像大规模提取飞机类型信息的研究与应用。本文为解决飞机机型分类时参考数据短缺问题,首先,从GoogleEarth等多个公开数据源获... 飞机在遥感影像中是一种典型地物,然而,目前缺少基于遥感影像进行飞机机型分类的公开数据集,限制了使用遥感影像大规模提取飞机类型信息的研究与应用。本文为解决飞机机型分类时参考数据短缺问题,首先,从GoogleEarth等多个公开数据源获取高分辨率遥感影像、全球多处机场和机型信息,筛选有效飞机遥感数据3594张。然后,根据人体视觉注意力机制理论,选择机翼和螺旋桨2个要素在遥感影像上的特征,把飞机类型划分为7个一级类(1)后掠翼飞机,(2)前缘后掠翼飞机;(3)后缘前掠翼飞机;(4)三角翼飞机;(5)平直翼飞机;(6)螺旋桨飞机;(7)直升飞机;再根据机身颜色等要素对部分一级类继续划分,共获得11个二级类。全部数据汇编为基于遥感影像的飞机机型分类数据集(OPT-Aircraftv1.0)。该数据集存储为.png格式,由3,594个数据文件、18个文件夹组成,数据量为69.3 MB。OPT-Aircraftv1.0有效地反映了高分辨率遥感影像下的飞机机型划分,对于遥感领域中飞机细粒度识别、不同飞机机型仿真研究具有参考价值,为研究遥感影像的飞机分类提供实验数据。 展开更多
关键词 遥感影像分类 飞机分类数据 Google Earth 注意力机制
原文传递
基于聚类分析的高速公路行程时间预测 被引量:3
16
作者 李松江 宋军芬 +1 位作者 杨华民 张凤荣 《计算机仿真》 北大核心 2019年第2期384-389,共6页
以高速公路行程时间为研究对象,建立基于聚类分析的行程时间预测模型。使用系统聚类法对历史行程数据集按照车型及时段等特征进行分类;根据行程时间分布相似性对天气和月份进行重分类,与历史行程时间共同构建特征向量。最后采用BP神经... 以高速公路行程时间为研究对象,建立基于聚类分析的行程时间预测模型。使用系统聚类法对历史行程数据集按照车型及时段等特征进行分类;根据行程时间分布相似性对天气和月份进行重分类,与历史行程时间共同构建特征向量。最后采用BP神经网络对不同的数据集进行训练,以提高行程时间的预测准确性。实验表明,数据集分类能有效提高模型预测的准确性,与发布前期行程时间和未进行分类的BP神经网络模型预测结果相比,上述方法具有更好的预测准确度。 展开更多
关键词 行程时间预测 系统聚类法 特征向量 数据集分类 神经网络
下载PDF
基于贝叶斯网络的交通事件持续时间预测 被引量:5
17
作者 郑长江 葛升阳 郑树康 《华东交通大学学报》 2014年第5期50-55,共6页
随着数据采集手段的不断提高和相关研究技术的发展,基于数据挖掘的模型逐渐成为交通事件持续时间研究的主要方向。根据荷兰交通部门提供的交通事件采集数据,进行分类和预处理,观察事件持续时间的频数图,并根据相关的研究按照事件典型的... 随着数据采集手段的不断提高和相关研究技术的发展,基于数据挖掘的模型逐渐成为交通事件持续时间研究的主要方向。根据荷兰交通部门提供的交通事件采集数据,进行分类和预处理,观察事件持续时间的频数图,并根据相关的研究按照事件典型的类别把采集的数据进行分类。使用主成分分析和逐步回归提取出显著性的影响因子,利用数据挖掘软件WEKA建立贝叶斯网络模型,用数据集中80%的数据进行学习建模,20%的数据作为测试集来检测模型的预测效果,并做出性能评价。实验结果表明,与同类数据集的其他预测方法相比,贝叶斯网络模型对于变数众多,随机性特别大的交通事件,预测精度较高,证明贝叶斯网络模型的算法是具有一定优越性和实用价值。 展开更多
关键词 城市交通 交通事件持续时间 贝叶斯网络模型 数据集分类 影响因子提取 WEKA
下载PDF
基于改进LSSVM的节假日高速公路行程时间预测
18
作者 李松江 宋军芬 +1 位作者 王鹏 杨迪 《长春理工大学学报(自然科学版)》 2018年第5期116-121,共6页
节假日高速公路交通量突增,导致路段行程时间不确定增加,严重扰乱人们的出行安排,因此有效的行程时间预测至为关键。首先对历史数据集按照节假日行程时间的分布规律进行分类,使得子数据集和特征向量之间的关系,与预测时段行程时间和特... 节假日高速公路交通量突增,导致路段行程时间不确定增加,严重扰乱人们的出行安排,因此有效的行程时间预测至为关键。首先对历史数据集按照节假日行程时间的分布规律进行分类,使得子数据集和特征向量之间的关系,与预测时段行程时间和特征向量之间的关系更加相似。然后对LSSVM (Least Squares Support Vector Machines)模型进行改进,通过构造混合核函数,降低了模型计算复杂度;对PSO优化算法进行改进,解决了标准PSO算法搜索精度低,容易陷入局部极值的缺点。最后使用改进LSSVM模型对不同数据集进行训练,完成行程时间的预测。研究表明:(1)对历史数据集的分类,提高了模型预测的准确性;(2)与传统模型相比,改进后的模型训练速度更快,预测精度更高。 展开更多
关键词 行程时间预测 历史数据集分类 改进LSSVM模型 混合核函数 PSO算法
下载PDF
基于机器学习技术的网站用户行为预测 被引量:4
19
作者 徐冬 肖莹慧 《现代电子技术》 北大核心 2019年第4期94-96,100,共4页
针对网站中用户留存度、转化率和忠诚度较低的问题,文中以旅游网站为例,基于logistic回归的机器学习技术,提出一个旅游网站的访问用户行为预测模型。该模型对网站用户的行为数据集合进行预处理,按照固定的比例对数据集合进行分类,验证... 针对网站中用户留存度、转化率和忠诚度较低的问题,文中以旅游网站为例,基于logistic回归的机器学习技术,提出一个旅游网站的访问用户行为预测模型。该模型对网站用户的行为数据集合进行预处理,按照固定的比例对数据集合进行分类,验证数据集的分类服从相同的统计分布。最后,建立使用logistic回归机器学习算法相应的模型,对网站用户的行为进行预测。预测结果表明,该模型可以比较准确地预估网站用户的行为。 展开更多
关键词 行为预测 LOGISTIC回归 用户行为 数据集分类 机器学习 留存分析
下载PDF
自然语言处理在其他学科领域的影响考察——基于CNKI的中文文献挖掘 被引量:6
20
作者 蒋彦廷 胡韧奋 《情报杂志》 CSSCI 北大核心 2021年第12期169-176,共8页
[研究目的]探索自然语言处理(Natural Language Processing,NLP)在其他学科领域的影响力,以促进技术的落地应用与创新研究。构建NLP主题分类体系与数据集,能为未来相关论文主题识别、NLP跨学科知识扩散提供有力支撑。[研究方法]利用《... [研究目的]探索自然语言处理(Natural Language Processing,NLP)在其他学科领域的影响力,以促进技术的落地应用与创新研究。构建NLP主题分类体系与数据集,能为未来相关论文主题识别、NLP跨学科知识扩散提供有力支撑。[研究方法]利用《中国图书馆分类法》以及论文间的引证关系,从中国知网采集2159篇NLP典型文献与1376篇非典型文献,可视化分析文献所属刊物、学科分类号的频次信息,提出NLP领域4层级主题分类体系,并据此构建论文多主题分类数据集“NLP-others”,进行文献的多标签分类。[研究结论]NLP在自然、社会与人文各领域均有程度不同的影响,与图书情报学的联系最为密切。相关技术甚至能拓展到处理非自然语言的序列。知识库与知识图谱、神经网络、舆情分析是被广泛提及或应用的技术;LDA、LSTM、CRF、BERT则是在其他领域应用较多的模型算法。 展开更多
关键词 自然语言处理 学科交叉 中国图书馆分类 NLP主题分类体系 NLP论文主题分类数据“NLP-others” 多标签分类
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部