期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于改进的TF-IDF权重的短文本分类算法 被引量:14
1
作者 杨彬 韩庆文 +4 位作者 雷敏 张亚鹏 刘向国 杨亚强 马雪峰 《重庆理工大学学报(自然科学)》 CAS 2016年第12期108-113,共6页
短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-ID... 短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-IDF权重的短文本分类算法被提出。该算法通过同义词对分类器的关键词库进行扩展和基于特征长度对短文本权值进行加权,使得文本集的权值方差增大。与直接对短文本进行扩展的算法相比,该算法具有更快的分类速度。 展开更多
关键词 短文本 tf-idf权重 特征扩展
下载PDF
基于文本挖掘的生鲜物流服务质量评价
2
作者 李锦祥 郑少峰 曾阿锋 《物流技术》 2024年第1期21-29,共9页
由在线评论得到的物流服务质量评价结果能够有针对性地提升物流服务质量,对于提升生鲜电商的竞争力极其重要。结合SERVQUAL模式、LSQ模式和生鲜电商特点构建物流服务质量评价模型,以京东生鲜物流作为研究对象,通过python编写爬虫代码爬... 由在线评论得到的物流服务质量评价结果能够有针对性地提升物流服务质量,对于提升生鲜电商的竞争力极其重要。结合SERVQUAL模式、LSQ模式和生鲜电商特点构建物流服务质量评价模型,以京东生鲜物流作为研究对象,通过python编写爬虫代码爬取京东生鲜消费者评论并进行jieba分词,获得物流高频关键词及其TF-IDF 权重,并将关键词映射到评价模型的各个指标中。然后对关键词所在的评论进行情感打分,综合TF-IDF权重、情感打分、指标权重,计算得出每个指标的物流服务质量评价得分。根据评价结果发现,京东生鲜在可靠性、时间性、移情性等方面可以继续保持并提高,提出加强物流信息的及时准确性、重视退换货费用、采取多样的配送及取货方式等建议。研究结论可为生鲜电商企业优化产品物流服务、提升企业竞争力提供参考。 展开更多
关键词 物流服务质量 生鲜电商 在线评论 tf-idf权重 情感打分
下载PDF
面向选煤厂领域知识图谱的数据分类方法
3
作者 赵欣 张树森 《选煤技术》 CAS 2024年第2期73-79,共7页
工业数据资源的开放共享是工业大数据产业发展的重要途径,选煤厂数据的自动分类有利于实现高效的数据管理。然而选煤厂数据纷繁复杂,数据之间存在交叉重叠和孤立无关联等问题,导致选煤厂数据缺乏标准化和规范化,制约了面向选煤厂智能化... 工业数据资源的开放共享是工业大数据产业发展的重要途径,选煤厂数据的自动分类有利于实现高效的数据管理。然而选煤厂数据纷繁复杂,数据之间存在交叉重叠和孤立无关联等问题,导致选煤厂数据缺乏标准化和规范化,制约了面向选煤厂智能化应用的发展。针对选煤厂结构化库表数据中标签数据少、数据交叉重叠等问题,提出一种基于知识图谱的选煤厂结构化库表数据自动分类算法。通过选煤厂领域的主题词列表构建了选煤厂领域知识图谱;以选煤厂领域知识图谱为基础,提出将KG-BERT分类模型用于非主题数据的扩展分类;基于TF-IDF的多主题权重判定模型,利用知识图谱的知识体系增强了文本分类的可控性和可解释性;结合选煤厂领域知识图谱、KG-BERT分类模型以及基于TF-IDF的主题权重判定模型,提出用基于多模型融合的分类模型来实现选煤厂结构化库表数据自动分类。实验数据均来自选煤厂结构化库表数据全量目录,可验证算法的有效性。对比实验表明:KG-BERT分类模型采用了BERT架构,具有一定的泛化能力,相较于CNN,RNN,LSTM模型能较好应对无主题情况下的文本分类任务;从训练数据集上看,KE数据集在模型上表现更好;基于多模型融合的分类模型在选煤厂领域结构化库表数据分类较单一模型具有更好的有效性和适用性。基于多模型融合的分类模型自动分类效果良好,有助于提升选煤厂数据管理效率,进一步挖掘选煤厂数据资源的潜在价值。 展开更多
关键词 数据分类 选煤厂结构化库表数据 知识图谱 KG-BERT分类模型 基于tf-idf的主题判定模型 多模型融合 数据自动分类
下载PDF
一种基于多特征因子改进的中文文本分类算法 被引量:10
4
作者 叶敏 汤世平 牛振东 《中文信息学报》 CSCD 北大核心 2017年第4期132-137,144,共7页
采用向量空间模型(vector space model,VSM)表示网页文本,通过在CHI(Chi-Square)特征选择算法中引入频度、集中度、分散度、位置信息这四个特征因子,并考虑词长和位置特征因子改进TF-IDF权重计算公式,提出了PCHI-PTFIDF(promoted CHI-pr... 采用向量空间模型(vector space model,VSM)表示网页文本,通过在CHI(Chi-Square)特征选择算法中引入频度、集中度、分散度、位置信息这四个特征因子,并考虑词长和位置特征因子改进TF-IDF权重计算公式,提出了PCHI-PTFIDF(promoted CHI-promoted TF-IDF)算法用于中文文本分类。改进算法能降维得到分类能力更强的特征项集、更精确地反映特征项的权重分布情况。结果显示,与使用传统CHI和传统TF-IDF的文本分类算法相比,PCHI-PTFIDF算法的宏F1值平均提高了10%。 展开更多
关键词 文本分类 χ2统计 特征选择 tf-idf权重计算
下载PDF
Web文本预处理技术探析 被引量:3
5
作者 阳小兰 钱程 赵海廷 《电脑知识与技术(过刊)》 2010年第29期8247-8249,共3页
文本预处理是Web数据挖掘的前提和关键,文中介绍了Web文本预处理的四个步骤,给出了TF-IDF权重计算和文本相似度计算的实现方法。
关键词 文本预处理 分词 tf-idf权重 文本表示
下载PDF
基于大数据的文化遗产认知分析方法——以北京旧城中轴线为例 被引量:10
6
作者 杨微石 郭旦怀 +3 位作者 逯燕玲 王德强 朱映秋 张宝秀 《地理科学进展》 CSSCI CSCD 北大核心 2017年第9期1111-1118,共8页
以北京旧城中轴文化遗产为例,利用2012、2015年的相关微博、报刊新闻、学术文献数据,通过提取关键词,抽取词频、tf-idf权重、互信息、后验概率等特征,从群体、时间、空间多个维度分析文化遗产的认知。在人群维度上,通过具有特征性人群... 以北京旧城中轴文化遗产为例,利用2012、2015年的相关微博、报刊新闻、学术文献数据,通过提取关键词,抽取词频、tf-idf权重、互信息、后验概率等特征,从群体、时间、空间多个维度分析文化遗产的认知。在人群维度上,通过具有特征性人群的传媒信息,发现不同人群对文化遗产的认识存在异同:对于中轴文化遗产核心单元故宫、天安门、天坛的认知相对一致,而对于钟楼鼓楼、太庙、地安门的认识,官方偏向于行政管理,学者偏向于历史价值,大众则偏向于生活化。在时间维度上,提取文化遗产关注程度和认知变化。如相对于2015年,大众对故宫、天安门的关注程度相对提高,对太庙的历史价值认识更为丰富。大众相对于官方和学者对文化遗产的认知更容易发生变化,且对热点事件敏感。在空间维度上,挖掘文化遗产单元之间的认知转移和关联模式,一方面,空间上相连的天安门—正阳门—正阳门大街具有较高的双向认知;另一方面,中轴文化遗产中,故宫、天安门、天坛的后验概率较高,表现出跨空间的认知汇聚模式。基于大数据的认知分析方法,是问卷调查、文献调研、访谈分析等传统方法的重要补充方式,能够降低数据收集者的主观影响,增加分析维度和效率,有助于发现隐含的知识和模式。本文结论可为文化遗产价值挖掘、保护提供决策支持。 展开更多
关键词 大数据分析 数据挖掘 文化遗产感知 tf-idf权重 北京中轴线
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部