期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于多源数据的重庆市产业功能区识别及变迁分析
1
作者 沈祺林 牟凤云 邵志豪 《地域研究与开发》 CSSCI 北大核心 2024年第5期47-53,共7页
基于POI数据,通过TF-IDF算法、K-means聚类算法精确识别产业功能区,深入探究重庆市中心城区2014—2021年产业功能区时空演化。结果表明:(1)重庆市中心城区休闲娱乐产业区与生活服务产业区呈集中分布;商业产业区与公共服务产业区由离散... 基于POI数据,通过TF-IDF算法、K-means聚类算法精确识别产业功能区,深入探究重庆市中心城区2014—2021年产业功能区时空演化。结果表明:(1)重庆市中心城区休闲娱乐产业区与生活服务产业区呈集中分布;商业产业区与公共服务产业区由离散分布变为集中分布;其余产业功能区呈零散分布。(2)2014—2021年,重庆市中心城区休闲娱乐产业区、商业产业区、科教文化产业区、生活服务产业区、公共服务产业区变化较明显;房地产业区变化较小;医疗产业区变化呈先增加后减少趋势;商务服务产业区无明显变化。(3)运用混淆矩阵法对产业功能区识别结果进行精度评价,得到重庆市中心城区产业功能区总体分类精度为82.50%,Kappa系数为0.80。总体上,TF-IDF算法能够较精确地识别出产业功能区,识别结果可为研究产业功能区空间演化提供参考。 展开更多
关键词 产业功能区 TF-IDF算法 POI数据 K-MEANS聚类算法 时空演化 重庆市
下载PDF
基于用户特征的馆藏图书智能融合聚类推荐仿真
2
作者 宋智翔 姚嘉昕 《网络新媒体技术》 2024年第4期51-57,共7页
为了提高馆藏图书的检索效率,提出基于用户特征的馆藏图书智能融合聚类推荐方法。首先,通过TF-IDF方法提取用户对图书资源的偏好特征,将时间系数融入衰减函数中分析用户在不同时间段的偏好特征变化情况,更新用户偏好特征;然后,采用K-me... 为了提高馆藏图书的检索效率,提出基于用户特征的馆藏图书智能融合聚类推荐方法。首先,通过TF-IDF方法提取用户对图书资源的偏好特征,将时间系数融入衰减函数中分析用户在不同时间段的偏好特征变化情况,更新用户偏好特征;然后,采用K-means算法根据偏好特征对用户实施聚类处理,利用改进后的人工蜂群算法对聚类中心展开优化,完成用户聚类;最后,根据用户之间的偏好特征相似度获取目标用户的最近邻居,计算目标用户与最近邻居对图书资源的评分相似度。根据计算结果建立加权融合模型,基于预测用户对未阅读图书资源的评级,选择评级高的图书资源生成推荐列表,实现馆藏图书的智能融合聚类推荐。仿真实验结果表明,所提方法的聚类精度高、覆盖率高、推荐效果好、多样性好。 展开更多
关键词 TF-IDF 方法 用户偏好特征 K-MEANS 算法 改进人工蜂群算法 图书推荐
下载PDF
基于主题—情感挖掘模型的微博评论情感分类研究 被引量:18
3
作者 朱晓霞 宋嘉欣 孟建芳 《情报理论与实践》 CSSCI 北大核心 2019年第5期159-164,共6页
[目的/意义]近些年来,随着互联网的快速发展,微博逐渐成为人们发表言论的一个社交网络平台。通过对大量评论信息进行情感分析,对政府进行舆情治理、企业市场决策和消费行为分析具有十分重要的意义。[方法/过程]文章针对微博评论表达的特... [目的/意义]近些年来,随着互联网的快速发展,微博逐渐成为人们发表言论的一个社交网络平台。通过对大量评论信息进行情感分析,对政府进行舆情治理、企业市场决策和消费行为分析具有十分重要的意义。[方法/过程]文章针对微博评论表达的特点,提出一种基于主题—情感挖掘模型的无监督情感分类方法,通过将语义角色标注、TF-IDF和K-means聚类方法相结合,构建情感单元词表和主题—情感匹配词表,同时挖掘出评论中主题和情感的分布与联系,并利用点互信息(Pointwise Mutual Information,PMI)和情感词典的方法计算主题词的情感极性值,基于此进行情感分类。[结果/结论]经实验证明,该方法同时考虑了评论中的主题分布与情感极性信息,解决了主题模型中常见的数据稀疏问题,提高了情感分类的效率和准确性,在F值上比S-LDA模型提高了14.24%。 展开更多
关键词 微博 主题—情感挖掘模型 语义角色标注 TF-IDF K-MEANS算法 情感分类
下载PDF
基于Web日志的性格预测与群体画像方法研究 被引量:11
4
作者 康海燕 李昊 《郑州大学学报(理学版)》 CAS 北大核心 2020年第1期39-46,共8页
提出一种用户性格预测与群体画像方法。该方法将数据挖掘、机器学习和画像技术相结合,首先改进了传统TF-IDF算法没有考虑文章结构的问题,提高网页主题挖掘的准确率;其次根据大五类性格构建“性格-主题-关键词”(PTK)模型,归结不同用户... 提出一种用户性格预测与群体画像方法。该方法将数据挖掘、机器学习和画像技术相结合,首先改进了传统TF-IDF算法没有考虑文章结构的问题,提高网页主题挖掘的准确率;其次根据大五类性格构建“性格-主题-关键词”(PTK)模型,归结不同用户的兴趣属性特征和性格属性特征,并结合用户的基础属性对用户进行综合画像;然后运用K-means方法将拥有相同属性特征的人群进行聚类,描绘在社会中拥有相似特征人群的群体面貌;最后通过实验证明,该方法使用改进的TF-IDF方法对网页文本进行挖掘效果要优于LDA主题模型,而且可以有效对用户的性格进行预测与群体画像。 展开更多
关键词 WEB日志 数据挖掘 用户画像 性格预测 TF-IDF K-MEANS
下载PDF
新的基于簇划分文本分类方法 被引量:2
5
作者 台德艺 谢飞 胡学钢 《计算机工程与设计》 CSCD 北大核心 2009年第6期1461-1463,共3页
基于向量空间模型的文本分类由于文本向量维数较高导致分类器效率较低。针对这一不足,提出一种新的基于簇划分的文本分类方法。其主要思想是根据向量空间中向量间的距离,将训练文档分成若干簇,同一簇中的文档具有相同类别。测试时,根据... 基于向量空间模型的文本分类由于文本向量维数较高导致分类器效率较低。针对这一不足,提出一种新的基于簇划分的文本分类方法。其主要思想是根据向量空间中向量间的距离,将训练文档分成若干簇,同一簇中的文档具有相同类别。测试时,根据测试文档落入哪个簇,确定文档的类别,并且和传统的文本分类方法k-NN进行了比较。实验结果表明,该方法在高维空间具有良好的泛化能力和很好的时间性能。 展开更多
关键词 文本分类 向量空间模型 TF-IDF 特征选择 K-NN
下载PDF
面向特征的软件需求规约 被引量:1
6
作者 张国生 《微电子学与计算机》 北大核心 2019年第11期20-23,共4页
基于大数据方法对自然语言用户需求文本进行分析,用TF-IDF方法计算特征词在需求文本中的出现频率,归一化后求得特征词在文本中的权重,用卡方统计量衡量特征词和簇之间的相关性,用k-均值算法和二分k-均值算法对特征集聚类,生成用户需求... 基于大数据方法对自然语言用户需求文本进行分析,用TF-IDF方法计算特征词在需求文本中的出现频率,归一化后求得特征词在文本中的权重,用卡方统计量衡量特征词和簇之间的相关性,用k-均值算法和二分k-均值算法对特征集聚类,生成用户需求文本特征树,并映射为需求功能分解树中对应的需求功能,使需求特征语义、结构更加清晰,增强了自动需求规约能力,提高了需求分析效率,使需求规约更加科学、合理、准确. 展开更多
关键词 TF-IDF 卡方 K-均值 二分k-均值 特征树 功能分解树
下载PDF
基于改进TF-IDF算法的毕业生就业推荐算法研究 被引量:2
7
作者 李龙 金铄 黄霞 《计算机与数字工程》 2023年第9期1985-1989,2118,共6页
针对传统就业推荐算法不能够对每一个毕业生进行精准的推荐的局限性,论文提出一种结合TF-IDF算法和K-means++算法的双向推荐系统,一方面对毕业生信息使用K-means++算法进行聚类,对新用户根据其初始信息与行为信息进行用户画像建模,并计... 针对传统就业推荐算法不能够对每一个毕业生进行精准的推荐的局限性,论文提出一种结合TF-IDF算法和K-means++算法的双向推荐系统,一方面对毕业生信息使用K-means++算法进行聚类,对新用户根据其初始信息与行为信息进行用户画像建模,并计算与往届毕业生的相似度;另一方面使用TF-IDF算法对各个招聘网站所发布的招聘信息中的关键词进行统计转换词频等操作。实验结果表明,该双向就业推荐系统比起之前单向就业推荐提高了毕业生就业推荐的满意度,提升推荐效率。 展开更多
关键词 K-means++算法 TF-IDF算法 用户画像 推荐系统
下载PDF
基于情感分析的酒店顾客满意度评估 被引量:21
8
作者 刘岩 张艳荣 +2 位作者 赵志杰 闫晓彤 张佳琳 《计算机应用与软件》 北大核心 2020年第2期54-60,67,共8页
随着信息技术发展和社交平台多方面渗入,在线评论凭借真实客观的优点已成为商家和消费者的主要信息来源。结合TF-IDF、K-means算法获取酒店顾客满意度影响因素;采用基于监督学习的分类算法与百度自然语言处理API得出情感极性值;利用多... 随着信息技术发展和社交平台多方面渗入,在线评论凭借真实客观的优点已成为商家和消费者的主要信息来源。结合TF-IDF、K-means算法获取酒店顾客满意度影响因素;采用基于监督学习的分类算法与百度自然语言处理API得出情感极性值;利用多元线性回归建立满意度评估模型,并将该模型应用于“2019哈尔滨冰上冰雪嘉年华”期间754家酒店的满意度分析中。研究结果表明:与现有酒店预订平台相比,该评价体系更加客观全面,顾客对此阶段的酒店总体满意度中等偏上,单维度分析中,总体感受是顾客最为关注的问题,但是酒店设施和卫生环境等因素也会影响酒店顾客满意度的提升。 展开更多
关键词 酒店顾客满意度 TF-IDF K-MEANS 文本分类 情感分析
下载PDF
基于网评文本的LDA游客目的地印象分析
9
作者 张超群 郝小芳 +2 位作者 王大睿 李晓翔 完颜兵 《现代计算机》 2022年第2期12-20,61,共10页
随着大数据时代的到来及人民生活水平的不断提高,旅游业迅速发展。鉴于游客满意度直接影响目的地美誉度,有必要对游客目的地印象进行分析。本文根据文本分析理论,首先对“泰迪杯”挑战赛官网、穷游网的网评文本数据进行数据预处理,再用J... 随着大数据时代的到来及人民生活水平的不断提高,旅游业迅速发展。鉴于游客满意度直接影响目的地美誉度,有必要对游客目的地印象进行分析。本文根据文本分析理论,首先对“泰迪杯”挑战赛官网、穷游网的网评文本数据进行数据预处理,再用Jieba库分词,接着用TF-IDF算法提取关键词,根据Kmeans得出聚类中心,结合KNN算法将其分类,最后用LDA模型进行主题分析并映射为特征需求。实验结果表明,游客主要关注目的地的服务、位置、设施、性价比、卫生,根据特征需求了解游客偏好,据此对旅游企业健康持续发展提出三条有益建议,有助于优化旅游资源配置,提高游客满意度和提升目的地美誉度。 展开更多
关键词 网评文本 游客满意度 目的地美誉度 Jieba库 TF-IDF K-means KNN LDA模型
下载PDF
基于K-means和TF-IDF的中文药名聚类分析 被引量:2
10
作者 黄运高 王妍 +2 位作者 邱武松 向林泓 赵学良 《计算机应用》 CSCD 北大核心 2014年第A01期173-174,210,共3页
针对药名聚类中药物命名特殊性导致的命名准确率低的问题,提出了基于TF-IDF和K-means的药名聚类方法。药物命名具有一定的规律性且中西药名命名形式不同等特点,基于字词共现频率的方法难以取得较好的聚类效果,因此,使用TF-IDF方法计算... 针对药名聚类中药物命名特殊性导致的命名准确率低的问题,提出了基于TF-IDF和K-means的药名聚类方法。药物命名具有一定的规律性且中西药名命名形式不同等特点,基于字词共现频率的方法难以取得较好的聚类效果,因此,使用TF-IDF方法计算药名相似的方法并采用K-means聚类算法进行药名的聚类。实验结果表明,TFIDF的聚类准确率高于TF的聚类方法,按字切分的聚类准确率高于分词后的聚类准确率,基于字和TF-IDF的聚类准确率最高且稳定,准确率达到96.77%。 展开更多
关键词 TF-IDF K-MEANS 中文药名聚类 药名分析 字词共现频率
下载PDF
基于文本挖掘的轨道电路细粒度故障致因分析方法 被引量:4
11
作者 侯通 郑启明 +2 位作者 姚新文 陈光武 王小敏 《铁道学报》 EI CAS CSCD 北大核心 2022年第10期73-81,共9页
针对轨道电路故障文本记录依赖人工分析处理且故障文本利用率低的问题,提出一种轨道电路细粒度故障致因文本挖掘方法。从故障致因类型角度出发,基于改进TF-IDF算法实现故障文本特征表示,采用支持向量机实现均衡后的故障文本自动分类;考... 针对轨道电路故障文本记录依赖人工分析处理且故障文本利用率低的问题,提出一种轨道电路细粒度故障致因文本挖掘方法。从故障致因类型角度出发,基于改进TF-IDF算法实现故障文本特征表示,采用支持向量机实现均衡后的故障文本自动分类;考虑轨道电路故障原因多样性,对基于Word2vec向量表示的不同致因类型故障文本,进一步采用K-means算法聚类挖掘出细粒度故障主题类型,并依据词频特征提取各故障主题类型中的易发性故障致因。通过对某铁路局集团有限公司2015—2018年轨道电路故障文本数据实验分析,表明该方法可以实现轨道电路故障文本记录自动化统计分析,对现场综合检修、制定预防性维护措施具有辅助指导意义。 展开更多
关键词 轨道电路 文本挖掘 TF-IDF K-MEANS 聚类分析
下载PDF
基于内容分析的美国大学图书馆数字人文馆员职责研究 被引量:5
12
作者 李赫 刘丽君 《图书馆工作与研究》 CSSCI 北大核心 2021年第11期119-128,共10页
本文选取39所美国大学图书馆数字人文中心的113位数字人文馆员岗位责任描述文本为研究对象,利用TF-IDF算法和K-means聚类法对数字人文馆员的岗位、责任、角色定位等进行分析,发现美国大学图书馆数字人文馆员大致呈现两类责任组群:一类... 本文选取39所美国大学图书馆数字人文中心的113位数字人文馆员岗位责任描述文本为研究对象,利用TF-IDF算法和K-means聚类法对数字人文馆员的岗位、责任、角色定位等进行分析,发现美国大学图书馆数字人文馆员大致呈现两类责任组群:一类负责数字人文中心的整体协调及项目管理;另一类负责数字技术层面的服务及教学。通过研究美国数字人文馆员职责特征,发掘其实践模式的参考价值,将有助于推进我国大学图书馆数字人文馆员队伍的建设。 展开更多
关键词 大学图书馆 数字人文馆员 数字人文 TF-IDF算法 K-MEANS聚类 美国
下载PDF
基于核函数的改进k-means文本聚类 被引量:12
13
作者 张国锋 吴国文 《计算机应用与软件》 北大核心 2019年第9期281-284,301,共5页
通过对传统k-means算法优缺点的研究分析,提出一种改进的k-means聚类算法。随机初始化k/2个簇心,划分最大的簇并删除空簇,在更新簇心的同时判断簇心位置的合理性;及时对簇心做出修改,使得最后聚类出的k个簇中不会出现空簇;使用高斯核函... 通过对传统k-means算法优缺点的研究分析,提出一种改进的k-means聚类算法。随机初始化k/2个簇心,划分最大的簇并删除空簇,在更新簇心的同时判断簇心位置的合理性;及时对簇心做出修改,使得最后聚类出的k个簇中不会出现空簇;使用高斯核函数作为测量向量之间距离的方法,提高聚类的准确性。基于此改进的k-means算法,使用在不同网站上采集的文章作为数据源,并利用TF-IDF以及Word2Vec技术对文本进行向量化处理,进而完成对文本的聚类任务。与传统的k-means文本聚类相比,不仅提高了聚类的准确性,而且改善了传统k-means算法结果可能会出现空簇的缺陷。 展开更多
关键词 K-MEANS 高斯核函数 TF-IDF 文本聚类
下载PDF
英汉翻译语法误译校正方法研究——基于K均值聚类
14
作者 吴南辉 沈炎松 《漳州职业技术学院学报》 2022年第2期67-75,共9页
针对现有英汉翻译语法误译校正方法中存在的校正精度较低等问题,提出一种基于K均值聚类的英汉翻译语法误译校正方法。对采集的英汉翻译语法数据实施预处理,运用TF-IDF算法由预处理后的语法数据内提取语法特征,构成语法特征样本集;通过K... 针对现有英汉翻译语法误译校正方法中存在的校正精度较低等问题,提出一种基于K均值聚类的英汉翻译语法误译校正方法。对采集的英汉翻译语法数据实施预处理,运用TF-IDF算法由预处理后的语法数据内提取语法特征,构成语法特征样本集;通过K均值聚类确定特征样本集内语法误译特征,将此误译特征作为输入参数,输入到构建误译校正模型中,实现英汉翻译语法误译的校正。结果表明,该方法可检测出语法特征样本集内的误译特征,所检测的误译特征个数与对应数据集的实际误译类别数量几乎一致,综合检测性能较高;可通过语法误译校正将误译语法与正确语法区分,整体校正精度高于98%。 展开更多
关键词 K均值聚类 英汉翻译 语法误译 TF-IDF算法 特征提取 误译校正模型
下载PDF
基于卫星装配工艺的短文本聚类研究 被引量:2
15
作者 崔晴洋 梁小峰 +3 位作者 倪静 李帅 张生 仲梁维 《软件工程》 2020年第4期7-11,共5页
为了实现机械手对卫星的自动装配,保证在装配过程中机械手能明确每一步的操作类型。本文主要基于对人工作业的卫星装配工艺规程文件进行文本挖掘,以装配工步内容作为短文本进行操作类型的分类。利用自然语言处理中常用的TF-IDF算法与Tex... 为了实现机械手对卫星的自动装配,保证在装配过程中机械手能明确每一步的操作类型。本文主要基于对人工作业的卫星装配工艺规程文件进行文本挖掘,以装配工步内容作为短文本进行操作类型的分类。利用自然语言处理中常用的TF-IDF算法与TextRank算法提取关键字,结合基于装配工艺术语的分级加权方法,构建三种不同的词向量模型与词袋空间。最后使用K-means聚类算法,分别对上述三种方案下的聚类结果进行比较与评估。结果表明,基于装配技术术语的分级加权方案表现最好,平均准确率、召回率、F值分别为88.67%、88.71%、88.66%。基于装配技术术语的短文本聚类方法不仅能自动对复杂的操作类型进行自动分类,大大减少了人工干预,而且极大地提升了分类的准确率。 展开更多
关键词 操作类型 TF-IDF TextRank 分级加权 K-MEANS
下载PDF
基于K-means的政府公文聚类方法 被引量:3
16
作者 王荻智 李建宏 施运梅 《软件导刊》 2020年第6期201-204,共4页
政府公文数量巨大,不同政府网站公文分类规则不一,在引用和参考公文时可能发生混淆。针对该问题,基于政府公文题目、摘要和正文内容,采用K-means算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频-逆... 政府公文数量巨大,不同政府网站公文分类规则不一,在引用和参考公文时可能发生混淆。针对该问题,基于政府公文题目、摘要和正文内容,采用K-means算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频-逆文档频率(TF-IDF)权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用K-means算法进行聚类。使用清华大学THUCTC文本分类系统对公文聚类结果进行测试。实验结果表明,采用K-means算法对公文进行聚类,准确率达到82.93%,远高于政府网站公文分类准确率。 展开更多
关键词 文本聚类 词频—逆文档频率 K-MEANS算法
下载PDF
基于词云和文章主题的校园综合新闻聚类
17
作者 郝秀慧 方贤进 杨高明 《安徽理工大学学报(自然科学版)》 CAS 2021年第6期39-44,共6页
面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法。通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取... 面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法。通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取,并用词云结果来估计k值,结果可将采集到的校园综合新闻数据聚为7个类别,与不基于文章主题的k-means聚类方法对比。评估结果表明,当将数据聚为2到10不同的类别数时,基于top3文章主题聚类的戴维森堡丁指数值整体小于不基于文章主题的聚类方法。因此,基于词云和top3文章主题的聚类方法比不基于文章主题的聚类方法稍好。聚类结果能为用户了解或查找想要的类别信息提供一定参考。 展开更多
关键词 词云 文章主题 校园新闻 词频-反文档频率 K-MEANS聚类
下载PDF
K-Means聚类的多种距离计算方法的文本实验比较 被引量:6
18
作者 林滨 《福建工程学院学报》 CAS 2016年第1期80-85,共6页
针对文本类型数据的分类进行研究,用VSM模型和TF-IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同... 针对文本类型数据的分类进行研究,用VSM模型和TF-IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。 展开更多
关键词 文本聚类 TF-IDF K-MEANS 距离计算
下载PDF
面向电力工单文本的服务失误识别 被引量:1
19
作者 杨捷 范美位 +1 位作者 罗成臣 张思路 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第S02期32-37,共6页
服务失误会引发客户的负面情绪,是阻碍提升用户服务体验的主要因素.传统的人工分析方法在服务失误识别的效率和及时性上存在明显不足.为此,提出一种面向电力工单文本的服务失误识别方法.首先,采用情感分类从电力工单文本中选取负面电力... 服务失误会引发客户的负面情绪,是阻碍提升用户服务体验的主要因素.传统的人工分析方法在服务失误识别的效率和及时性上存在明显不足.为此,提出一种面向电力工单文本的服务失误识别方法.首先,采用情感分类从电力工单文本中选取负面电力工单本文;其次,使用IF-TDF计算负面电力工单文本TOP-N关键词,并使用词袋模型将文本向量化表示;然后,使用K-means方法将向量化文本进行聚类,得到服务失误簇;最后,使用文本支持度从服务失误簇中提取高频词.实验结果表明:该方法可以有效识别电力工单文本中的服务失误簇及簇内的高频词. 展开更多
关键词 服务失误 电力工单文本 情感分类 TF-IDF K-MEANS
下载PDF
基于关键句的K-means算法在热点发现领域的研究与应用
20
作者 顾俊 《贵州科学》 2016年第3期93-96,共4页
由于"互联网+"提出的,网络信息呈现爆炸的趋势。面对海量数据如何准确找到热点事件成了网民关注的话题。文章从实际应用出发,首先对每一篇文本选取5句话作为该文本关键句,然后用TF-IDF计算特征词值,特征向量选择时不考虑单个... 由于"互联网+"提出的,网络信息呈现爆炸的趋势。面对海量数据如何准确找到热点事件成了网民关注的话题。文章从实际应用出发,首先对每一篇文本选取5句话作为该文本关键句,然后用TF-IDF计算特征词值,特征向量选择时不考虑单个字的权重,再用K-means算法进行聚类。以新浪新闻为例,将环境、住房和违法三类话题共322篇文本作为测试语料进行聚类,聚类准备率达到70%以上,说明选取关键句比将整个文本作为聚类对象的聚类效果好。 展开更多
关键词 文本挖掘 TF-IDF 聚类 K-MEANS
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部