期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于词频-逆文档频率和法律本体的相似案例检索算法 被引量:2
1
作者 张云婷 叶麟 +1 位作者 方滨兴 张宏莉 《智能计算机与应用》 2021年第5期229-234,F0003,共7页
智慧检务是近年来研究的热点问题,而相似案例检索是智慧检务中公共法律服务模块的基本需求。传统的基于关键词的检索方式使案例的相似性仅局限在浅显的词语层面上,无法满足用户在文章和语义层面上的检索需求。针对公共法律服务中的相似... 智慧检务是近年来研究的热点问题,而相似案例检索是智慧检务中公共法律服务模块的基本需求。传统的基于关键词的检索方式使案例的相似性仅局限在浅显的词语层面上,无法满足用户在文章和语义层面上的检索需求。针对公共法律服务中的相似案例检索问题,该文以公共法律服务案例为研究对象,引入能够突出法律语义的案例要素,并以其为依据为案例建模,提出了一种基于语义的相似案例检索算法。该算法首先结合词频-逆文档频率和法律本体,提取出语料库中全部案例要素,再基于向量空间模型,通过欧氏距离计算出用户输入案例和语料库中各案例的相似程度,从而实现语义层面上的相似案例检索。通过对12348中国法网司法行政(法律服务)案例库中案例的分类实验可知,与传统的词频-逆文档频率提取关键词方法相比,该算法在监狱教改类案例分类上,其F1值提高了36.36%。 展开更多
关键词 语义检索 文本相似度计算 词频-文档频率 本体知识 案例要素
下载PDF
基于TF-IDF和VOSviewer的我国应急救援现状可视化分析 被引量:2
2
作者 黄萍 张文龙 +2 位作者 叶圣琳 余君 余龙星 《中国安全科学学报》 CAS CSCD 北大核心 2023年第11期196-205,共10页
为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2... 为有效利用消防救援队伍的实战记录资料挖掘应急救援战例成功经验,结合词频-逆文档频率(TF-IDF)算法和VOSviewer文献可视化分析技术,构建战例资料分析模型,分析战例成功与失败的共性规律和特点,总结我国应急救援现状及发展趋势。模型以2007—2019年间共185起应急救援典型战例为数据库,按照自然灾害、交通事故、建筑坍塌、危化品泄漏、火灾扑救等应急救援行动类型展开分析。结果表明:我国应急救援行动的影响因素主要表现在人(救援队伍)、机(装备技术)、环(环境)、管(管理)4个方面。其中,环境因素的影响几乎都是负面的,其他3个因素均有正负面影响。此外,不同应急救援行动类型的主导影响因素存在差异,自然灾害突出“机”;交通事故突出“管”;建筑坍塌突出“机”“环”;危化品泄漏在“人机环管”4个方面均有突出问题;火灾救援突出“机”。 展开更多
关键词 词频-文档频率(tf-idf) VOSviewer 应急救援 消防救援 可视化分析 战例分析
下载PDF
文本分类TF-IDF算法的改进研究 被引量:110
3
作者 叶雪梅 毛雪岷 +1 位作者 夏锦春 王波 《计算机工程与应用》 CSCD 北大核心 2019年第2期104-109,161,共7页
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分... 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 展开更多
关键词 新词 词频-文档频率(tf-idf) 向量空间模型 文本分类
下载PDF
一种改进型TF-IDF文本聚类方法 被引量:16
4
作者 张蕾 姜宇 孙莉 《吉林大学学报(理学版)》 CAS 北大核心 2021年第5期1199-1204,共6页
针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,... 针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频,再通过K-means++算法进行聚类,最后使用随机森林算法分别评估聚类的准确性.实验结果表明,改进TF-IDF算法提高了分类的准确率. 展开更多
关键词 词频-文档频率(tf-idf) 混合聚类 交叉学科 基本科学指标数据库(ESI)文献
下载PDF
基于BM25的勘察设计企业科研项目重复性检测方法研究
5
作者 王扬 曹德威 +2 位作者 王剑刚 钱锋 钱常运 《科技管理研究》 CSSCI 2024年第4期167-174,共8页
中国勘察设计企业的科研重复投入情况日益凸显,这是对资金、人力、信誉乃至科研精神的损耗,不利于尖端技术的孵化,因此通过智能化手段自动识别科研课题重复性,最大化复用科研成果势在必行。结合BM25算法的基础理论,融合勘察设计企业的... 中国勘察设计企业的科研重复投入情况日益凸显,这是对资金、人力、信誉乃至科研精神的损耗,不利于尖端技术的孵化,因此通过智能化手段自动识别科研课题重复性,最大化复用科研成果势在必行。结合BM25算法的基础理论,融合勘察设计企业的数据属性,引入领域、专业、负责人等特征值,提出一种聚焦企业内部的科研项目重复性检测方法。该方法涉及4个步骤,包括文本预处理、建立匹配库,根据词频-逆文档频率(TF-IDF)算法、BM25算法分别计算输入课题与匹配库中课题的相似度,最后分析计算结果。相较于TF-IDF算法,BM25算法通过词语饱和度和字段长度规约实现权重控制,针对新能源、工程数字化和信息化领域的研究课题中的计算结果有较高的区分度,有利于挖掘不同领域下高相似性的文本,最大程度避免潜在重复课题的遗漏;同时该算法的计算时间小于0.1 s,可满足商用,在科研课题立项重复性校验、成果重合度判定中发挥支撑作用,计算结果经技术研发人员复验,准确性满足业务管理需要,在勘察设计行业具有推广价值。 展开更多
关键词 科研课题 项目复性校验 勘察设计企业 BM25 词频-文档频率(tf-idf) 文本相似度
下载PDF
社会网络环境下双驱动DEMATEL的群智知识融合应急决策方法 被引量:1
6
作者 陈兆芳 黄鹏城 黄文翰 《安全与环境学报》 CAS CSCD 北大核心 2024年第6期2336-2347,共12页
针对多属性应急群决策中决策属性缺少数据支持和公众难以参与决策过程的问题,提出了一种使用信任网络计算专家权重和融合公众知识与专家知识的双驱动模型的应急决策方法。首先,考虑传统模型只能依赖主观经验的不足,通过分析社交媒体中... 针对多属性应急群决策中决策属性缺少数据支持和公众难以参与决策过程的问题,提出了一种使用信任网络计算专家权重和融合公众知识与专家知识的双驱动模型的应急决策方法。首先,考虑传统模型只能依赖主观经验的不足,通过分析社交媒体中的文本数据来获得公众意见,并使用词频-逆文档频率算法(Term Frequency-Inverse Document Frequency, TF-IDF)提取意见中的关键信息,以公众大数据来获得数据驱动因素,同时,通过决策专家提供的专家知识,为决策过程提供知识驱动因素,构成双驱动的决策实验室分析法(Decision Making Trial and Evaluation Laboratory, DEMATEL)模型来建立评价属性体系,模型中影响因素的相互作用程度由公众大数据与专家评价共同决定,以得到公众知识数据与专家知识评价融合的结果;其次,使用社会网络表示专家之间的信任关系与信任强度,并通过Louvain算法对专家进行聚类,通过社会网络中节点的度中心性与接近中心性,得到个体的权重进而计算出各聚类权重,使用直觉模糊加权平均算子(Iterative Fuzzy Weighted Averaging, IFWA)结合决策偏好与属性权重,通过得分函数计算备选方案的得分,并依据得分结果对方案排序以得到最优的解决方案;最后,结合“7·20”郑州市突发暴雨案例证明了本方法的可行性和有效性。 展开更多
关键词 公共安全 决策实验室分析法(DEMATEL) 应急决策 词频-文档频率算法(tf-idf) 群智融合
下载PDF
兴趣点数据的城市功能区识别方法对比
7
作者 崔方迪 袁璞 《北京测绘》 2024年第12期1652-1658,共7页
城市功能区作为社会经济活动载体,对城市资源配置及规划管理具有重要意义。传统城市功能区识别方法存在主观性强、效率低、识别精度低等缺陷。鉴于此,本研究引入自然语言处理(NLP)技术中的潜在狄利克雷分布(LDA)模型和词频-逆文档频率(T... 城市功能区作为社会经济活动载体,对城市资源配置及规划管理具有重要意义。传统城市功能区识别方法存在主观性强、效率低、识别精度低等缺陷。鉴于此,本研究引入自然语言处理(NLP)技术中的潜在狄利克雷分布(LDA)模型和词频-逆文档频率(TF-IDF)模型,挖掘城市兴趣点(POI)数据语义信息,揭示区域性潜在的功能利用模式。首先,城市空间被分割为500 m×500 m粒度的格网,将POI数据映射到对应的地理网格单元,并基于词袋模型构建语料库。随后,分别采用LDA模型和TF-IDF模型计算格网单元和POI数据之间的分布模式来识别城市功能区。最后,将城市功能区识别结果与百度电子地图及街景影像进行比对来评估精度。实验结果表明,LDA模型算法精度达78%,优于精度为63%的TF-IDF模型。LDA算法能更加准确地识别城市功能区的功能利用类型,且能够在TF-IDF模型较难区分的功能区上取得较好识别效果。本研究揭示了POI数据与城市功能区之间的潜在语义关系,可作为城市功能区研究的参考和补充,可辅助城市规划者动态监测城市结构,对未来城市更新与发展进行布局引导。 展开更多
关键词 城市功能区 兴趣点(POI) 自然语言处理(NLP) 词频-文档频率模型(tf-idf) 潜在狄利克雷分布(LDA)
下载PDF
融合生成对抗网络和朴素贝叶斯皮肤病诊断方法 被引量:8
8
作者 商显震 韩萌 +4 位作者 孙毓忠 孙宇宁 陈旭 胡满满 梅御东 《计算机科学与探索》 CSCD 北大核心 2019年第6期1005-1015,共11页
不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在... 不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在皮肤病数据集上训练朴素贝叶斯二分类器作为诊断器,创新性地使用GAN为前者生成补充训练样本,使其训练集正负类样本达到平衡。针对皮肤病诊断多分类问题,提出一种融合生成对抗网络和朴素贝叶斯的多分类诊断方法:使用GAN和朴素贝叶斯训练皮肤病单病种二分类器,并结合了词频-逆文档频率算法(term frequency-inverse document frequency,TF-IDF),将多个二分类器组合成一个多分类器作为诊断器。与六种诊断方法进行了对比实验,提出的两种皮肤病诊断方法准确率和召回率均有提升。 展开更多
关键词 皮肤病诊断 朴素贝叶斯(NB) 词频-文档频率(tf-idf)算法 生成对抗网络(GAN) 类不平衡数据
下载PDF
基于多源异构数据的煤矿安全管理效果评估 被引量:15
9
作者 宿国瑞 贾宝山 +1 位作者 王鹏 申琢 《中国安全科学学报》 CAS CSCD 北大核心 2021年第6期64-69,共6页
为探索智慧矿山视角下的煤矿安全管理模式,将生态安全领域中压力-状态-响应(PSR)模型引入煤矿安全管理,构建煤矿安全管理PSR模型,揭示风险隐患因素、煤矿安全状态及安全风险管控效果之间的作用关系;分析煤矿采集的多源异构数据,基于煤... 为探索智慧矿山视角下的煤矿安全管理模式,将生态安全领域中压力-状态-响应(PSR)模型引入煤矿安全管理,构建煤矿安全管理PSR模型,揭示风险隐患因素、煤矿安全状态及安全风险管控效果之间的作用关系;分析煤矿采集的多源异构数据,基于煤矿安全管理PSR模型框架,构建基于词频-逆文档频率(TF-IDF)算法的隐患分类模型和主成分分析(PCA)的煤矿安全评估模型;将该评估模型应用于内蒙古某矿,验证该模型的有效性。结果表明:基于TF-IDF算法的隐患分类模型和PCA的煤矿安全评估模型能够实现煤矿安全管理效果的综合分析,根据分析结果可排查主要安全隐患。 展开更多
关键词 多源异构数据 煤矿安全管理 效果评估 压力-状态-响应(PSR)模型 词频-文档频率(tf-idf) 主成分分析法(PCA)
下载PDF
云环境下软件错误报告自动分类算法改进
10
作者 黄伟 林劼 江育娥 《计算机应用》 CSCD 北大核心 2016年第5期1212-1215,1221,共5页
用户提交的软件错误报告随意性大、主观性强且内容少导致自动分类正确率不高,需要花费大量人工干预时间。随着互联网的快速发展用户提交的错误报告数量也不断增加,如何在海量数据下提高其自动分类的精确度越来越受到关注。通过改进词频... 用户提交的软件错误报告随意性大、主观性强且内容少导致自动分类正确率不高,需要花费大量人工干预时间。随着互联网的快速发展用户提交的错误报告数量也不断增加,如何在海量数据下提高其自动分类的精确度越来越受到关注。通过改进词频-逆文档频率(TF-IDF),考虑到词条在类间和类内出现情况对文本分类的影响,提出一种基于软件错误报告数据集的改进多项式朴素贝叶斯算法,同时在Hadoop平台下使用MapReduce计算模型实现该算法的分布式版本。实验结果表明,改进的多项式朴素贝叶斯算法将F1值提高到71%,比原算法提高了27个百分点,同时在海量数据下可以通过拓展节点的方式缩短运行时间,有较好的执行效率。 展开更多
关键词 多项式朴素贝叶斯 错误报告 文本自动分类 词频-文档频率 计算
下载PDF
基于BLS的铁路安全事件文本分类研究 被引量:2
11
作者 尚麟宇 尹明 +1 位作者 肖畅 程君 《中国安全科学学报》 CAS CSCD 北大核心 2022年第6期103-108,共6页
为预防铁路安全事件的发生,利用文本挖掘相关技术和宽度学习系统(BLS),探讨铁路安全事件分类,包括设备问题、施工问题、作业问题、外部环境问题4大类。通过清洗及结构化314条文本数据,运用Jieba分词+自定义词表+通用停用词表完成中文分... 为预防铁路安全事件的发生,利用文本挖掘相关技术和宽度学习系统(BLS),探讨铁路安全事件分类,包括设备问题、施工问题、作业问题、外部环境问题4大类。通过清洗及结构化314条文本数据,运用Jieba分词+自定义词表+通用停用词表完成中文分词;基于卡方检验建立223个特征词,基于词频-逆文档频率(TF-IDF)计算特征词权重;基于BLS完成事件成因分类,设计3种基于BLS的分类方法。结果表明:该系统通过挖掘铁路安全事件报告的文本信息,能够形成有效的分类模型;利用BLS自身节省算力的特性,并通过添加特征增强节点的方式,可提高分类准确性,从而提高行业管理水平。 展开更多
关键词 宽度学习系统(BLS) 铁路安全事件 文本分类 词频-文档频率(tf-idf) 文本挖掘
下载PDF
中国区域服务业政策的事实特征与发展趋势——基于各时期服务业政策文本的NVivo分析 被引量:1
12
作者 李文秀 《公共治理研究》 2022年第6期93-99,共7页
本研究采用聚类分析和扎根理论,对我国“十二五”至“十四五”时期的服务业政策的事实特征进行总结。研究发现:省际间在推动服务业高质量发展的方式上存在较显著的差异,根据服务业发展水平的不同,各区域有着不同的侧重点。基于上述发现... 本研究采用聚类分析和扎根理论,对我国“十二五”至“十四五”时期的服务业政策的事实特征进行总结。研究发现:省际间在推动服务业高质量发展的方式上存在较显著的差异,根据服务业发展水平的不同,各区域有着不同的侧重点。基于上述发现,在对策上我们应重视地方服务业水平差异,量身定制具有弹性的政策体系,以加强区域协同作用,发挥区域协同优势,促进现代服务业发展壮大。 展开更多
关键词 服务业发展 聚类分析 词频-文档频率(tf-idf) 政策文本分析 Nvivo
下载PDF
基于朴素贝叶斯算法的信息过滤研究 被引量:2
13
作者 杜拓 方红 《信息与电脑》 2023年第9期90-92,共3页
随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息... 随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息过滤领域的应用,包括信息过滤的分类、文本表示方法、基于朴素贝叶斯的信息过滤模型构建。最后,通过实验评估了该方法在文本分类任务上的性能,包括不同特征表示方法的对比以及与其他分类算法的性能对比。实验结果表明,基于朴素贝叶斯算法的信息过滤具有较好的性能,可以有效分类不同主题的文本。 展开更多
关键词 朴素贝叶斯算法 信息过滤 文本分类 词袋模型 词频-文档频率(tf-idf)计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部