期刊文献+
共找到69篇文章
< 1 2 4 >
每页显示 20 50 100
A NOVEL SPACE-COMPRESSED CHINESE WORD DIGRAM BASED ON BI-CHARACTER CO-ARTICULATION FREQUENCY 被引量:1
1
作者 Zhao Yibao Qiao Liyan Tan Jianxun Sun Shenghe(Automatic Test and Control Department, Harbin Institute of Technology, Harbin 150001) (Robot Research Institute, Harbin Institute of Technology, Harbin 150001) 《Journal of Electronics(China)》 2000年第2期178-184,共7页
Chinese Phonetic-Character Conversion(CPCC) is an important issue in Chinese speech recognition and Chinese sentence keyboard input system. The approaches based on large corpus statistic Markov language model (such as... Chinese Phonetic-Character Conversion(CPCC) is an important issue in Chinese speech recognition and Chinese sentence keyboard input system. The approaches based on large corpus statistic Markov language model (such as bigram, trigram) become more and more popular today. This paper presents an improved Chinese word bigram, space-compressed Chinese word bigram, which stores the bi-word co-articulation frequency in the form of the bi-character co-articulation frequency. The bi-word co-articulation frequency is estimated from the bi-character co-articulation frequency library. The CPCC experiment with the improved Chinese word bigram shows: it can reach a higher correct conversion ratio with less space occupation. 展开更多
关键词 CPCC MARKOV model Bigram word frequency ESTIMATE
下载PDF
乡村振兴视角下的村庄规划效果分析——基于天津市153个样本村村庄规划数据分析
2
作者 陈富昱 张紫涵 +3 位作者 高浚涛 夏鑫 李宥琳 蔡为民 《天津农业科学》 CAS 2024年第6期55-66,共12页
村庄规划作为指导乡村地区的国土空间开发及保护活动、实施国土空间用途管制、进行各项村庄建设等的依据,同时也起到了乡规民约、乡村治理等社会规划的作用,是农村各项建设工作的基础和基本依据。本文以天津市153个村庄规划为样本,探讨... 村庄规划作为指导乡村地区的国土空间开发及保护活动、实施国土空间用途管制、进行各项村庄建设等的依据,同时也起到了乡规民约、乡村治理等社会规划的作用,是农村各项建设工作的基础和基本依据。本文以天津市153个村庄规划为样本,探讨村庄规划对实施乡村振兴战略的支撑作用以及乡村振兴“二十字方针”对村庄规划的指导作用,以期提高村庄未来发展质量,最大程度推进乡村振兴。基于此,本文使用文本分析词频模型、内容分析评价模型对村庄规划效果进行分析研究。结果表明:(1)总体上看,主题词出现频率从高到低分别为生态宜居、产业兴旺、治理有效、生活富裕和乡风文明,词频分别为35089、27808、24718、22057、16300次;(2)乡村振兴“二十字方针”五大方面参考点数量差异较大,产业兴旺、生态宜居、治理有效、乡风文明、生活富裕分别有59857、56244、46688、23913、23237个参考点;(3)天津市村庄规划对乡村振兴五大方面展现出不同程度的关注,生态宜居和产业兴旺在村庄规划中受到广泛关注和重视,治理有效起到乡村振兴的“基石”作用,扮演着重要的角色,生活富裕和乡风文明的关注度比其他3个方面低。产业兴旺和生态宜居方面的关注度较高,体现出经济发展和环境保护的政策导向,其次是治理有效方面的关注度,反映出天津市村庄规划与天津市关于乡村振兴政策相匹配,而生活富裕以及乡风文明的关注度相对较低。 展开更多
关键词 乡村振兴 村庄规划 效果分析 文本分析词频模型 内容分析评价模型
下载PDF
在线评论数据挖掘视角下游客情感分析模式构建——以肇庆市七星岩景区为调研对象
3
作者 郭栩东 胡绿 +1 位作者 李茂强 王怡 《科技创新与应用》 2024年第13期9-13,共5页
互联网时代的到来,推动全球的经济发展发生巨大改变。如今互联网已经是人们的生活中不可分割的一部分。旅游行业的业态也随网络时代而转变。随着各旅游平台的兴起,在线评论已经是很普遍的现象,并成为人们旅游消费的重要参考指标。该文... 互联网时代的到来,推动全球的经济发展发生巨大改变。如今互联网已经是人们的生活中不可分割的一部分。旅游行业的业态也随网络时代而转变。随着各旅游平台的兴起,在线评论已经是很普遍的现象,并成为人们旅游消费的重要参考指标。该文以肇庆市七星岩景区为调研对象,基于在线评论的视角对数据采集进行剔除过滤、高频词统计及可视化呈现等一系列工作,通过情感分析法对数据进行分析整理,构建游客情感分析模式。经过系列的实证试验分析可以诊断,对于旅游目的地因素,游客的情感更为敏感以及在意;管理和景观是景区提升自身竞争力的重要内容;消费不仅受游客关注度影响,同时也对游客情感有着显著的影响力。提出关于资源管理、经济发展模式和服务、饮食开发的相关建议。 展开更多
关键词 在线评论 游客情感 情感分析模式 数据挖掘 高频词统计
下载PDF
Mathematical modeling for dynamic stability of sandwich beam with variable mechanical properties of core 被引量:3
4
作者 M.GRYGOROWICZ E.MAGNUCKA-BLANDZI 《Applied Mathematics and Mechanics(English Edition)》 SCIE EI CSCD 2016年第10期1361-1374,共14页
The paper is devoted to mathematical modelling of static and dynamic stability of a simply supported three-layered beam with a metal foam core. Mechanical properties of the core vary along the vertical direction. The ... The paper is devoted to mathematical modelling of static and dynamic stability of a simply supported three-layered beam with a metal foam core. Mechanical properties of the core vary along the vertical direction. The field of displacements is for- mulated using the classical broken line hypothesis and the proposed nonlinear hypothesis that generalizes the classical one. Using both hypotheses, the strains are determined as well as the stresses of each layer. The kinetic energy, the elastic strain energy, and the work of load are also determined. The system of equations of motion is derived using Hamilton's principle. Finally, the system of three equations is reduced to one equation of motion, in particular, the Mathieu equation. The Bubnov-Galerkin method is used to solve the system of equations of motion, and the Runge-Kutta method is used to solve the second-order differential equation. Numerical calculations are done for the chosen family of beams. The critical loads, unstable regions, angular frequencies of the beam, and the static and dynamic equilibrium paths are calculated analytically and verified numerically. The results of this study are presented in the forms of figures and tables. 展开更多
关键词 mathematical modelling dynamic stability metal foam core with variable mechanical property static and dynamic equilibrium path angular frequency
下载PDF
基于结构模型—词频计算的国防科技战略情报分析方法
5
作者 吴集 刘书雷 杨筱 《情报理论与实践》 北大核心 2023年第11期66-72,共7页
[目的/意义]针对传统国防科技发展态势分析定性为主的不足,提出一种综合经典结构分析和自然语言处理(NLP)文本计量的国防科技战略情报分析方法。[方法/过程]首先,综述国防科技战略情报分析方法研究;其次,采用PEST“钻石”结构化模型分... [目的/意义]针对传统国防科技发展态势分析定性为主的不足,提出一种综合经典结构分析和自然语言处理(NLP)文本计量的国防科技战略情报分析方法。[方法/过程]首先,综述国防科技战略情报分析方法研究;其次,采用PEST“钻石”结构化模型分析主要国家国防科技战略政策调整动因;再次,解构主要国家国防科技战略政策文本,并运用NLP文本计量发掘国防科技发展重点热点;最后,结合定性定量研判辨析国防科技发展基本态势。[结果/结论]对2018—2022年主要国家发布的50个国防科技战略政策文本进行量化分析,对主要国家国防科技发展策略、高新科技领域重点进行研判。结果表明,文章构建的方法框架能够为认识和研判国防科技战略情报动向提供新的视角。 展开更多
关键词 国防科技 战略情报 分析方法 结构模型 词频计算
下载PDF
基于词袋模型的人体动作识别方法
6
作者 李愈 马燕 黄慧 《计算机应用与软件》 北大核心 2023年第11期170-175,247,共7页
传统词袋模型构建的词典不稳定,且忽略词向量先后顺序,在用其进行人体动作识别时,识别效果不稳定,尤其对倒序动作识别效果不佳。针对这些问题,提出一种基于时空联合频率直方图实现动作分类的方法。提取肢体关键角度信息,把关键角度的帧... 传统词袋模型构建的词典不稳定,且忽略词向量先后顺序,在用其进行人体动作识别时,识别效果不稳定,尤其对倒序动作识别效果不佳。针对这些问题,提出一种基于时空联合频率直方图实现动作分类的方法。提取肢体关键角度信息,把关键角度的帧间差值作为时间特征描述子;构建稳定的时间词袋与空间词袋,利用其联合频率直方图表示动作序列,增强动作时间特性;利用支持向量机(SVM)实现动作分类。在一个具有挑战性的数据集-UTKinect数据集上进行实验,结果表明,相比于传统词袋模型与一些已有方法,该方法能够有效提高动作识别的准确率。 展开更多
关键词 动作识别 角度特征 联合频率直方图 词袋模型
下载PDF
基于朴素贝叶斯算法的信息过滤研究 被引量:2
7
作者 杜拓 方红 《信息与电脑》 2023年第9期90-92,共3页
随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息... 随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息过滤领域的应用,包括信息过滤的分类、文本表示方法、基于朴素贝叶斯的信息过滤模型构建。最后,通过实验评估了该方法在文本分类任务上的性能,包括不同特征表示方法的对比以及与其他分类算法的性能对比。实验结果表明,基于朴素贝叶斯算法的信息过滤具有较好的性能,可以有效分类不同主题的文本。 展开更多
关键词 朴素贝叶斯算法 信息过滤 文本分类 词袋模型 词频-逆文档频率(TF-IDF)权重计算
下载PDF
基于迁移学习的化学键能数据自动抽取
8
作者 庞娜 袁钺 薛秋红 《现代情报》 2023年第1期19-28,共10页
[目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,... [目的/意义]在计算化学中,化学键能是重要的化学领域科学数据,目前化学键能数据抽取工作主要是由领域专家手动抽取,效率低下,大多数化学键能科学数据被湮没于海量文献中,无益于深入的、创新的科学数据分析。[方法/过程]为了解决该问题,本研究以ChemBE化学键能语料为实验对象,设计在较少专家支持的情况下,使用迁移学习的方法在化学论文中自动抽取与化学键能相关的科学数据。本文提出了一种端到端的BERT-CRF模型,通过构建领域高频子词的方法来解决大量未登录词的问题,并在后续深度学习模型的训练中,将构建好的领域高频子词作为领域特征输入到深度学习模型中,实现了对论文中的化学键能科学数据自动、高效地抽取。[结果/结论]实验表明,端到端的BERT-CRF模型与需要专家构建规则的基线模型相比,取得了理想的实验结果,F1值达到了88.56%。本文通过构建领域高频子词来解决大量未登录词的问题,降低了对领域专家的要求,可以较为容易地、低成本地迁移到其他领域。本文的研究结果是情报分析技术在化学领域的实践,为化学键能的智能知识检索提供了重要支撑。 展开更多
关键词 迁移学习 化学键能 深度学习 自动抽取 智能知识检索 领域高频子词 联合抽取模型 科学数据 文本挖掘
下载PDF
非线性传输线产生射频脉冲原理研究 被引量:8
9
作者 谢平 徐刚 +2 位作者 廖勇 石小燕 杨周炳 《强激光与粒子束》 EI CAS CSCD 北大核心 2014年第4期5-9,共5页
介绍了非线性传输线的工作原理和色散特性,给出了用于模拟交叉耦合磁饱和非线性传输线的计算方法。算法基于传输线各节点的时域差分方程组进行步进迭代,其中利用J-A模型描述传输线中NiZn铁氧体磁芯的非线性磁化行为,并模拟了非线性传输... 介绍了非线性传输线的工作原理和色散特性,给出了用于模拟交叉耦合磁饱和非线性传输线的计算方法。算法基于传输线各节点的时域差分方程组进行步进迭代,其中利用J-A模型描述传输线中NiZn铁氧体磁芯的非线性磁化行为,并模拟了非线性传输线的工作方式。实验获得了中心频率165MHz的宽带脉冲输出,初步验证了用于产生宽带电磁脉冲的非线性传输线关键技术。 展开更多
关键词 KEY wordS nonlinear transmission line simulation method J A model high vohage RADIO frequency pulse MAGNET LC SATURATION
下载PDF
基于语境信息的组合型分词歧义消解方法 被引量:10
10
作者 曲维光 吉根林 +1 位作者 穗志方 周俊生 《计算机工程》 CAS CSCD 北大核心 2006年第17期74-76,共3页
提出了相对词频的概念,据此建立了语境计算模型,利用歧义字段前后语境信息对组合型分词歧义进行消解。对高频出现的5个组合型分词歧义进行实验,平均准确率达到95%以上,证明该方法对于消解组合型分词歧义具有良好效果。
关键词 中文自动分词 组合型歧义 相对词频 语境计算模型
下载PDF
基于领域本体的主题信息采集方法 被引量:7
11
作者 郑国良 叶飞跃 +1 位作者 林国俊 耿冬 《计算机应用》 CSCD 北大核心 2008年第12期3274-3277,共4页
基于关键词的向量空间模型是传统的专业搜索引擎中主题信息采集常用的方法,它通过考虑关键词的权重以及关键词在网页中出现的频率来采集相关的网页。而基于本体的主题信息采集方法,它反映的不再是简单的词条出现频率,而是强化了网页中... 基于关键词的向量空间模型是传统的专业搜索引擎中主题信息采集常用的方法,它通过考虑关键词的权重以及关键词在网页中出现的频率来采集相关的网页。而基于本体的主题信息采集方法,它反映的不再是简单的词条出现频率,而是强化了网页中词条间的语义关系,从而克服了使用传统向量空间时产生的多义词、同义词和单词依赖等现象。通过实验,比较了提出的方法与基于关键词方法的实验数据,进一步说明了方法的可行性。 展开更多
关键词 主题相关度 领域本体 向量空间模型 相关度分析 词频率
下载PDF
融合BTM主题特征的短文本分类方法 被引量:11
12
作者 郑诚 吴文岫 代宁 《计算机工程与应用》 CSCD 北大核心 2016年第13期95-100,共6页
针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种融合BTM主题特征和改进了特征权重计算的综合特征提取方法来进行短文本分类。方法中,在TF-IWF的基础上降低词频权重并引入词分布熵,衍生出新的算法... 针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种融合BTM主题特征和改进了特征权重计算的综合特征提取方法来进行短文本分类。方法中,在TF-IWF的基础上降低词频权重并引入词分布熵,衍生出新的算法计算权重。结合BTM主题模型中各主题下的主题词对词数较少的文档进行补充,并选择每篇文档在各个主题下的概率分布作为另一部分文档特征。通过KNN算法进行多组分类实验,结果证明该方法与传统的TF-IWF等方法计算特征进行比较,F1的结果提高了10%左右,验证了方法的有效性。 展开更多
关键词 短文本 权重计算 TF-IWF方法 主题模型
下载PDF
基于关键词词频统计的学科研究热点漂移程度模型构建及实证分析 被引量:13
13
作者 余丰民 林彦汝 《情报理论与实践》 CSSCI 北大核心 2020年第2期100-105,共6页
[目的/意义]学科研究热点的发掘有助于了解其发展动向,把握研究方向。热点漂移程度旨在用数据关系描述某一学科某一时间段内的研究热点在接下来一段时期内的变化程度,揭示其热点研究的持续性和规律性。[方法/过程]通过基于学术论文关键... [目的/意义]学科研究热点的发掘有助于了解其发展动向,把握研究方向。热点漂移程度旨在用数据关系描述某一学科某一时间段内的研究热点在接下来一段时期内的变化程度,揭示其热点研究的持续性和规律性。[方法/过程]通过基于学术论文关键词词频统计的文献计量方法,初步构建了研究热点漂移程度计算模型,并通过对"高等教育理论""艺术理论""史学史""自动控制理论""外科护理学"和"建筑经济学"6个学科的实证分析,计算出了这些学科2010年研究热点5年漂移程度。[结果/结论]研究表明,"建筑经济学""史学史"两个学科漂移程度较高,"自动控制理论"和"艺术理论"两个学科居中,"高等教育理论"和"外科护理学"两个学科较低。研究结果具有显著的差异性。热点漂移程度揭示了各学科研究热点的变化程度和关键词词频的分布规律,并在一定程度上体现出了学科的交叉性。 展开更多
关键词 研究热点 热点漂移程度 词频统计 实证分析 模型构建
下载PDF
基于回归模型与谱聚类的微博突发话题检测方法 被引量:3
14
作者 彭敏 张泰玮 +2 位作者 黄佳佳 朱佳晖 黄济民 《计算机工程》 CAS CSCD 北大核心 2015年第12期176-181,共6页
微博社交网络短文本具有数据规模巨大、快速传播、模态多样、质量较低等特性,导致现有传统的话题检测与跟踪技术在对其进行数据处理时面临复杂度高、特征稀疏和噪声干扰等问题。为此,提出一种在回归预测和谱聚类基础上的突发话题检测方... 微博社交网络短文本具有数据规模巨大、快速传播、模态多样、质量较低等特性,导致现有传统的话题检测与跟踪技术在对其进行数据处理时面临复杂度高、特征稀疏和噪声干扰等问题。为此,提出一种在回归预测和谱聚类基础上的突发话题检测方法。该方法针对关键词词频变动趋势,基于回归模型,量化微博关键词的突发程度,从词频趋势分析的角度准确地提取出突发词集合。设计一个基于谱聚类思想的突发词聚类方法提高聚类结果的准确性。在大规模微博数据集的实验结果证明,与baseline方法相比,该方法的准确率、召回率、F值都有较大提高,在微博信息分析领域有着较好的应用前景。 展开更多
关键词 微博 突发话题检测 词频分析 回归模型 谱聚类 大数据
下载PDF
汉语中词长效应的初步实验研究 被引量:5
15
作者 何先友 毛斌红 曾祥炎 《心理学探新》 CSSCI 北大核心 2006年第4期32-35,41,共5页
该文以回忆出一个词表的序列呈现顺序的正确率为指标考察汉语中的词长效应(Word-Length Effect)。实验材料为汉语中不同音节数目的词语。实验结果发现,在纯词表中,存在显著的词长效应。但是在混合词表中(包括长短词交替词表以及随机词... 该文以回忆出一个词表的序列呈现顺序的正确率为指标考察汉语中的词长效应(Word-Length Effect)。实验材料为汉语中不同音节数目的词语。实验结果发现,在纯词表中,存在显著的词长效应。但是在混合词表中(包括长短词交替词表以及随机词表),词长效应会消失。研究结果支持词长效应的基于词表的解释,同时,项目的特异性也具有一定的作用。 展开更多
关键词 词长效应 频率效应 语音回路模型 项目特异性
下载PDF
基于词频均值波动和概率语言模型的短文本热点主题探测研究 被引量:6
16
作者 徐敏 李广建 《情报杂志》 CSSCI 北大核心 2019年第6期152-158,共7页
[目的/意义]针对短文本词语特征向量稀疏的问题,提出利用突然爆发现象和词语共现概率现象进行热点主题探测研究的新视角。[方法/过程]以此为目标建立了一个分析框架,以词频均值波动模型发现短文本中的热点词,以概率语言模型发现主题词,... [目的/意义]针对短文本词语特征向量稀疏的问题,提出利用突然爆发现象和词语共现概率现象进行热点主题探测研究的新视角。[方法/过程]以此为目标建立了一个分析框架,以词频均值波动模型发现短文本中的热点词,以概率语言模型发现主题词,再对二者结果集合进行相似度计算实现热点主题的探测与展示。[结果/结论]通过对较高热度噪声词的过滤以及热点事件词的发现实现热点主题的探测。通过对比谷歌趋势的结果,准确率达到82.67%,证明模型有效。本研究对短文本热点主题探测的理论和实践研究具有一定参考价值。 展开更多
关键词 短文本 热点主题探测 词频均值波动模型 概率语言模型
下载PDF
基于改进信息增益的人体动作识别视觉词典建立 被引量:4
17
作者 吴峰 王颖 《计算机应用》 CSCD 北大核心 2017年第8期2240-2243,2263,共5页
针对词袋(BoW)模型方法基于信息增益的视觉词典建立方法未考虑词频对动作识别的影响,为提高动作识别准确率,提出了基于改进信息增益建立视觉词典的方法。首先,基于3D Harris提取人体动作视频时空兴趣点并利用K均值聚类建立初始视觉词典... 针对词袋(BoW)模型方法基于信息增益的视觉词典建立方法未考虑词频对动作识别的影响,为提高动作识别准确率,提出了基于改进信息增益建立视觉词典的方法。首先,基于3D Harris提取人体动作视频时空兴趣点并利用K均值聚类建立初始视觉词典;然后引入类内词频集中度和类间词频分散度改进信息增益,计算初始词典中词汇的改进信息增益,选择改进信息增益大的视觉词汇建立新的视觉词典;最后基于支持向量机(SVM)采用改进信息增益建立的视觉词典进行人体动作识别。采用KTH和Weizmann人体动作数据库进行实验验证。相比传统信息增益,两个数据库利用改进信息增益建立的视觉词典动作识别准确率分别提高了1.67%和3.45%。实验结果表明,提出的基于改进信息增益的视觉词典建立方法能够选择动作识别能力强的视觉词汇,提高动作识别准确率。 展开更多
关键词 人体动作识别 词袋模型 信息增益 词频
下载PDF
语义透明度和构词频率对汉语动词多词素词识别的影响 被引量:11
18
作者 王娟 张积家 许锦宇 《心理与行为研究》 CSSCI 2014年第6期769-774,共6页
采用重复启动范式,通过两个实验,考察语义透明度和词素构词频率对动词多词素词识别的影响。结果发现:(1)语义透明度影响多词素动词的识别,识别高语义透明度的动词快于识别低语义透明度的动词。(2)词素的构词频率影响低语义透明度动词的... 采用重复启动范式,通过两个实验,考察语义透明度和词素构词频率对动词多词素词识别的影响。结果发现:(1)语义透明度影响多词素动词的识别,识别高语义透明度的动词快于识别低语义透明度的动词。(2)词素的构词频率影响低语义透明度动词的识别,不影响高语义透明度动词的识别。对低语义透明动词,词素的构词频率低的动词的反应时显著短于词素的构词频率高的动词。研究结果支持汉语多词素词的多层次双系统选择加工模型。 展开更多
关键词 动词多词素词 语义透明度 构词频率 多层次双系统选择加工模型
下载PDF
基于科学论文多源数据的研究前沿集成识别模型研究 被引量:11
19
作者 孙震 《情报杂志》 CSSCI 北大核心 2016年第8期95-100,共6页
[目的/意义]拟探讨设计一种研究前沿的集成识别模型,以期为研究前沿的相关实践提供一些借鉴和参考。[方法/过程]对研究前沿的基本概念和识别方法进行详细梳理,总结现有问题和局限,利用科学论文的发文引用数据、下载使用数据、替代计量... [目的/意义]拟探讨设计一种研究前沿的集成识别模型,以期为研究前沿的相关实践提供一些借鉴和参考。[方法/过程]对研究前沿的基本概念和识别方法进行详细梳理,总结现有问题和局限,利用科学论文的发文引用数据、下载使用数据、替代计量数据等多种数据,结合引文分析、词频分析、共词分析等多种工具和方法,以"神经网络计算"领域为例,构建了研究前沿的集成识别模型。[结果/结论]根据科学论文不同类型和不同时期数据的特点,集成识别模型可以集合各种数据方法的优势,弥补各种数据方法的不足,提高最终识别结果的可靠性和准确度,具有一定的创新可行性。 展开更多
关键词 研究前沿 引文分析 词频分析 共词分析 集成识别模型
下载PDF
一种基于改进信息增益特征选择的最大熵模型文本分类方法 被引量:10
20
作者 何明 《西南师范大学学报(自然科学版)》 CAS 北大核心 2019年第3期113-118,共6页
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分... 针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的. 展开更多
关键词 信息增益 均衡比 词频参数 最大熵模型
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部