期刊文献+
共找到256篇文章
< 1 2 13 >
每页显示 20 50 100
Performance analysis of new word weighting procedures for opinion mining 被引量:2
1
作者 G.R.BRINDHA P.SWAMINATHAN B.SANTHI 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2016年第11期1186-1198,共13页
The proliferation of forums and blogs leads to challenges and opportunities for processing large amounts of information. The information shared on various topics often contains opinionated words which are qualitative ... The proliferation of forums and blogs leads to challenges and opportunities for processing large amounts of information. The information shared on various topics often contains opinionated words which are qualitative in nature. These qualitative words need statistical computations to convert them into useful quantitative data. This data should be processed properly since it expresses opinions. Each of these opinion bearing words differs based on the significant meaning it conveys. To process the linguistic meaning of words into data and to enhance opinion mining analysis, we propose a novel weighting scheme, referred to as inferred word weighting(IWW). IWW is computed based on the significance of the word in the document(SWD) and the significance of the word in the expression(SWE) to enhance their performance. The proposed weighting methods give an analytic view and provide appropriate weights to the words compared to existing methods. In addition to the new weighting methods, another type of checking is done on the performance of text classification by including stop-words. Generally, stop-words are removed in text processing. When this new concept of including stop-words is applied to the proposed and existing weighting methods, two facts are observed:(1) Classification performance is enhanced;(2) The outcome difference between inclusion and exclusion of stop-words is smaller in the proposed methods, and larger in existing methods. The inferences provided by these observations are discussed. Experimental results of the benchmark data sets show the potential enhancement in terms of classification accuracy. 展开更多
关键词 Inferred word weight Opinion mining Supervised classification Support vector machine(SVM) Machine learning
原文传递
基于Huffman-LDA和Weight-Word2vec的文本表示模型研究 被引量:4
2
作者 黄春雨 胡迪 +1 位作者 邱宁佳 孙爽滋 《长春理工大学学报(自然科学版)》 2020年第1期89-96,132,共9页
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本... LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。 展开更多
关键词 主题模型 词嵌入 文本表示 Huffman-LDA weight-word2vec
下载PDF
基于词性与词序的相关因子训练的word2vec改进模型 被引量:10
3
作者 潘博 于重重 +2 位作者 张青川 徐世璇 曹帅 《电子学报》 EI CAS CSCD 北大核心 2018年第8期1976-1982,共7页
词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性... 词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性两种信息,不仅使模型可以感知词语位置顺序,而且利用词性关联信息来建立上下文窗口内词语之间的固有句法关系.Structured word2vec on POS将词语按其位置顺序定向嵌入,对词向量和词性相关加权矩阵进行联合优化.实验通过词语类比、词相似性任务,证明了所提出的方法的有效性. 展开更多
关键词 word EMBEDDING 词性 相关权重 词序 word2vec
下载PDF
基于边权重的WordNet词语相似度计算 被引量:10
4
作者 郭小华 彭琦 +1 位作者 邓涵 朱新华 《计算机工程与应用》 CSCD 北大核心 2018年第1期172-178,共7页
针对目前词语相似度算法中普遍存在的信息源单一化,计算结果非线性偏高,以及计算性能和效率的不一致的缺陷,提出了一种基于边权重的WordNet词语相似度的计算方法。该方法在路径与深度的基础上,通过边权重改善WordNet结构中的层次不均匀... 针对目前词语相似度算法中普遍存在的信息源单一化,计算结果非线性偏高,以及计算性能和效率的不一致的缺陷,提出了一种基于边权重的WordNet词语相似度的计算方法。该方法在路径与深度的基础上,通过边权重改善WordNet结构中的层次不均匀性,引入编码概念唯一标识两个概念间的相似度,并利用余弦函数修正计算结果的非线性偏差。实验结果表明,对于MC30和RG65测试集,使用该方法计算的词语相似度值与人工判定值计算得到的Pearson相关系数均达到0.87;此外,该方法在计算性能和效率上均保持较高水平。 展开更多
关键词 词语相似度 边权重 wordNET 编码
下载PDF
基于weight-pooling词向量的上下文广告推荐算法 被引量:1
5
作者 杨长春 王俊 +1 位作者 袁敏 雷晨阳 《计算机应用与软件》 CSCD 2016年第12期224-229,共6页
提出一种基于weight-pooling词向量的上下文广告推荐算法,利用用户访问记录的互信息权重,计算weight-pooling词向量的余弦相似度。该算法改进了传统基于关键词匹配的推荐算法,避免了数据稀疏性和冷启动问题。通过实验分析,基于weightpoo... 提出一种基于weight-pooling词向量的上下文广告推荐算法,利用用户访问记录的互信息权重,计算weight-pooling词向量的余弦相似度。该算法改进了传统基于关键词匹配的推荐算法,避免了数据稀疏性和冷启动问题。通过实验分析,基于weightpooling词向量的上下文广告推荐算法在推荐效果上明显优于传统算法。 展开更多
关键词 词向量 相似度 weight-pooling上下文广告
下载PDF
基于加权word2vec的微博情感分析 被引量:18
6
作者 李锐 张谦 刘嘉勇 《通信技术》 2017年第3期502-506,共5页
随着社交媒体的普及,微博情感分析受到了广大研究者的关注。为解决情感分析中词间语义关系缺失和词汇重要程度被忽略的问题,提出了一种基于加权词向量和支持向量机的情感分析方法,对微博的情感分析问题进行研究。首先用word2vec训练并... 随着社交媒体的普及,微博情感分析受到了广大研究者的关注。为解决情感分析中词间语义关系缺失和词汇重要程度被忽略的问题,提出了一种基于加权词向量和支持向量机的情感分析方法,对微博的情感分析问题进行研究。首先用word2vec训练并计算得到文档词向量;然后根据TFIDF算法计算文档中词汇的权重,对word2vec词向量进行加权;最后,使用SVM对情感数据进行训练和分类。在微博实验数据中,与已有方法相比,所提方法分类准确率和召回率都得到了提高。 展开更多
关键词 情感分析 word2vec 加权词向量 支持向量机
下载PDF
基于图文多模态融合的文档片段语义相似度判定算法
7
作者 潘媛 梁国迪 +1 位作者 邵馨叶 李芹 《电子设计工程》 2024年第3期106-109,114,共5页
为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现... 为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现基于图文多模态融合的文档片段标注。根据文本数据预处理条件,确定关键词权值指标,联合已知文档片段语义信息,求取相似性度量值的准确计算结果,完成文档片段语义相似度判定算法的设计。对比实验结果可知,在图文多模态融合技术的支持下,差异性赋值指标的平均值达到了1.0,对于网络主机而言,其在准确判别相似性文档片段语义信息方面的应用能力得到了保障。 展开更多
关键词 图文多模态融合 文档片段 语义相似度 词袋模型 关键词权值 差异性赋值
下载PDF
融合WK和CSK Co-word Model的共词分析法
8
作者 王芙艳 邵清 《电子科技》 2017年第2期110-113,118,共5页
基于关键词的共词分析方法是利用关键词在文献中出现的频次高低来确定该领域研究热点的方法。传统的基于关键词的共词分析方法只是简单的统计关键词出现的绝对次数,忽略了关键词以及文献的内在特性以及关键词在概念上的重复性,造成结果... 基于关键词的共词分析方法是利用关键词在文献中出现的频次高低来确定该领域研究热点的方法。传统的基于关键词的共词分析方法只是简单的统计关键词出现的绝对次数,忽略了关键词以及文献的内在特性以及关键词在概念上的重复性,造成结果的不准确性。文中提出了一种融合关键词加权模型(WK Co-word Model)和同义关键词合并模型(CSK Co-word Model)的共词分析法,该方法根据关键词自身的特征以及关键词所在载体文献的特征对关键词进行加权处理,同时以同义词词林为基础,计算关键词之间的词语相似度,合并同义关键词。该方法既强调了关键词之间权重的不同,又消除了同义词对结果准确性造成的影响。仿真实验表明,该方法提高了共词分析的准确性。 展开更多
关键词 关键词 加权 共词分析 同义词 相似度
下载PDF
基于多模型加权组合的文本相似度计算模型 被引量:3
9
作者 刘栋 杨辉 +1 位作者 姬少培 曹扬 《计算机工程》 CAS CSCD 北大核心 2023年第10期97-104,共8页
针对传统文本相似度计算模型存在的未考虑语义及结构信息、容易忽略文本特征细节信息等问题,建立一种基于多模型加权组合的文本相似度计算模型。在考虑次序、主题、语义等内容的基础上,对句子的每个单词进行嵌入表示,利用最大池化操作和... 针对传统文本相似度计算模型存在的未考虑语义及结构信息、容易忽略文本特征细节信息等问题,建立一种基于多模型加权组合的文本相似度计算模型。在考虑次序、主题、语义等内容的基础上,对句子的每个单词进行嵌入表示,利用最大池化操作和Bi-GRU神经网络作为编码器生成关于句子的嵌入表示,通过多层次的比较来学习句子嵌入之间的相似性关系。对文本转换进行结构化表示,提取基于短语的浅层语法树结构化特征作为Tree-GRU的输入进行文本相似度计算。将上述2个计算结果进行加权处理,获取文本相似度的最终计算结果。实验结果表明:当权重参数C1和C2分别取值0.6和0.4时该模型具有最优的相似度计算结果;在STSB数据集上模型的精确率、召回率和F1值分别达到90.32%、90.89%和90.52%;在SICK数据集上精确率、召回率和F1值分别达到85.41%、85.95%和85.61%;在MRPC数据集上精确率、召回率和F1值分别达到90.32%、90.89%和90.52%。该模型可以充分利用文本的多层次内容信息及结构化信息,适用于处理复杂的长文本,相对于DT-TEAM、ECNU等模型能取得更好的文本相似度计算结果。 展开更多
关键词 文本特征 多词嵌入 多层次比较 浅层语法树 线性加权 文本相似度
下载PDF
考虑需求信息和电子口碑的酒店合作伙伴选择方法
10
作者 尤天慧 张茜婷 +1 位作者 曹兵兵 袁媛 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第10期1506-1513,共8页
考虑旅行社在选择合作酒店时会关注备选酒店的需求信息和电子口碑的发展趋势,提出一种考虑这两类信息的酒店合作伙伴选择方法.首先基于备选酒店需求和电子口碑信息构建有向加权图,具体地,依据备选酒店的需求信息确定有向加权图节点权重... 考虑旅行社在选择合作酒店时会关注备选酒店的需求信息和电子口碑的发展趋势,提出一种考虑这两类信息的酒店合作伙伴选择方法.首先基于备选酒店需求和电子口碑信息构建有向加权图,具体地,依据备选酒店的需求信息确定有向加权图节点权重,并给出一种考虑备选酒店电子口碑横向、纵向发展趋势的权重修正系数,用来计算时间权重,在此基础上,采用TOWGA算子计算备选酒店的电子口碑评价值,并依据评价值进行两两酒店比较来确定有向边及其权重;然后基于PageRank算法求解各备选酒店的排序值;最后通过一个实例分析说明本文提出方法的可行性和有效性. 展开更多
关键词 需求信息 电子口碑 时间权重 PAGERANK 酒店合作伙伴选择
下载PDF
个性化商品推荐系统的混合推荐算法研究 被引量:1
11
作者 王晖 张慧 《科技资讯》 2023年第22期248-252,共5页
推荐算法是推荐系统的核心内容,推荐算法的评价标准包含预分类准确性和测准确性。传统的推荐算法有两个明显缺陷,使用词频作为搜索文本的特征向量与无法克服高频词汇干扰。通过TF/IDF特征词加权改进算法提升分类准确性。提出混合模型LD... 推荐算法是推荐系统的核心内容,推荐算法的评价标准包含预分类准确性和测准确性。传统的推荐算法有两个明显缺陷,使用词频作为搜索文本的特征向量与无法克服高频词汇干扰。通过TF/IDF特征词加权改进算法提升分类准确性。提出混合模型LDTF,从信息增益的角度计算每个词性对词义的贡献增益,来判断一个特定词在此词性下能够代表的词义权重,用动态的计算不同词性的词性比,解决传统TF/IDF算法在文本识别的缺陷,使用CW-TF/IDF优化算法提升特征词的分类效果综合提升推荐准确度。为了解决内容推荐稀疏矩阵问题引入WSBCF协作推荐算法,提升推荐系统的用户体验,实验结果表明能在不同评分矩阵稀疏度下,统计能显著且明显提高。 展开更多
关键词 商品推荐 特征词加权 推荐算法 稀疏矩阵 词义权重
下载PDF
改进二进制麻雀搜索的特征选择及文本聚类 被引量:1
12
作者 高新成 邵国铭 +1 位作者 张海洋 周中雨 《重庆理工大学学报(自然科学)》 北大核心 2023年第8期166-176,共11页
针对文本中存在冗余特征影响聚类精度等问题,提出一种结合蜣螂优化算法改进二进制麻雀搜索算法的特征选择及文本聚类算法。利用基于特征词权重的适应度函数完成文本特征评估,构建矢量空间模型;引入蜣螂优化算法中的圆周方向搜索机制,改... 针对文本中存在冗余特征影响聚类精度等问题,提出一种结合蜣螂优化算法改进二进制麻雀搜索算法的特征选择及文本聚类算法。利用基于特征词权重的适应度函数完成文本特征评估,构建矢量空间模型;引入蜣螂优化算法中的圆周方向搜索机制,改进传统麻雀搜索算法中麻雀发现者位置更新策略,并融入滚动方向机制的随机游走策略提升全局搜索能力,结合转移函数对连续型麻雀位置进行更新,得到优化的二进制麻雀搜索算法,筛选出优质特征子集;选用k-means++算法完成文本聚类。通过多种基准函数及公共数据集进行验证,结果表明:所提方法能够有效降低文本特征维度,提高聚类效果。 展开更多
关键词 特征选择 蜣螂优化算法 二进制麻雀搜索算法 k-means++ 文本聚类 特征词权重
下载PDF
我国职业教育学生实习政策演变研究——基于68份政策文本的加权共词分析
13
作者 魏澜 王坤 《成人教育》 北大核心 2023年第11期63-71,共9页
实习是我国职业教育人才培养的重要环节,也是实现人才培养模式改革创新的重要途径。以关键节点性政策为依据,对我国职业教育学生实习政策的发展阶段进行划分。运用扎根理论对各个阶段的政策文本进行开放式编码,提取出文本关键词,运用TF-... 实习是我国职业教育人才培养的重要环节,也是实现人才培养模式改革创新的重要途径。以关键节点性政策为依据,对我国职业教育学生实习政策的发展阶段进行划分。运用扎根理论对各个阶段的政策文本进行开放式编码,提取出文本关键词,运用TF-IDF加权技术和政策效力等级,分别对各个阶段的关键词和政策文本进行加权,然后根据余弦相似度构建出各阶段关键词共词相似矩阵,并绘制出关键词共词网络图。通过对各个阶段共词网络图中的小群体进行逐个分析,梳理出5条实习政策演变的规律,并依此对实习考核评价政策、实习工作的监督与管理、企业优惠政策、人才队伍建设等方面提出相应的政策建议。 展开更多
关键词 学生实习 政策演变 扎根理论 加权共词分析法
下载PDF
基于BERT的BiGRU-Attention-CNN混合模型的中文情感分析
14
作者 邹旺 张吴波 《计算机与数字工程》 2023年第10期2351-2357,共7页
在词嵌入层面上,中文情感分析一般是采用one-hot编码或Word2Vec方法生成词向量表征,不能很好解决一词多义的问题;在特征提取的层面上,传统深度学习模型缺少对重要特征的重点关注。针对该问题,提出一种基于BERT的BiGRU-Attention-CNN混... 在词嵌入层面上,中文情感分析一般是采用one-hot编码或Word2Vec方法生成词向量表征,不能很好解决一词多义的问题;在特征提取的层面上,传统深度学习模型缺少对重要特征的重点关注。针对该问题,提出一种基于BERT的BiGRU-Attention-CNN混合神经网络模型的中文情感分析方法。BERT模型能产生丰富的动态词向量,结合BiGRU对上下文的长期依赖能力和CNN的特征提取能力,并融入Attention机制分配不同的权重值重点关注。在酒店评论、外卖评论、网购评论、微博评论四种公开中文数据集进行情感分类实验,实验结果表明,该模型相较于其它几种常见的模型,情感分类准确率有明显的提高。 展开更多
关键词 词嵌入 情感分析 词向量 特征提取 权重
下载PDF
基于部分消息更新的多天线与多用户联合检测
15
作者 蒋芳 江淑萍 +3 位作者 杨海蓉 王翊 许耀华 胡艳军 《安徽大学学报(自然科学版)》 CAS 北大核心 2023年第2期44-50,共7页
多输入多输出稀疏码分多址(multiple-input multiple-output sparse code multiple access,简称MIMOSCMA)系统具有大容量和高频谱效率,能够满足大规模机器通信场景低时延和大连接的需求.针对MIMOSCMA系统检测复杂度高的问题,对基于部分... 多输入多输出稀疏码分多址(multiple-input multiple-output sparse code multiple access,简称MIMOSCMA)系统具有大容量和高频谱效率,能够满足大规模机器通信场景低时延和大连接的需求.针对MIMOSCMA系统检测复杂度高的问题,对基于部分消息更新的多天线与多用户联合检测进行研究,提出软判决联合消息传递算法(soft decision joint message passing algorithm,简称SD-JMPA)和硬判决联合消息传递算法(hard decision joint message passing algorithm,简称HD-JMPA).仿真实验结果表明:SD-JMPA和HDJMPA的误比特率(bit error ratio,简称BER)均与最大似然(maximum likelihood,简称ML)和联合消息传递算法(joint message passing algorithm,简称JMPA)的BER相近;SD-JMPA和HD-JMPA均具有与JMPA大概一致的收敛性;低信噪比场景下,选择使用SD-JMPA;高信噪比场景下,选择使用HD-JMPA.因此,相对于ML和JMPA,SD-JMPA和HD-JMPA均具有更强综合性能. 展开更多
关键词 MIMO-SCMA 码字消息 软判决 比重因子 硬判决 硬性判决参数阈值
下载PDF
基于主题词权重和句子特征的自动文摘 被引量:17
16
作者 蒋昌金 彭宏 +1 位作者 陈建超 马千里 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第7期50-55,共6页
为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的... 为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%. 展开更多
关键词 主题词 自动文摘 组合词 权重计算 句子特征
下载PDF
基于向量空间模型中义项词语的无导词义消歧 被引量:37
17
作者 鲁松 白硕 黄雄 《软件学报》 EI CSCD 北大核心 2002年第6期1082-1089,共8页
有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下... 有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果. 展开更多
关键词 向量空间模型 义项词语 无导词义消歧 义项词语 自然语言处理
下载PDF
基于多特征融合的句子语义相似度计算 被引量:18
18
作者 赵臻 吴宁 宋盼盼 《计算机工程》 CAS CSCD 2012年第1期171-173,共3页
传统的句子相似度计算方法只关注句子的某个特征,导致召回率和准确率的不均衡。针对该问题,提出一种基于多特征的句子相似度计算方法(MFS)。该方法加入包含词性和位置信息的词权重,并综合考虑词的语义和句子结构。实验结果表明,与其他... 传统的句子相似度计算方法只关注句子的某个特征,导致召回率和准确率的不均衡。针对该问题,提出一种基于多特征的句子相似度计算方法(MFS)。该方法加入包含词性和位置信息的词权重,并综合考虑词的语义和句子结构。实验结果表明,与其他方法相比,MFS方法的F1值较高。在基于实例的问答系统中,使用MFS方法得到的MRR值也较高。 展开更多
关键词 句子相似度 多特征 词权重 知网 问答系统
下载PDF
基于朴素贝叶斯算法的信息过滤研究 被引量:2
19
作者 杜拓 方红 《信息与电脑》 2023年第9期90-92,共3页
随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息... 随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息过滤领域的应用,包括信息过滤的分类、文本表示方法、基于朴素贝叶斯的信息过滤模型构建。最后,通过实验评估了该方法在文本分类任务上的性能,包括不同特征表示方法的对比以及与其他分类算法的性能对比。实验结果表明,基于朴素贝叶斯算法的信息过滤具有较好的性能,可以有效分类不同主题的文本。 展开更多
关键词 朴素贝叶斯算法 信息过滤 文本分类 词袋模型 词频-逆文档频率(TF-IDF)权重计算
下载PDF
基于标记的规则统计模型与未登录词识别算法 被引量:13
20
作者 苏菲 王丹力 戴国忠 《计算机工程与应用》 CSCD 北大核心 2004年第15期43-45,91,共4页
该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串... 该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词。经过实验测试,该系统的准确率为98.88%,召回率为98.32%。 展开更多
关键词 歧义标记 规则统计模型 N元语法 词加权算法
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部