期刊文献+
共找到108篇文章
< 1 2 6 >
每页显示 20 50 100
基于Co-Training的微博垃圾评论识别方法 被引量:3
1
作者 李志欣 兰丹媚 +1 位作者 张灿龙 唐素勤 《计算机工程》 CAS CSCD 北大核心 2018年第7期212-218,共7页
微博上大量的垃圾评论对个人、社会,甚至是对国家都会造成不良影响。为对微博中的垃圾评论进行识别,提出基于协同训练的微博垃圾评论识别方法。定义一种基于规则的识别方法过滤出显式垃圾评论,剩余的评论归为相关评论,构建AdaBoost分类... 微博上大量的垃圾评论对个人、社会,甚至是对国家都会造成不良影响。为对微博中的垃圾评论进行识别,提出基于协同训练的微博垃圾评论识别方法。定义一种基于规则的识别方法过滤出显式垃圾评论,剩余的评论归为相关评论,构建AdaBoost分类器和支持向量机分类器,通过Co-Training算法进行协同训练,判断其是否为垃圾评论,以提高分类精度,节省样本标注工作。实验结果表明,与基于相似度计算的垃圾评论识别方法、基于评论多特征的垃圾评论识别方法相比,该方法具有较好的识别效果。 展开更多
关键词 微博垃圾评论 协同训练 同义词词林 支持向量机 相似度计算
下载PDF
文本相似度计算方法综述
2
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似度 字符串 词向量 预训练模型 深度学习
下载PDF
结合混合特征提取与深度学习的长文本语义相似度计算
3
作者 徐捷 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《计算机工程与科学》 CSCD 北大核心 2024年第8期1513-1520,共8页
文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征... 文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征提取模型,提取出长文本的主要语义信息;对提取的语义信息使用滑窗重叠的方法输入BERT预训练模型得到文本向量表示;然后,通过双向长短期记忆网络建模长文本的前后语义联系,将其映射到语义空间内;再通过线性层增加模型表示能力;最后,通过相似语义向量内积最大化和交叉熵损失函数进行微调。实验结果表明,该模型在CNSE和CNSS数据集上F1分数分别为0.84和0.91,性能优于基线模型。 展开更多
关键词 长文本语义相似度 特征提取 BERT预训练模型 语义空间
下载PDF
基于跨层级多视角特征的多语言事件探测
4
作者 张志远 张维彦 +1 位作者 宋雨秋 阮彤 《计算机科学》 CSCD 北大核心 2024年第5期208-215,共8页
多语言事件探测任务的目标是将多种语言的新闻文档集合组织成不同的关键事件,其中每个事件可以包含不同语言的新闻文档。该任务有助于各种下游任务应用,如多语言知识图谱构建、事件推理、信息检索等。目前,多语言事件探测主要分为先翻... 多语言事件探测任务的目标是将多种语言的新闻文档集合组织成不同的关键事件,其中每个事件可以包含不同语言的新闻文档。该任务有助于各种下游任务应用,如多语言知识图谱构建、事件推理、信息检索等。目前,多语言事件探测主要分为先翻译再事件探测与先单语言检测再跨多种语言对齐两种方法,前者依赖翻译的效果,后者需要为每种语言单独训练模型。为此,提出了一种名为基于跨层级多视角特征融合的多语言事件探测方法,端到端地进行多语言事件探测任务。该方法从不同层级利用文档的多视角特征,获得了高可靠性的多语言事件探测结果并提升了低资源语言事件探测的泛化性能。在9种语言混合的新闻数据集上进行的实验表明,所提方法的BCubed F1值提升了4.63%。 展开更多
关键词 多语言预训练模型 多语言事件探测 新闻文档聚类 加权相似度 增量聚类
下载PDF
高校体育课堂与课余运动训练异同互补的实践研究
5
作者 张磊 《吉林农业科技学院学报》 2024年第4期103-106,124,共5页
高校体育课堂教学兼具教书育人和学生体质提升的重任,课余运动训练则承担运动员体能及专业素质培养的要职。二者在形式和性质方面表现出相通和相近的特点;而在目的、任务、方式方法和管理机制方面存在显著差异。通过对二者异同与内涵联... 高校体育课堂教学兼具教书育人和学生体质提升的重任,课余运动训练则承担运动员体能及专业素质培养的要职。二者在形式和性质方面表现出相通和相近的特点;而在目的、任务、方式方法和管理机制方面存在显著差异。通过对二者异同与内涵联系的梳理,从互补原理的角度出发,提出了高校体育课堂与课余运动训练异同互补的实践对策,旨在促进体育教学与运动训练协同管理,实现二者互为借鉴、互为服务、互为促进的目标。 展开更多
关键词 体育课堂 课余运动训练 体育教学 异同互补
下载PDF
通过多文档精排与融合的开放域问答任务增强实现
6
作者 李博 朱天佑 +2 位作者 刘俊健 吕宏伟 陈振宇 《软件导刊》 2024年第9期82-89,共8页
开放域问答(OpenQA)是自然语言处理中的一项具有挑战性的任务,传统的机器学习和深度学习技术通常用于从原始语料库中检索与问题相关的候选文档片段以进行答案提取。然而,当前方法检索的候选文档片段往往包含大量的噪声以及与问题无关的... 开放域问答(OpenQA)是自然语言处理中的一项具有挑战性的任务,传统的机器学习和深度学习技术通常用于从原始语料库中检索与问题相关的候选文档片段以进行答案提取。然而,当前方法检索的候选文档片段往往包含大量的噪声以及与问题无关的信息,并且主流的OpenQA模型在准确响应需要多个文档片段作为相关证据的问题方面存在不足。鉴于此,提出通过多文档精排与融合增强开放域问答的方法(RFMD),该方法在检索阶段设计了基于Transformer的文档精排模块,以减少候选文档中的噪声信息;在阅读理解阶段,RFMD采用以文本生成为中心的问答模块,通过构建跨文档片段的全局注意力机制,整合多个相关文档片段的信息,准确回答需要多个文档片段作为支持证据的问题。RFMD在NaturalQuestions和TriviaQA数据集上的EM得分分别达到45.8%和63.4%,验证了该模型在OpenQA任务中的有效性和优越性。 展开更多
关键词 开放域问答 预训练模型 生成模型 相似度分数 Prompt设计
下载PDF
Novel dynamic test system for simulating high-speed train moving on bridge under earthquake excitation 被引量:1
7
作者 LIU Han-yun YU Zhi-wu +1 位作者 GUO Wei JIANG Li-zhong 《Journal of Central South University》 SCIE EI CAS CSCD 2022年第8期2485-2501,共17页
China’s high-speed railways are always facing the potential damage risk induced by strong earthquakes.And the route design concept of“using bridge instead of embankment”has also greatly increased the probability of... China’s high-speed railways are always facing the potential damage risk induced by strong earthquakes.And the route design concept of“using bridge instead of embankment”has also greatly increased the probability of high speed trains moving on bridges when a strong earthquake happens.In the past decades,a bunch of theoretical and numerical studies have been conducted in the seismic dynamic field of high-speed railway.However,the effective dynamic test system for verifying the given method and theoretical results is still lacking.Therefore,a novel dynamic test system(DTS)consisting of a shaking table array and a train-pass-bridge reduced-scale model is proposed in this paper.Through some crucial technical problems discussion,the effectiveness of similar design scheme and the feasibility of reduced-scale DTS are elaborated,and then the detailed DTS structures are given and displayed as part-by-part.On this basis,the demonstration tests are conducted and compared with the numerical simulation.The results show that the proposed DTS is accurate and effective.Therefore,the DTS can provide a new physical simulation approach to study the high-speed train’s running safety on bridges under earthquakes and can also provide a reference for the construction of related systems. 展开更多
关键词 strong earthquake high-speed train shaking table test dynamic test system similar design BRIDGE
下载PDF
基于Train2Vec的消防培训数据分类
8
作者 董慧 程岗 +3 位作者 杨立红 孟笛 贾可佳 陈超 《计算机工程与设计》 北大核心 2021年第8期2232-2239,共8页
为提高消防培训效果,提出一种基于深度神经网络的对混合现实消防培训数据分类的模型。通过Train2Vec将受训人员在混合现实火灾场景中进行消防培训时所产生的过程数据、生理数据构建为多维培训向量;通过对生成的多维培训向量进行相似度求... 为提高消防培训效果,提出一种基于深度神经网络的对混合现实消防培训数据分类的模型。通过Train2Vec将受训人员在混合现实火灾场景中进行消防培训时所产生的过程数据、生理数据构建为多维培训向量;通过对生成的多维培训向量进行相似度求解,实现将受训人员进行分类的功能,即归为专业消防人员、应对火灾经验丰富人员、未经历过火灾心理素质良好人员和未经历过火灾心理素质较差人员中的某类,为其生成个性化的应对火灾建议和消防培训任务,达到提升培训效果的目的。实验结果表明,该Train2Vec模型预测的身份信息的准确率为92.00%,可以实现受训人员的正确分类,从而实现个性化消防培训。 展开更多
关键词 消防培训向量 混合现实 降维 消防培训 相似度 培训数据分类
下载PDF
融合多重实例关系的无监督跨模态哈希检索
9
作者 李志欣 侯传文 谢秀敏 《软件学报》 EI CSCD 北大核心 2023年第11期4973-4988,共16页
大多数跨模态哈希检索方法仅使用余弦相似度进行特征匹配,计算方式过于单一,没有考虑到实例的关系对于性能的影响.为此,提出一种基于多重实例关系图推理的方法,通过构造相似度矩阵,建立全局和局部的实例关系图,充分挖掘实例之间的细粒... 大多数跨模态哈希检索方法仅使用余弦相似度进行特征匹配,计算方式过于单一,没有考虑到实例的关系对于性能的影响.为此,提出一种基于多重实例关系图推理的方法,通过构造相似度矩阵,建立全局和局部的实例关系图,充分挖掘实例之间的细粒度关系.在多重实例关系图的基础上进行相似度推理,首先分别进行图像模态和文本模态关系图内部的推理,然后将模态内的关系映射到实例图中进行推理,最后执行实例图内部的推理.此外,为了适应图像和文本两种模态的特点,使用分步训练策略训练神经网络.在MIRFlickr和NUS-WIDE数据集上实验表明,提出的方法在mAP指标上具有很明显的优势,在Top-k-Precision曲线上也获得良好的效果.这也说明所提方法对实例关系进行深入挖掘,从而显著地提升检索性能. 展开更多
关键词 关系图推理 跨模态哈希检索 相似度矩阵 K近邻 分步训练策略
下载PDF
基于预训练模型的无监督剧本摘要 被引量:1
10
作者 苏琦 王红玲 王中卿 《计算机科学》 CSCD 北大核心 2023年第2期310-316,共7页
剧本是一种特殊的文本结构,以人物的对话和对场景的描述信息组成文本。无监督剧本摘要是指对篇幅很长的剧本进行压缩、提取,形成能够概括剧本信息的短文本。提出了一种基于预训练模型的无监督剧本摘要方法,首先在预训练过程中通过增加... 剧本是一种特殊的文本结构,以人物的对话和对场景的描述信息组成文本。无监督剧本摘要是指对篇幅很长的剧本进行压缩、提取,形成能够概括剧本信息的短文本。提出了一种基于预训练模型的无监督剧本摘要方法,首先在预训练过程中通过增加对文本序列处理的预训练任务,使得预训练生成的模型能够充分考虑剧本中对话的场景描述及人物说话的情感特点,然后使用该预训练模型作为训练器计算剧本中的句间相似度,结合TextRank算法对关键句进行打分、排序,最终抽取得分最高的句子作为摘要。实验结果表明,该方法相比基准模型方法取得了更好的效果,系统性能在ROUGE评价上有显著的提高。 展开更多
关键词 训练模型 预训练任务 剧本摘要 无监督 句间相似度 对话
下载PDF
基于改进SimCSE的无监督句嵌入方法 被引量:1
11
作者 郭江华 苑迎春 +1 位作者 王克俭 何晨 《计算机工程与设计》 北大核心 2023年第8期2382-2388,共7页
针对无监督SimCSE相同语义正样本差异性不足、模型训练与预测阶段具有不一致性的问题,基于SimCSE提出一种改进的无监督句嵌入方法SimCSE-PSER。采用dropout和位置嵌入扰动联合进行数据增强,提升正样本质量;引入R-Drop正则化方法,降低无... 针对无监督SimCSE相同语义正样本差异性不足、模型训练与预测阶段具有不一致性的问题,基于SimCSE提出一种改进的无监督句嵌入方法SimCSE-PSER。采用dropout和位置嵌入扰动联合进行数据增强,提升正样本质量;引入R-Drop正则化方法,降低无监督SimCSE使用dropout作为数据增强方法带来的训练与预测阶段不一致性。实验基于BERT模型在跨领域的4个中文语义文本相似度任务数据集上进行,结果表明该方法优于其它主流无监督句嵌入方法。 展开更多
关键词 语义文本相似度 无监督 句嵌入 对比学习 数据增强 正则化 预训练语言模型
下载PDF
基于预训练汇编指令表征的二进制代码相似性检测方法 被引量:3
12
作者 王泰彦 潘祖烈 +1 位作者 于璐 宋景彬 《计算机科学》 CSCD 北大核心 2023年第4期288-297,共10页
二进制代码相似性检测技术近年来被广泛用于漏洞函数搜索、恶意代码检测与高级程序分析等领域,而由于程序代码与自然语言有一定程度的相似性,研究人员开始借助预训练等自然语言处理的相关技术来提高检测准确度。针对现有方法中未考虑程... 二进制代码相似性检测技术近年来被广泛用于漏洞函数搜索、恶意代码检测与高级程序分析等领域,而由于程序代码与自然语言有一定程度的相似性,研究人员开始借助预训练等自然语言处理的相关技术来提高检测准确度。针对现有方法中未考虑程序指令概率特征导致的准确率提升瓶颈,提出了一种基于预训练汇编指令表征技术的二进制代码相似性检测方法。设计了面向多架构汇编指令的分词方法,并在控制流与数据流关系基础上,考虑指令间顺序出现的概率与各个指令单元使用的频率等特征设计预训练任务,以实现对指令更好的向量化表征;结合预训练汇编指令表征方法,对二进制代码相似性检测下游任务进行改进,使用表征向量替换统计特征作为指令与基本块的表征,以提高检测准确率。实验结果表明,与现有方法相比,所提方法在指令表征能力方面最高提升23.7%,在基本块搜索准确度上最高提升33.97%,在二进制代码相似性检测的检出数量上最高增加4倍。 展开更多
关键词 二进制代码 相似性检测 指令表征 分词方法 预训练任务
下载PDF
高速列车轮轴缩比关系及微动参量仿真分析
13
作者 舒易亮 刘志明 +1 位作者 高敬宇 杨广雪 《摩擦学学报》 EI CAS CSCD 北大核心 2023年第1期39-48,共10页
车轴与车轮通过过盈配合组成轮对,承受着车辆的全部重量,是保证高速动车组运行安全的最重要部件.高速列车轮轴的疲劳周次长达109,实物轮轴试验的过程复杂、周期长且试验费用高.因此,通过缩比模型反映和预示实物轮轴试验结果具有极大的... 车轴与车轮通过过盈配合组成轮对,承受着车辆的全部重量,是保证高速动车组运行安全的最重要部件.高速列车轮轴的疲劳周次长达109,实物轮轴试验的过程复杂、周期长且试验费用高.因此,通过缩比模型反映和预示实物轮轴试验结果具有极大的理论价值和工程意义.本文中结合相似定理和量纲分析原理,分析并推导了轮轴过盈配合微动参量随在不同缩比系数下的相似关系,采用ABAQUS有限元软件对微动参量分布进行仿真分析,结果表明,微动参量在不同缩比系数模型中的分布规律和理论推导的相似关系一致;轮轴接触压应力以及轴向摩擦剪切应力的最大值,位于车轴轮座区域靠近齿轮箱座的内侧,高速列车车轴轮座内侧接触边缘最容易发生微动疲劳失效. 展开更多
关键词 高速列车轮轴 微动疲劳 微动参量 相似定理 量纲分析
下载PDF
基于跨模态相似度学习的端到端不规则文本检索方法
14
作者 李岩 张敏艺 +2 位作者 宿汉辰 李芳芳 李斌阳 《无线电工程》 北大核心 2023年第3期501-507,共7页
场景文本检索是指从场景中搜索并定位与给定文本相同或相似的文本实例。通过计算机视觉方法实现文本检索可以辅助用户在指定场景中自动找到感兴趣文本,因此被广泛应用于图像安全性审核、图书检索等领域。然而,在某些场景中文本时常呈现... 场景文本检索是指从场景中搜索并定位与给定文本相同或相似的文本实例。通过计算机视觉方法实现文本检索可以辅助用户在指定场景中自动找到感兴趣文本,因此被广泛应用于图像安全性审核、图书检索等领域。然而,在某些场景中文本时常呈现弯曲、压缩和拉伸等不规则形态,文本区域提取与匹配面临极大挑战。为了解决这一问题,建立了一个端到端网络模型,将不规则文本提取和跨模态相似度学习统一到一个框架内,利用学习到的相似度对检测的文本实例排序,从而实现对不规则文本的检索。在SVT,STR和CTR三个数据集的实验结果表明,与现有文本检索方法相比,提出的框架在推理速度保持3.7帧/秒的情况下平均准确率比现有最好方法提升1%~3%。为了进一步验证所提方法对于不规则文本检索的有效性,建立了一个新的不规则文本数据集AIDATA,并与STR-TDSL方法进行对比实验,结果表明,在推理速度降低不到20%的情况下可以将平均准确率提升25%以上。 展开更多
关键词 场景文本检索 端到端训练 不规则文本 相似度学习
下载PDF
演习训练课题设计与评估方法研究
15
作者 王丽颖 姜宁 +1 位作者 白爽 周环宇 《指挥控制与仿真》 2023年第5期155-160,共6页
演习训练课题设计与评估是开展军事训练的重要环节,科学的训练课题设计,加上合理的课题设计评估方法,可以有效提高军事训练的质效。针对演习训练课题设计难,课题设计评价不够科学的难题,分析了训练课题设计要求,研究了基于任务的训练课... 演习训练课题设计与评估是开展军事训练的重要环节,科学的训练课题设计,加上合理的课题设计评估方法,可以有效提高军事训练的质效。针对演习训练课题设计难,课题设计评价不够科学的难题,分析了训练课题设计要求,研究了基于任务的训练课题设计方法,及基于该方法的训练模式,并提出了基于相似度的训练课题设计评估方法。研究成果形成了配套训练课题设计与评估模式,可为部队组织演习训练提供借鉴参考。 展开更多
关键词 演习训练 课题设计 评估方法 相似度
下载PDF
基于混合共享机制的多任务深度学习方法 被引量:2
16
作者 郭辉 郭静纯 《计算机工程与设计》 北大核心 2023年第2期556-562,共7页
针对多任务学习的特征提取和任务区分难题,提出基于混合共享机制的多任务深度学习方法。给出硬参数共享网络混合训练方法和依据灵敏性分析的任务相似度分组策略;对组内、组间任务分别应用硬、软参数共享,给出混合共享网络及其相应训练方... 针对多任务学习的特征提取和任务区分难题,提出基于混合共享机制的多任务深度学习方法。给出硬参数共享网络混合训练方法和依据灵敏性分析的任务相似度分组策略;对组内、组间任务分别应用硬、软参数共享,给出混合共享网络及其相应训练方法;通过MNIST数据集上的实例研究与分析验证该方法的有效性。该方法充分发挥了硬、软参数共享机制的优点,较好刻画了任务的共享与私有特征,提升了多任务学习的性能。 展开更多
关键词 多任务学习 特征提取 梯度变化 相似度 混合共享 混合训练 实验研究
下载PDF
基于组合赋权-TOPSIS的民航法定自查人员培训效果评估 被引量:3
17
作者 李敬强 樊天辰 +3 位作者 胡超 周妍汝 房秋 刘安南 《科学技术与工程》 北大核心 2023年第11期4901-4907,共7页
为准确评估民航法定自查人员的培训效果,并提高安全培训管理水平。首先基于柯氏模型的特点,构建反应层、学习层、行为层、结果层4个评估模块,再结合法定自查人员工作的特点和实施情况,构建民航法定自查人员培训效果评估指标体系。其次,... 为准确评估民航法定自查人员的培训效果,并提高安全培训管理水平。首先基于柯氏模型的特点,构建反应层、学习层、行为层、结果层4个评估模块,再结合法定自查人员工作的特点和实施情况,构建民航法定自查人员培训效果评估指标体系。其次,再将层次分析法(analytic hierarchy process,AHP)的主观权重与熵权法的客体权重通过博弈论的思想有效组合,以决定指标体系的综合权重。最后采用逼近理想解排序法(technique for order preference by similarity to an ideal solution,TOPSIS)法对培训效果指标体系进行实例评估。研究结果表明:构建的指标体系能够较为真实地反映其培训效果,确定并量化了影响其培训效果的具体因素,评估指标体系有一定的全面性和实用性。 展开更多
关键词 法定自查人员 培训效果 柯氏模型 评估指标体系 博弈论组合赋权 逼近理想解排序法(TOPSIS)
下载PDF
基于数据关联分析的电力行业培训项目相似度识别方法
18
作者 李磊 《中国科技纵横》 2023年第20期117-119,共3页
本文提出一种基于数据关联分析的电力行业培训项目相似度识别方法,用于识别和评估不同培训项目之间的相似程度。通过对电力行业培训项目数据的关联分析,发现项目之间的隐藏相似性,为企业提供参考依据,以便合理地调整培训资源,实现精准... 本文提出一种基于数据关联分析的电力行业培训项目相似度识别方法,用于识别和评估不同培训项目之间的相似程度。通过对电力行业培训项目数据的关联分析,发现项目之间的隐藏相似性,为企业提供参考依据,以便合理地调整培训资源,实现精准投资、开发精品项目的目的,提升培训效果。 展开更多
关键词 数据关联分析 电力行业 培训项目 相似度识别
下载PDF
高速列车模型试验装置及相似特征分析 被引量:21
19
作者 王英学 骆建军 +1 位作者 李伦贵 琚娟 《西南交通大学学报》 EI CSCD 北大核心 2004年第1期20-24,共5页
为了解决高速列车进出隧道引起的空气动力学问题,基于对目前国内外高速列车模型试验研究现状的分析,建立了模型列车速度可达100m/s的压缩空气式高速列车模型试验系统,并导出了模型试验的相似准则.利用该试验系统对高速列车进出隧道产生... 为了解决高速列车进出隧道引起的空气动力学问题,基于对目前国内外高速列车模型试验研究现状的分析,建立了模型列车速度可达100m/s的压缩空气式高速列车模型试验系统,并导出了模型试验的相似准则.利用该试验系统对高速列车进出隧道产生的压缩波进行了测试,并将测试结果与数值模拟结果进行比较,验证了相似准则的正确性. 展开更多
关键词 高速列车 相似准则 隧道 空气动力学 模型试验装置 压缩波
下载PDF
基于改进的kNN算法的中文网页自动分类方法研究 被引量:20
20
作者 胡燕 吴虎子 钟珞 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2007年第4期141-144,共4页
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,... 概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能. 展开更多
关键词 特征词 训练库 文本相似度 KNN算法
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部