期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
一种基于特征增强的场景文本检测算法
1
作者 高楠 张雷 +2 位作者 梁荣华 陈朋 付政 《计算机科学》 CSCD 北大核心 2024年第6期256-263,共8页
针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能... 针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能够更好地融合不同语义和尺度的特征图信息,从而提高文本信息的表征能力。同时,考虑到网络深层特征图在上采样融合过程中出现语义信息损失的问题,提出了多尺度空间感知模块(Multi-scale Spatial Perception Module,MSPM),通过扩大感受野来获取更大感受野的上下文信息,增强深层特征图的文本语义信息特征,从而有效地减少文本漏检、误检。为了评估所提算法的有效性,在公开数据集ICDAR2015,CTW1500以及MSRA-TD500上进行实验,所提方法综合指标F值分别达到了82.8%,83.4%和85.3%。实验结果表明,该算法在不同数据集上都具有良好的检测能力。 展开更多
关键词 深度学习 场景文本检测 注意力机制 多尺度特征融合 空洞卷积
下载PDF
多重转型背景下乡村小规模学校的政策演进及其特征——基于国家与地方的政策文本互动
2
作者 王学男 吴霓 《中国农业大学学报(社会科学版)》 CSSCI 北大核心 2024年第5期180-190,共11页
在鼓励生育的政策背景和出生人口减少的实际现状、城镇化发展与乡村振兴推进的多重张力之间,区域教育资源配置视角下的乡村小规模学校作为我国教育系统的“神经末梢”和教育现代化的短板,受到前所未有的重视。对现有国家政策和31个省(... 在鼓励生育的政策背景和出生人口减少的实际现状、城镇化发展与乡村振兴推进的多重张力之间,区域教育资源配置视角下的乡村小规模学校作为我国教育系统的“神经末梢”和教育现代化的短板,受到前所未有的重视。对现有国家政策和31个省(自治区、直辖市)及新疆生产建设兵团的相关政策进行梳理,分析政策演进理路与特征、政策文本的互动模式,是教育强国建设的政策切入点。研究发现,乡村教育的政策体系直接受到国家传统城镇化、新型城镇化和乡村振兴战略的影响;各个省份通过地方政策的制定,因地制宜地配套落实国家政策,彰显出地方政策的创造性。21世纪以来,我国教育政策在多重转型的背景下,政策文本的互动呈现出从效率与规模转向公平与质量的价值立场、从行政发包转向协调互动的央地互动模式、从职责同构转向有序超越的县级包干模式三大特征与转变。 展开更多
关键词 多重转型 乡村小规模学校 政策演进 文本互动特征
下载PDF
基于多尺度注意力特征融合的场景文本检测 被引量:1
3
作者 厍向阳 刘哲 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第1期198-206,共9页
针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networ... 针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networks,FPN)中,通过将多尺度注意力热图与底层特征通过横向连接相融合,使检测器的不同层级专注于特定尺度的目标,并利用相邻层注意力热图之间的关系实现了FPN结构中的纵向特征共享,避免了不同层之间梯度计算的不一致性问题。实验结果表明:在ICDAR2015数据集上,该方法的准确率、召回率和F值分别达到了88.3%、83.07%和85.61%,在CTW1500和Total-Text弯曲文本数据集上相较现有方法均有良好表现。 展开更多
关键词 场景文本检测 Mask R-CNN Swin Transformer 注意力机制 多尺度特征融合
下载PDF
融合多尺度CNN与双向LSTM的唐卡问句分类模型
4
作者 王铁君 闫悦 +2 位作者 郭晓然 王铠杰 饶强 《科学技术与工程》 北大核心 2024年第22期9490-9497,共8页
当前大语言模型的兴起为自然语言处理、搜索引擎、生命科学研究等领域的研究者提供了新思路,但大语言模型存在资源消耗高、推理速度慢,难以在工业场景尤其是垂直领域应用等方面的缺点。针对这一问题,提出了一种多尺度卷积神经网络(convo... 当前大语言模型的兴起为自然语言处理、搜索引擎、生命科学研究等领域的研究者提供了新思路,但大语言模型存在资源消耗高、推理速度慢,难以在工业场景尤其是垂直领域应用等方面的缺点。针对这一问题,提出了一种多尺度卷积神经网络(convolutional neural network,CNN)与双向长短期记忆神经网络(long short term memory,LSTM)融合的唐卡问句分类模型,本文模型将数据的全局特征与局部特征进行融合实现唐卡问句分类任务,全局特征反映数据的本质特点,局部特征关注数据中易被忽视的部分,将二者以拼接的方式融合以丰富句子的特征表示。通过在Thangka数据集与THUCNews数据集上进行实验,结果表明,本文模型相较于Bert模型在精确度上略优,在训练时间上缩短了1/20,运算推理时间缩短了1/3。在公开数据集上的实验表明,本文模型在文本分类任务上也表现出了较好的适用性和有效性。 展开更多
关键词 文本分类 长短期记忆 多尺度卷积神经网络 唐卡
下载PDF
多尺度池化和双向特征融合的场景文本检测 被引量:2
5
作者 魏哲亮 李岳阳 罗海驰 《计算机工程与应用》 CSCD 北大核心 2024年第2期154-161,共8页
针对自然场景中文字背景复杂多样、形态大小各异的问题,提出了一种新的基于分割的场景文本检测网络。通过构建多尺度池化和双向特征融合两个模块来提升网络性能。根据文本实例的特点,多尺度池化模块使用不同长宽比窗口的空间池来捕获不... 针对自然场景中文字背景复杂多样、形态大小各异的问题,提出了一种新的基于分割的场景文本检测网络。通过构建多尺度池化和双向特征融合两个模块来提升网络性能。根据文本实例的特点,多尺度池化模块使用不同长宽比窗口的空间池来捕获不同距离上文本信息的依赖关系,指导网络得到更加准确的分割结果。双向特征融合模块构建了两条不同方向的融合路径,以更好地利用主干网络的不同尺度特征,提升网络对不同尺度文本的检测性能。实验结果证明了所提方法的有效性,在ICDAR2015、MSRA-TD500和Total-Text这三个公开数据集上,分别取得了87.7%、86.7%和85.5%的F-measure值。 展开更多
关键词 文本检测 图像分割 多尺度池化 双向特征融合
下载PDF
基于深度学习的自然场景文本检测综述 被引量:2
6
作者 连哲 殷雁君 +1 位作者 云飞 智敏 《计算机工程》 CAS CSCD 北大核心 2024年第3期16-27,共12页
基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和... 基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。 展开更多
关键词 深度学习 计算机视觉 自然场景文本 文本检测 多方向文本检测 多尺度文本检测
下载PDF
基于交互式特征与多尺度特征的文本相似度研究
7
作者 尹春勇 沈子宁 《计算机技术与发展》 2024年第8期86-92,共7页
针对文本相似度分析过程中缺乏信息传递和忽略多元语义信息而导致相似度计算结果准确率低的问题,结合双向长短期记忆网络(BiLSTM),提出一种新颖的交互式特征与多尺度特征的文本相似度模型(IF-MSF)。首先,利用BiLSTM对句子进行编码提取... 针对文本相似度分析过程中缺乏信息传递和忽略多元语义信息而导致相似度计算结果准确率低的问题,结合双向长短期记忆网络(BiLSTM),提出一种新颖的交互式特征与多尺度特征的文本相似度模型(IF-MSF)。首先,利用BiLSTM对句子进行编码提取全局特征矩阵,分别用软注意力机制和余弦相似度对特征矩阵进行交互,以相互传递两组特征矩阵内部的语义信息。其次,加权两组交互式特征以综合所有交互信息,并利用BiLSTM对加权交互式特征和初始编码特征再编码以捕获特征之间的差异信息。再次,使用多尺度卷积提取差异信息的多元语义特征并结合通道注意力机制增强重要特征信息。最后,融合两组增强特征判断文本对是否相似。实验选取2个数据集来验证该方法,该模型F1值分别取得最高值88.15%和85.03%,优于其他方法。 展开更多
关键词 文本相似度 双向长短期记忆 交互式特征 多尺度特征 通道注意力
下载PDF
基于多尺度风格自适应的手写维文识别模型
8
作者 闫林 王磊 +2 位作者 艾孜麦提·艾尼瓦尔 杨雅婷 李晓 《计算机工程与设计》 北大核心 2024年第9期2749-2756,共8页
基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适... 基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适应模块提取序列特征;构建特征泛化融合模块对笔划特征和序列特征进行深度融合,提升识别效果。实验结果表明,该模型在真实手写维文测试集WER、CER分别下降3.75%、0.19%,在IAM数据集中验证了模型迁移性。 展开更多
关键词 手写维文识别 手写风格 多尺度 特征金字塔网络 视觉自注意力模型 长短期记忆网络 特征融合
下载PDF
基于行列特征和背景滤除的文本检测算法
9
作者 张明鉴 王国栋 《青岛大学学报(工程技术版)》 CAS 2024年第2期1-10,共10页
针对文本检测任务中背景噪声严重、文本形状多样及紧密文本难以区分等问题,提出基于行列特征和背景滤除的文本检测算法。算法中双分支特征融合模块将行列信息指导的全局特征与局部特征进行融合,丰富语义信息,文本强调器采用反转背景的... 针对文本检测任务中背景噪声严重、文本形状多样及紧密文本难以区分等问题,提出基于行列特征和背景滤除的文本检测算法。算法中双分支特征融合模块将行列信息指导的全局特征与局部特征进行融合,丰富语义信息,文本强调器采用反转背景的方式滤除非文本区域,通过文本轮廓的定位减少相邻文本间的干扰,同时设计多尺度扩张感知模块细化文本特征。在Total-Text, ICDAR2015和MSRA-TD500公共数据集上的实验结果表明,本文算法的平均精度较可微分二值化(Differentiable Binarization, DB)提高了1.1%、0.4%和1.0%,文本检测性能显著提高。 展开更多
关键词 文本检测 行列特征 文本强调器 多尺度融合
下载PDF
基于生成对抗网络的文本两阶段生成高质量图像方法 被引量:1
10
作者 曹寅 秦俊平 +2 位作者 高彤 马千里 任家琪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第4期674-683,共10页
为了解决传统文本生成图像方法生成图像质量差和文本描述与生成图像不一致问题,以多种损失函数为约束,提出深度融合注意力的生成对抗网络方法(DFA-GAN).采用两阶段图像生成,以单级生成对抗网络(GAN)为主干,将第一阶段生成的初始模糊图... 为了解决传统文本生成图像方法生成图像质量差和文本描述与生成图像不一致问题,以多种损失函数为约束,提出深度融合注意力的生成对抗网络方法(DFA-GAN).采用两阶段图像生成,以单级生成对抗网络(GAN)为主干,将第一阶段生成的初始模糊图像输入第二阶段,对初始图像进行高质量再生成,以提升图像的生成质量.在图像生成的第一阶段,设计视觉文本融合模块,深度融合文本特征与图像特征,将文本信息充分融合在不同尺度的图像采样过程中.在图像生成的第二阶段,为了充分融合图像特征与文本描述词特征,提出以改进后的Vision Transformer为编码器的图像生成器.定量与定性实验结果表明,对比其他主流模型,所提方法提高了生成图像的质量,与文本描述更加符合. 展开更多
关键词 文字生成图像 深度融合 生成对抗网络(GAN) 多尺度特征融合 语义一致性
下载PDF
PCP-tuning:面向小样本学习的个性化连续提示调优
11
作者 刘汀 蔡少填 +1 位作者 陈小军 章秦 《新疆大学学报(自然科学版)(中英文)》 CAS 2024年第1期59-68,共10页
随着“提示学习”的兴起,预训练语言模型在少样本学习中取得了显著的表现,其中的关键问题是如何为每个训练样本构建合适的提示.近年来研究人员提出了一系列提示构造方法,有的构造离散型的提示,有的构造连续型的提示,但通常都是将一个提... 随着“提示学习”的兴起,预训练语言模型在少样本学习中取得了显著的表现,其中的关键问题是如何为每个训练样本构建合适的提示.近年来研究人员提出了一系列提示构造方法,有的构造离散型的提示,有的构造连续型的提示,但通常都是将一个提示应用到整个数据集上.然而,实验结果表明,很难找到一个能够适用于任务中所有样本的提示.为此,提出了一种用于小样本学习的个性化连续型提示调优方法(PCP-tuning),其目的是根据数据集中每个样本的语义来生成个性化的连续型提示.同时,还提出了两种校准技术来控制生成的连续型提示的分布,以获得更好的下游任务表现.最后在10个基准任务上进行大量实验,证明了新方法的优越性能. 展开更多
关键词 自然语言处理 大型预训练模型 提示学习 文本分类
下载PDF
多尺度视觉特征提取及跨模态对齐的连续手语识别
12
作者 郭乐铭 薛万利 袁甜甜 《计算机科学与探索》 CSCD 北大核心 2024年第10期2762-2769,共8页
连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方... 连续手语识别研究中,视觉特征的有效表示是提升识别效果的关键。然而,手语动作时序长度的差异性及手语弱标注现象,使得有效的视觉特征提取更加困难。针对上述问题,提出了多尺度视觉特征提取及跨模态对齐的连续手语识别方法(MECA)。该方法主要包含多尺度视觉特征提取模型和跨模态对齐约束。在多尺度视觉特征提取模型中,并行地融合具备不同扩张因子的瓶颈残差结构,来丰富多尺度时序感受野,用于提取不同时序长度的手语视觉特征,同时采用层级复用设计进一步强化视觉特征表示。在跨模态对齐约束中,采用动态时间规整建模手语视觉特征和文本特征之间的内在联系,其中,文本特征提取由多层感知机和长短期记忆网络协作实现。在具备挑战性的公开数据集RWTH-2014、RWTH-2014T、CSL-Daily上进行实验,结果表明所提方法达到目前具有竞争力的性能。上述实验验证了所提的采用多尺度的方式可以捕捉不同时序长度的手语动作,以及构建跨模态对齐约束的思路是正确且有效的,适用于弱监督条件下的连续手语识别任务。 展开更多
关键词 连续手语识别 多尺度 跨模态对齐约束 视频视觉特征 文本特征
下载PDF
基于频繁项集的海量短文本聚类与主题抽取 被引量:31
13
作者 彭敏 黄佳佳 +2 位作者 朱佳晖 黄济民 刘纪平 《计算机研究与发展》 EI CSCD 北大核心 2015年第9期1941-1953,共13页
社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering&am... 社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering&topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明。 展开更多
关键词 海量 短文本 频繁项集 聚类 主题抽取
下载PDF
大规模层次分类问题研究及其进展 被引量:14
14
作者 何力 贾焰 +2 位作者 韩伟红 谭霜 陈志坤 《计算机学报》 EI CSCD 北大核心 2012年第10期2101-2115,共15页
随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上... 随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.该文对大规模层次分类问题进行了分析.首先,给出了大规模层次分类问题的定义,分析了大规模层次分类问题的求解策略;其次,对大规模层次分类问题的求解方法加以分类,在分类基础上,介绍了各种典型的求解方法并进行了对比;最后总结了各种大规模层次分类问题求解方法并指出了未来的研究方向. 展开更多
关键词 文本分类 大规模层次分类 类别层次 类别层次树
下载PDF
适用于大规模文本处理的动态密度聚类算法 被引量:10
15
作者 李霞 蒋盛益 +1 位作者 张倩生 朱靖 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期133-139,共7页
针对传统的基于密度的聚类算法对海量数据处理时,存在参数输入复杂及时间复杂度高的问题,给出新的密度定义方法,并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法,同时将其扩充为可以处理海量数据的两... 针对传统的基于密度的聚类算法对海量数据处理时,存在参数输入复杂及时间复杂度高的问题,给出新的密度定义方法,并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法,同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明,所提出的算法具有输入参数简单和聚类效率高的特点,可以应用于海量文本数据的聚类处理。 展开更多
关键词 文本挖掘 聚类 海量数据 动态密度
下载PDF
大规模层次分类中的候选类别搜索 被引量:19
16
作者 何力 丁兆云 +1 位作者 贾焰 韩伟红 《计算机学报》 EI CSCD 北大核心 2014年第1期41-49,共9页
大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,... 大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,但结果表明候选类别搜索成为了其中瓶颈.文中首先对候选搜索问题的计算复杂性进行了分析,证明了该问题是NP难的,接下来提出了一个基于贪心策略的启发式候选搜索算法,并且证明了该贪心策略在求解过程中是一个局部最优选择.作者采用DMOZ目录中的简体中文网页数据进行了实验论证,实验结果显示,相比已有算法,文中提出的候选类别搜索算法在候选类别搜索的准确率上提高了大约7.5%. 展开更多
关键词 文本分类 大规模层次分类 类别层次 候选类别 候选搜索问题 社交网络
下载PDF
基于多维标度法的专利文本可视化聚类研究 被引量:13
17
作者 郝智勇 贺明科 +1 位作者 谭文堂 张健东 《计算机应用研究》 CSCD 北大核心 2010年第12期4608-4611,共4页
为了从当前海量的专利文本信息资源中迅速准确地获取所需的信息并将其以可视化的形式展现出来,通过研究文本挖掘相关理论和关键技术,结合专利文本的特征及现有的分析方法,提出一种基于多维标度法的专利文本可视化聚类方法,并结合实际进... 为了从当前海量的专利文本信息资源中迅速准确地获取所需的信息并将其以可视化的形式展现出来,通过研究文本挖掘相关理论和关键技术,结合专利文本的特征及现有的分析方法,提出一种基于多维标度法的专利文本可视化聚类方法,并结合实际进行了相关分析讨论。实验结果表明,该方法较好地展现了当前专利技术领域的应用主题分布状态及其关联图谱,可为相关部门的管理决策和技术创新提供有意义的参考和支持。 展开更多
关键词 多维标度法 专利文本 主题 可视化
下载PDF
一种基于多重索引的大规模数据快速查找算法 被引量:2
18
作者 应俊 杨茂斌 《计算机科学》 CSCD 北大核心 2009年第3期258-260,290,共4页
在手持式设备移动计算中,为了实时获取信息,往往需要对数据进行高效查找,而这又与手持式设备较弱的计算处理功能相矛盾。从硬件体系与软件算法综合考虑角度出发,提出了一种基于大规模记录的索引快速查找算法。实践表明,该算法结合所设... 在手持式设备移动计算中,为了实时获取信息,往往需要对数据进行高效查找,而这又与手持式设备较弱的计算处理功能相矛盾。从硬件体系与软件算法综合考虑角度出发,提出了一种基于大规模记录的索引快速查找算法。实践表明,该算法结合所设计的多层次硬件体系,能高效地实现数据快速定位查找。 展开更多
关键词 数据查找 索引算法 文本 大规模
下载PDF
基于机器学习的文本分类技术研究进展 被引量:387
19
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
下载PDF
改进SIFT算法在文字图像匹配中的应用 被引量:17
20
作者 胡海青 谭建龙 +2 位作者 朱亚涛 龚国成 刘金刚 《计算机工程》 CAS CSCD 2013年第1期239-243,共5页
使用SIFT算法对文字图像进行特征提取时,产生的特征点数目较少,且不同文字产生的特征向量存在强干扰性,导致匹配准确率较低。为此,提出一种改进的SIFT算法。该算法利用二值化图像代替灰度图像,增加特征点数目,并取消SIFT的旋转不变性。... 使用SIFT算法对文字图像进行特征提取时,产生的特征点数目较少,且不同文字产生的特征向量存在强干扰性,导致匹配准确率较低。为此,提出一种改进的SIFT算法。该算法利用二值化图像代替灰度图像,增加特征点数目,并取消SIFT的旋转不变性。实验结果证明,与标准SIFT算法相比,改进SIFT算法能有效提高文字图像匹配的准确率。 展开更多
关键词 文字图像 模板匹配 尺度不变特征变换算法 极值点 特征向量 特征提取
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部