期刊文献+
共找到137篇文章
< 1 2 7 >
每页显示 20 50 100
C#语言实现从Word文档中提取文本 被引量:1
1
作者 吴春龙 《电脑编程技巧与维护》 2013年第13期84-87,93,共5页
从Word文档二进制文件数据中,过滤掉Word文档中的各种格式控制等数据,提取Word文档中用户需要的文本。这是一款非常实用的从Word文档中提取文本工具软件。
关键词 C#语言 WORD文档 提取文本 工具软件
下载PDF
基于深度学习的变电设备铭牌文本提取算法
2
作者 卫良润 杨柳林 《物联网技术》 2024年第1期37-41,共5页
变电设备铭牌数据管理对电力系统运行至关重要。在巡检设备中使用图像文本提取技术可以提高铭牌信息采集效率。然而,变电设备铭牌图像中存在多种文本提取难点,如文本多样性、背景多样性、图片质量多样性、形变多样性和排版多样性等。本... 变电设备铭牌数据管理对电力系统运行至关重要。在巡检设备中使用图像文本提取技术可以提高铭牌信息采集效率。然而,变电设备铭牌图像中存在多种文本提取难点,如文本多样性、背景多样性、图片质量多样性、形变多样性和排版多样性等。本文提出了一种端到端的图像文本提取算法,使用RoIRotate模块将文本检测和文本识别合并为一个任务。此外,本文为中文场景设计了一套训练流程并创建了端到端标注的变电设备铭牌文本数据集(RSEN)。实验结果表明,本文使用方法在该领域的文本检测精度达到88.89%,查全率为87.67%,文本识别精度为90.68%。这表明本文提出的文本提取方法具有鲁棒性,同时也验证了本文提出的数据集和训练方法的可靠性和有效性。 展开更多
关键词 变电设备 铭牌 深度学习 文本提取 文本检测 文本识别
下载PDF
基于文本提取的法律案件智能判决方法
3
作者 范阿曼 王延川 《微电子学与计算机》 2024年第1期45-52,共8页
深度学习在自然语言处理方面取得了巨大进展,以深度神经网络为代表的模型开始在法律智能判决上被广泛使用。基于Transformer的双向编码器表征法(Bidirectional Encoder Representations from Transformers,BERT)模型能够挖掘法律描述文... 深度学习在自然语言处理方面取得了巨大进展,以深度神经网络为代表的模型开始在法律智能判决上被广泛使用。基于Transformer的双向编码器表征法(Bidirectional Encoder Representations from Transformers,BERT)模型能够挖掘法律描述文本中双向上下文信息,利用BERT中自注意力机制完成了罪名预测、法律条款推荐、刑期预测多个司法智能审判任务。为了在长文本案情描述文本上获得更好的效果,进一步解决BERT模型输入文本的长度限制,对于过长的输入文本进行关键信息提取。在文本提取的过程中,充分利用前期训练的基于BERT智能审判模型,对于案情描述中句子的重要性进行评估,提取关键句子减少判断模型的输入长度。将精简后的案情描述文本再送入BERT模型进行司法智能审判学习。相比于直接输入原始案情描述文本的方法,基于文本提取处理后的法律描述在智能审判任务中能够取得更好的效果。 展开更多
关键词 法律智能审判 文本提取 多任务学习 双向编码器表征法 自然语言处理
下载PDF
勘察报告表格和文本信息提取算法研究
4
作者 李浩 《铁道技术标准(中英文)》 2024年第3期39-46,共8页
当前,勘察报告作为重要的工程设计依据,其中有大量表格和文本信息未被有效识别利用,为进一步打通专业软件研发的数据壁垒,有效识别和提取勘察报告信息迫在眉睫。针对该现状,本文设计Word表格及文本信息提取算法,并提出信息提取、显示和... 当前,勘察报告作为重要的工程设计依据,其中有大量表格和文本信息未被有效识别利用,为进一步打通专业软件研发的数据壁垒,有效识别和提取勘察报告信息迫在眉睫。针对该现状,本文设计Word表格及文本信息提取算法,并提出信息提取、显示和利用的一整套解决方案。基于文件读写库遍历Word表格,计算每个单元格的行列合并数,进而实现Word表格精准识别至Excel;基于文档自动化技术,记录Word表格范围,反向搜索获取表格标题。基于栈数据结构和匹配算法,遍历Word段落进行大纲匹配和范围计算,实现Word文本大纲信息识别;通过程序后台模拟复制粘贴操作将数据呈现在软件界面上。引入多线程机制,防止勘察报告信息提取操作阻塞主线程,引入并行分析机制,加速文本分析效率,进而提升软件的综合用户体验。以某一实际工程勘察报告为案例进行分析,验证该算法的适用性和准确性。 展开更多
关键词 算法 表格信息提取 文本信息提取 多线程
下载PDF
最大稳定极值区域与笔画宽度变换的自然场景文本提取方法 被引量:18
5
作者 张国和 黄凯 +2 位作者 张斌 符欢欢 赵季中 《西安交通大学学报》 EI CAS CSCD 北大核心 2017年第1期135-140,共6页
针对从背景复杂、视角多变、语言形式多样的场景图像中难以准确提取文本信息的问题,提出了一种基于最大稳定极值区域(MSER)和笔画宽度变换(SWT)场景文本提取方法。该方法结合MSER、SWT算法的优点,采用MSER算法的准确检测文字区域,建立... 针对从背景复杂、视角多变、语言形式多样的场景图像中难以准确提取文本信息的问题,提出了一种基于最大稳定极值区域(MSER)和笔画宽度变换(SWT)场景文本提取方法。该方法结合MSER、SWT算法的优点,采用MSER算法的准确检测文字区域,建立文本候选区域,利用SWT算法计算文本候选区域笔画宽度得到候选文本区域的笔画宽度;根据笔画宽度图,利用连通域标记建立笔画宽度连通图,然后根据笔画宽度连通图,建立笔画连通图的启发性规则,删除非文本候选区域,并根据文本的几何特征分析及局部自适应窗口最大类间方差(Otsu)分割,有效提取出自然场景图像中的文本,文本提取的准确率、召回率及综合性能分别为0.74、0.64及0.68。仿真实验结果表明,在文本视角多变,字符大小、尺寸、字体各异的复杂条件下,所提方法具有较好的鲁棒性,适用于多语言和多字体混合的场景文本提取。 展开更多
关键词 自然场景图像 文本提取 最大极值稳定区域 笔画宽度变换
下载PDF
弱光背景下文本图像二值化提取算法 被引量:5
6
作者 张万绪 孟虹岐 +5 位作者 吴长忠 茹懿 方成 茹超 姜思宇 姜博 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第2期191-196,共6页
针对现有二值化文本提取算法在弱光照条件下易受非均匀光照的干扰,导致提取结果中错误较多、识别率变低的题,提出了一种面向弱光照条件的文本信息提取的预处理算法。基于Retinex理论将图像照度分量和反应文本属性的反射分量有效分离,此... 针对现有二值化文本提取算法在弱光照条件下易受非均匀光照的干扰,导致提取结果中错误较多、识别率变低的题,提出了一种面向弱光照条件的文本信息提取的预处理算法。基于Retinex理论将图像照度分量和反应文本属性的反射分量有效分离,此外,将L0平滑滤波引入文本图像处理中,有效抑制文本图像的背景干扰。实验结果表明,所提算法能够提高现有算法在弱光条件下的文本提取精度,扩展现有算法的应用范围。 展开更多
关键词 弱光背景 背景干扰抑制 文本提取
下载PDF
一种Web主题文本通用提取方法 被引量:5
7
作者 蒲强 李鑫 +1 位作者 刘启和 杨国纬 《计算机应用》 CSCD 北大核心 2007年第6期1394-1396,共3页
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其... 为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。 展开更多
关键词 WEB文本 文本提取 文本语料库
下载PDF
视频文本的自动提取方法 被引量:5
8
作者 郭丽 孙兴华 +1 位作者 黄元元 杨静宇 《小型微型计算机系统》 CSCD 北大核心 2004年第6期1086-1088,共3页
提出一种基于彩色边缘检测和游程平滑的视频文本提取方法 ,首先用彩色边缘检测算子检测出图像中的边缘 ,然后用多次水平和垂直的游程平滑操作使得文字边缘形成连通区域 ,并去掉部分孤立的噪声 ,再通过对连通域的分析和分解定位出文本区... 提出一种基于彩色边缘检测和游程平滑的视频文本提取方法 ,首先用彩色边缘检测算子检测出图像中的边缘 ,然后用多次水平和垂直的游程平滑操作使得文字边缘形成连通区域 ,并去掉部分孤立的噪声 ,再通过对连通域的分析和分解定位出文本区域的边界 ,最后对文本区进行确认 .实验表明 ,本文的视频文本自动提取方法具有较高的文本提取率和较准确的边界定位 . 展开更多
关键词 彩色边缘检测 游程平滑 视频文本提取 图像文本 场景文本
下载PDF
面向彩色图像和视频的文本提取新方法 被引量:14
9
作者 张引 潘云鹤 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2002年第1期36-40,共5页
随着基于内容检索技术的发展 ,人们逐渐意识到包含在彩色图像和视频中的文本具有重要的语义作用 ,并需要采用有效的方法来提取这些文本 .文中提出一个全面作用在 RGB颜色空间 3个分量上的彩色图像边缘检测新算子和一种利用空间频率特征... 随着基于内容检索技术的发展 ,人们逐渐意识到包含在彩色图像和视频中的文本具有重要的语义作用 ,并需要采用有效的方法来提取这些文本 .文中提出一个全面作用在 RGB颜色空间 3个分量上的彩色图像边缘检测新算子和一种利用空间频率特征、结合彩色边缘检测与基于区域图像分割方法的彩色图像和视频文本提取新算法 .实验表明在彩色图像和视频的文本提取中 ,文中算子形成的二值边缘图像的文本区域轮廓清晰完整 ,有利于下一步文本区域与背景的剥离 ; 展开更多
关键词 彩色图像 视频 文本提取 图像分割 边缘检测
下载PDF
复杂背景下文本提取的彩色边缘检测算子设计 被引量:20
10
作者 张引 潘云鹤 《软件学报》 EI CSCD 北大核心 2001年第8期1129-1135,共7页
分析了当前彩色边缘检测方法的现状与复杂背景下文本提取的社会需求 ,提出一个新的彩色图像边缘检测算子—— Color Roberts,该算子全面作用于三维 RGB彩色空间 .实验证明 ,在文本区域提取的彩色图像边缘检测中 ,Color Roberts具有传统... 分析了当前彩色边缘检测方法的现状与复杂背景下文本提取的社会需求 ,提出一个新的彩色图像边缘检测算子—— Color Roberts,该算子全面作用于三维 RGB彩色空间 .实验证明 ,在文本区域提取的彩色图像边缘检测中 ,Color Roberts具有传统算子所无法比拟的优势 ,检测出的文本区域完整、清晰 ,字符形状边缘保持较好 。 展开更多
关键词 彩色图像分割 文本提取 图像检索 边缘检测 图像处理 算子
下载PDF
基于城市监控的自然场景图像的中文文本提取方法 被引量:4
11
作者 肖珂 戴舜 +1 位作者 何云华 孙利民 《计算机研究与发展》 EI CSCD 北大核心 2019年第7期1525-1533,共9页
智慧城市的首要任务是城市场景监控及其信息分析,场景图像中文本信息的识别是一种直观且高效的场景信息分析手段,但目前场景图像的中文文本提取由于图像光照和模糊、中文字符结构复杂等因素,未能达到很好的效果.为解决这一问题,提出一... 智慧城市的首要任务是城市场景监控及其信息分析,场景图像中文本信息的识别是一种直观且高效的场景信息分析手段,但目前场景图像的中文文本提取由于图像光照和模糊、中文字符结构复杂等因素,未能达到很好的效果.为解决这一问题,提出一种边缘增强的最大稳定极值区域(maximally stable extremal regions, MSER)检测方法,可在光照和模糊影响的条件下提取MSER,通过几何特征约束条件高效地过滤明显的非MSER,得到高质量的候选MSER.之后使用提出的中心聚合方法对分割成多个MSER的候选中文文本域进行中文的聚合,使得候选区域成为单个候选的中文文本分量,再对这些分量进行分析,并运用机器学习选出正确的中文文本.实验结果表明:该算法能够更有效地提取出自然场景图像中的中文文本. 展开更多
关键词 文本提取 最大稳定极值区域 中文聚合 支持向量机 物联网
下载PDF
基于Labeled-LDA模型的文本特征提取方法 被引量:13
12
作者 王瑞 龙华 +1 位作者 邵玉斌 杜庆治 《电子测量技术》 2020年第1期141-146,共6页
针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取... 针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取出的主题词与关键词进行相似度计算,找到文本隐含主题的类别并提取特征词。实验表明结合后的特征提取方法比TF-IDF、传统LDA主题模型的文本特征提取方法,获得更高的分类精度,其中准确度提高了3.40%,召回率提高了4.40%,F值提高了3.92%。 展开更多
关键词 Labeled-LDA TF-IDF Simhash 文本特征提取
下载PDF
基于小波模极大值的视频文本区域的提取 被引量:3
13
作者 李雪妍 郭树旭 郜峰利 《计算机工程》 CAS CSCD 北大核心 2007年第5期26-28,共3页
视频图像中包含着许多重要的文字信息。图像和视频文本信息的提取包括文本检测、定位、跟踪、提取、增强和识别等几个部分。将文本的检测、定位与提取,作为文本区域提取的整体来讨论。以文本的检测算法为重点研究对象,提出了应用小波模... 视频图像中包含着许多重要的文字信息。图像和视频文本信息的提取包括文本检测、定位、跟踪、提取、增强和识别等几个部分。将文本的检测、定位与提取,作为文本区域提取的整体来讨论。以文本的检测算法为重点研究对象,提出了应用小波模极大值算法来解决视频图像中文本区域的检测。实验表明,小波模极大值算法所得到的文本区域与其它算法相比具有更好的评价指标。 展开更多
关键词 文本提取 小波模极大值 滑动窗口
下载PDF
基于敏感点颜色聚类和行聚类筛选的文本提取 被引量:3
14
作者 刘琼 周慧灿 王耀南 《计算机应用》 CSCD 北大核心 2010年第2期449-452,共4页
针对现有的文本提取算法不能适应复杂背景变化和文字本身的形状变化问题,提出一种基于敏感点颜色两级聚类和文本行聚类筛选的方法。新方法利用人眼视觉对颜色大幅度变化更敏感的特点,以敏感点的主要颜色作为聚类分析的依据,克服了现有... 针对现有的文本提取算法不能适应复杂背景变化和文字本身的形状变化问题,提出一种基于敏感点颜色两级聚类和文本行聚类筛选的方法。新方法利用人眼视觉对颜色大幅度变化更敏感的特点,以敏感点的主要颜色作为聚类分析的依据,克服了现有阈值方法和聚类方法受背景颜色变化影响较大的问题。在此基础上,以文本行的空间排列特征为依据进进行文本行筛选,以克服一般方法容易受文字形状和尺寸变化影响的缺点。实验表明,新方法对于背景的复杂变化和文字的形状尺寸变化都具有很好的适应性。 展开更多
关键词 文本提取 K均值聚类 边缘密度 文本行聚类
下载PDF
有效的场景文本提取算法 被引量:4
15
作者 何兴恒 胡德婷 《计算机工程与设计》 CSCD 北大核心 2008年第10期2598-2599,2603,共3页
自然场景图像中的文本提供了重要的语意信息,它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点,提出了一种文本定位准确的文本提取算法。先将原始图片进行金字塔分解,然后进行彩色图像边缘提取和二值化,再... 自然场景图像中的文本提供了重要的语意信息,它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点,提出了一种文本定位准确的文本提取算法。先将原始图片进行金字塔分解,然后进行彩色图像边缘提取和二值化,再形态学文本定位,最后文本区域字符提取。对ICDAR数据库图片的测试结果表明,该方法对文字颜色、大小字体以及排列方向具有较强的鲁棒性,同时也具有较高的精确度和提取率。 展开更多
关键词 文本提取 金字塔分解 边缘检测 二值化 数学形态学
下载PDF
用于文本区域提取的边缘像素聚类方法 被引量:6
16
作者 付慧 刘峡壁 贾云得 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2006年第5期729-734,共6页
根据边缘点的位置和颜色信息采取逐步松弛的聚类方法将图像分割成像素子集,应用文本区域边缘的分布特征提取初始文本区,并进行边界扩展得到完整的文本区域;同时给出了一种文本区域二值化方法,减少了在文本颜色极性未知时的二值图像个数... 根据边缘点的位置和颜色信息采取逐步松弛的聚类方法将图像分割成像素子集,应用文本区域边缘的分布特征提取初始文本区,并进行边界扩展得到完整的文本区域;同时给出了一种文本区域二值化方法,减少了在文本颜色极性未知时的二值图像个数,可提高字符分割等后续处理的计算效率.实验结果表明,该方法对文本区域提取是有效的,提取完整率达99%. 展开更多
关键词 文本区域提取 图像检索 光学字符识别 聚类 图像二值化
下载PDF
文本提取和相似反馈的互联网图像检索研究 被引量:1
17
作者 詹恒飞 杨岳湘 方宏 《计算机工程与应用》 CSCD 北大核心 2011年第32期186-190,共5页
使用基于文本的互联网图像检索技术是互联网图像检索最实用的方式,也对其他方式的互联网图像检索有重要辅助作用,但如何利用周边文本来对图像进行准确描述一直是一个难题。利用TFIDF为基础提出了一个基于句法和文本重要性分类的图像关... 使用基于文本的互联网图像检索技术是互联网图像检索最实用的方式,也对其他方式的互联网图像检索有重要辅助作用,但如何利用周边文本来对图像进行准确描述一直是一个难题。利用TFIDF为基础提出了一个基于句法和文本重要性分类的图像关键词权重计算方法,并尝试通过图像的相似性因素作为反馈进一步优化搜索结果,为用户返回最贴切的搜索结果。 展开更多
关键词 图像 文本提取 相似图像匹配
下载PDF
图像中多语种文本提取的高斯混合建模方法 被引量:2
18
作者 付慧 刘峡壁 贾云得 《计算机研究与发展》 EI CSCD 北大核心 2007年第11期1920-1926,共7页
建立了相邻字符区域的高斯混合模型,用于区分字符与非字符.在此基础上,提出了一种从图像中提取多语种文本的方法.首先对输入图像进行二值化,并执行形态学闭运算,使二值图像中每个字符成为一个单独的连通成分.然后根据各连通成分重心的Vo... 建立了相邻字符区域的高斯混合模型,用于区分字符与非字符.在此基础上,提出了一种从图像中提取多语种文本的方法.首先对输入图像进行二值化,并执行形态学闭运算,使二值图像中每个字符成为一个单独的连通成分.然后根据各连通成分重心的Voronoi区域,形成连通成分之间的邻接关系;最后在贝叶斯框架下,基于相邻字符区域的高斯混合模型计算相应的伪概率,以此为判据将每个连通成分标注为字符或非字符.利用所提出的文本提取方法,进行了复杂中英文文本的提取实验,获得大于97%的准确率和大于80%的召回率,证实了方法的有效性. 展开更多
关键词 高斯混合模型 文本提取 二值图像 多语种 建模方法 Voronoi区域 字符区域 连通成分
下载PDF
小波域内背景图像的文本信息提取研究 被引量:2
19
作者 张晓威 郑雄波 郭健 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2008年第3期314-318,共5页
提出了一种基于二维小波分解的背景图像文本提取算法.该算法首先对图像进行二维小波变换,设置滑动窗扫描高频子带,计算滑动窗内图像的小波纹理特征,采用k-均值聚类算法将图像分为文本区域、简单背景区域和复杂背景区域,最后对文本区域... 提出了一种基于二维小波分解的背景图像文本提取算法.该算法首先对图像进行二维小波变换,设置滑动窗扫描高频子带,计算滑动窗内图像的小波纹理特征,采用k-均值聚类算法将图像分为文本区域、简单背景区域和复杂背景区域,最后对文本区域进行形态运算,精确地定位文本区域.实验结果表明,该算法能够准确地从背景图像中提取出不同语种、字体、大小和排列方式的文本信息. 展开更多
关键词 小波变换 文本提取 K-均值聚类 纹理特征 数学形态学
下载PDF
图像垃圾邮件中文本区域的自动提取方法 被引量:1
20
作者 程红蓉 秦志光 +3 位作者 万明成 王灿 靳京 傅翀 《解放军理工大学学报(自然科学版)》 EI 北大核心 2009年第3期258-261,共4页
图像中的文本区域为判别图像垃圾邮件提供了重要依据。为了获得图像中的文本区域信息,提出了基于Hough变换提取图像中倾斜文本区域的算法和降低图像背景干扰的八邻域细小边缘去除算法,实现了一种不受图像中文本颜色、字体、大小、位置... 图像中的文本区域为判别图像垃圾邮件提供了重要依据。为了获得图像中的文本区域信息,提出了基于Hough变换提取图像中倾斜文本区域的算法和降低图像背景干扰的八邻域细小边缘去除算法,实现了一种不受图像中文本颜色、字体、大小、位置、方向限制的文本区域的自动提取方法。在包含100幅垃圾图像的数据集上进行提取图像文本区域的实验。实验结果显示,新方法具有良好的文本区域提取性能。 展开更多
关键词 HOUGH变换 文本区域提取 图像垃圾邮件判别 彩色边缘检测
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部