期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
Office文档分析和自动阅卷系统的设计与分析 被引量:2
1
作者 黄金凤 曾凌静 《莆田学院学报》 2011年第5期77-81,共5页
从Office文档分析技术、自动阅卷系统设计难点和解决方案三个方面探讨了自动阅卷系统的设计,系统使用面向对象技术开发,利用VBA技术与Office文档进行交互,来实现自动阅卷功能。重点对Word、Excel和PowerPoint三类文档的常见操作对象进... 从Office文档分析技术、自动阅卷系统设计难点和解决方案三个方面探讨了自动阅卷系统的设计,系统使用面向对象技术开发,利用VBA技术与Office文档进行交互,来实现自动阅卷功能。重点对Word、Excel和PowerPoint三类文档的常见操作对象进行了分析,详细描述了通过VBA编程启动Office文档,解决执行阅卷代码、利用协议编辑并保存服务器文档和阅卷中段落定位等难点问题,设计达到预期目标,实现了在线测试和自动阅卷功能。 展开更多
关键词 OFFICE 文档分析 自动阅卷 VBA
下载PDF
专题知识库文档内容分析系统功能及其实现——以张謇研究知识库文档分析系统为例
2
作者 钱智勇 《图书馆学刊》 2008年第1期68-70,共3页
以张謇研究知识库文档内容分析系统研究为实例,介绍了一种基于领域知识内容的文档分析系统体系结构,并详细论述了系统核心——智能文本分析引擎的功能及其实现。
关键词 知识库 内容分析 文档分析
下载PDF
利用VB实现文档分析
3
作者 崔兆顺 韩双旺 《甘肃联合大学学报(自然科学版)》 2004年第3期32-34,共3页
详细讨论了VB语言环境下实现网络搜索引擎中文本分析的匹配操作遍历算法的技术原理和技术细节,并给出了实现这些算法的关键源程序.
关键词 VB 文档分析 网络搜索引擎 匹配操作 遍历算法 操作符 操作数
下载PDF
文档分析系统研讨会
4
作者 白翔 《国际学术动态》 2021年第2期54-56,共3页
文档分析系统研讨会(Document Analysis System,DAS)是一个面向计算机视觉与机器学习领域、专注于解决文档分析与识别问题的学术研讨会,迄今已成功举办13届。DAS 2020研讨会于2020年7月27~29日在湖北武汉举行。虽然DAS 2020的组织机构... 文档分析系统研讨会(Document Analysis System,DAS)是一个面向计算机视觉与机器学习领域、专注于解决文档分析与识别问题的学术研讨会,迄今已成功举办13届。DAS 2020研讨会于2020年7月27~29日在湖北武汉举行。虽然DAS 2020的组织机构仍设在武汉,但研讨会并不局限于特定地点。线上会议的举行带来了一些挑战,但也带来了一些有趣的机会,这促使所有人重新思考如何在这种新媒体中促进社会和科学的互动。 展开更多
关键词 计算机视觉 文档分析 DAS DOCUMENT 机器学习领域 研讨会 特定地点
下载PDF
XML文档分析研究
5
作者 何云升 郑小宁 《电子科技》 2001年第19期27-29,共3页
关键词 XML语言 文档分析 程序设计
下载PDF
2015年第13届文档分析与识别国际会议(英文) 被引量:1
6
《智能系统学报》 CSCD 北大核心 2015年第4期635-635,共1页
ICDAR is the premier international forum for researchers and practitioners in the document analysis community for identifying,encouraging and exchanging ideas on the state-of-the-art technology in document analysis,un... ICDAR is the premier international forum for researchers and practitioners in the document analysis community for identifying,encouraging and exchanging ideas on the state-of-the-art technology in document analysis,understanding,retrieval,and performance evaluation.The term document in the context of ICDAR encompasses a 展开更多
关键词 2015年第13届文档分析与识别国际会议 智能系统 识别技术 发展现状
下载PDF
基于本体的局部文档分析查询扩展方法研究
7
作者 周剑烽 《科技传播》 2011年第3期54-54,47,共2页
检索技术已经成为信息领域的重要技术之一,查询扩展技术是信息检索技术的一个关键技术,对提高检索结果的准确性和完整性有重要作用。为提高检索的查全率,本文在分析了传统查询扩展方法的基础上,结合语义检索技术的发展趋势,将语义模型... 检索技术已经成为信息领域的重要技术之一,查询扩展技术是信息检索技术的一个关键技术,对提高检索结果的准确性和完整性有重要作用。为提高检索的查全率,本文在分析了传统查询扩展方法的基础上,结合语义检索技术的发展趋势,将语义模型中的本体概念融合到查询扩展技术中,提出了基于本体的局部文档分析查询扩展方法。实验结果显示,该方法的检索结果与人们的认识比较接近,达到了较好的语义检索效果。 展开更多
关键词 本体 语义检索 查询扩展 局部文档分析
下载PDF
第13届文档分析与识别国际会议(英文)
8
《智能系统学报》 CSCD 北大核心 2015年第1期67-67,共1页
Welcome to the 13th International Conference on Document Analysis and Recognition(ICDAR 2015),hosted by the REGIM-Lab.and the Association of Sustainable Innovation in Tunisia(Tunisian Chapter of IAPR),will be held in ... Welcome to the 13th International Conference on Document Analysis and Recognition(ICDAR 2015),hosted by the REGIM-Lab.and the Association of Sustainable Innovation in Tunisia(Tunisian Chapter of IAPR),will be held in Tunis(Tunisia)from August 23-26th,2015.ICDAR 2015 is sponsored by the International Association for Pattern Recognition(IAPR)and technically co-sponsored by TC-10(Graphics Recognition),TC-11(Reading Systems),IEEE Computer Society(pending approval)。 展开更多
关键词 文档分析 文档识别 技术创新 发展现状
下载PDF
基于Transformer的多模态级联文档布局分析网络
9
作者 温绍杰 吴瑞刚 +1 位作者 冯超文 刘英莉 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第2期317-324,369,共9页
针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAE... 针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAEM),实现文本和图像模态预训练目标的对齐嵌入,使用掩码语言建模(MLM)、掩码图像建模(MIM)和词块对齐(WPA)进行预训练,以促进模型在文本和图像模态上的表征学习能力.直接使用文档原始图像,用图像块的线性投影特征来表示文档图像,简化模型结构,减小了模型参数量.实验结果表明,所提模型在PubLayNet公开数据集上的平均精度均值(mAP)达到95.1%.相较于其他模型,整体性能提升了2.5%,泛化能力突出,综合效果最优. 展开更多
关键词 文档布局分析 词块对齐嵌入 TRANSFORMER MCOD-Net模型
下载PDF
基于轻量化卷积神经网络的文档版面分析算法
10
作者 蔡云冰 杨词慧 +1 位作者 崔国昊 陈思宇 《南昌航空大学学报(自然科学版)》 CAS 2024年第3期45-52,共8页
现有的文档版面分析方法复杂,模型参数较多,且资源消耗较高,在低功耗移动终端上很难部署。因此,提出一种基于轻量化卷积神经网络的文档版面分析算法。首先,设计一种轻量化文档特征提取结构,通过结构重参数化实现隐式特征重用,提高文档... 现有的文档版面分析方法复杂,模型参数较多,且资源消耗较高,在低功耗移动终端上很难部署。因此,提出一种基于轻量化卷积神经网络的文档版面分析算法。首先,设计一种轻量化文档特征提取结构,通过结构重参数化实现隐式特征重用,提高文档特征提取的效率和速度。其次,引入SPD-Conv模块,通过空间转深度操作对特征图进行尺寸调整和通道数扩展,更好地保留细粒度信息,同时解决图像模糊和小型版面基元检测困难。最后,提出一种简洁的特征融合方法,并通过模型压缩实现性能和推理效率的平衡。实验结果显示,该方法在PubLayNet数据集上仅使用了160万个模型参数,可达到93.8%的mAP@0.5:0.95得分。这说明该算法能够在减少参数数量的情况下实现出色的检测精度,能够满足移动终端环境下高性能文档布局分析的要求。 展开更多
关键词 文档版面分析 卷积神经网络 轻量化 结构重参数化
下载PDF
文档图象的版面分析—基于数学形态学的方法 被引量:2
11
作者 杨波 汪同庆 +1 位作者 叶俊勇 任莉 《小型微型计算机系统》 CSCD 北大核心 2003年第9期1673-1676,共4页
提出了基于 Hough变换的结构元素构造方法 (HTSEC)以及基于数学形态学的分割方法 (MMS) ,即首先将灰度文档图象利用半色调技术转换为二值图象 ,利用 Hough变换动态构造结构元素 ,然后利用数学形态学方法对版面进行划分并将其分为文字区。
关键词 文档图象分析 版面分析 数学形态学 HOUGH变换 动态结构元素
下载PDF
基于迁移学习和过滤机制的方面级情感分析
12
作者 张顺香 苏明星 李晓庆 《计算机工程与设计》 北大核心 2023年第9期2664-2670,共7页
考虑到迁移学习过程中引入大量与给定方面无关的情感噪音,提出一种基于迁移学习和过滤机制的方面级情感分析模型TLFM。利用预训练文档级情感分析模块学习文档的情感知识,通过共享参数的方式将情感知识传递给方面级情感分析模块;设计一... 考虑到迁移学习过程中引入大量与给定方面无关的情感噪音,提出一种基于迁移学习和过滤机制的方面级情感分析模型TLFM。利用预训练文档级情感分析模块学习文档的情感知识,通过共享参数的方式将情感知识传递给方面级情感分析模块;设计一个注意力过滤模块,该模块聚焦于过滤文档级知识中与给定方面无关的情感;将预学习后的模型TLFM和过滤模块进行联合训练,利用文档级知识的同时,降低噪音的影响。实验结果表明,迁移学习和过滤机制的结合能有效提高方面级情感预测的准确率。 展开更多
关键词 方面级情感分析 注意力机制 过滤机制 双向长短时记忆网络 迁移学习 文档级情感分析 自注意力机制
下载PDF
人工智能在手写文档识别分析中的技术演进 被引量:1
13
作者 竺博 吴嘉嘉 +1 位作者 何春江 胡金水 《电子测试》 2019年第13期5-8,48,共5页
本文简要回顾手写文档识别和分析技术在过去十年的技术变化,对比各项主要技术的原理和性能,着重分析基于深度学习的神经网络方法在文档识别分析应用中所带来的显著效果提升。
关键词 手写识别 深度学习 文档识别分析
下载PDF
财务文档分词及文档相关性分析 被引量:1
14
作者 殷伟 《电脑知识与技术》 2013年第3期1718-1719,1722,共3页
搜集财务专业语料库,利用中科院的分词工具对专业语料库进行分词,计算分词的准确率和召回率,并将结果保存在文件中。计算文档中给定词的词频和反文档频率,并对专业词汇加权,提高专业词汇的重要性,利用数学模型进行文档的相似度匹配。设... 搜集财务专业语料库,利用中科院的分词工具对专业语料库进行分词,计算分词的准确率和召回率,并将结果保存在文件中。计算文档中给定词的词频和反文档频率,并对专业词汇加权,提高专业词汇的重要性,利用数学模型进行文档的相似度匹配。设置阈值,若两篇文档的相似度大于指定阈值,即认定两篇文档相似,进而生成一个矩阵,求解矩阵的连通性,得到该本聚类的结果,并进行文章的相关性分析。该文有利于财务分析人员根据已分类好的财务文档,了解企业过去,评价企业现状,作出对企业有长远影响的决策。 展开更多
关键词 准确率和召回率 财务文档相似度匹配 财务文档相关性分析
下载PDF
基于C#语言的类与XML转化的研究与分析 被引量:2
15
作者 杨占胜 王立波 《科技资讯》 2009年第2期11-11,共1页
XML文档虽然是一种简单的文本,但它既可以作为网页文件使用,又与数据库表和面向对象程序设计中的类及其对象相对应。XML与数据库表和XML与类的相互转化是计算机应用技术中的高级课题。文章阐述类与XML之间转化的方法和问题,并用C#语言... XML文档虽然是一种简单的文本,但它既可以作为网页文件使用,又与数据库表和面向对象程序设计中的类及其对象相对应。XML与数据库表和XML与类的相互转化是计算机应用技术中的高级课题。文章阐述类与XML之间转化的方法和问题,并用C#语言进行了具体的实现。 展开更多
关键词 XML文档分析 类与XML的转化 C#语言编程
下载PDF
基于文本摘要的无监督关键词抽取方法
16
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 文档建模 文档主题分析 语义处理 权重优化 向量相似性
下载PDF
PDF文档中的脚注识别研究
17
作者 黎斯达 高良才 +1 位作者 汤帜 俞银燕 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第6期1017-1021,共5页
针对PDF文档的脚注识别问题,提出一种自动识别脚注及其引用,并建立它们之间匹配关系的方法。首先针对PDF文档提取脚注的一系列特征,包括页面布局、字体信息、语义信息等,然后基于文档部件风格一致性,利用聚类技术,处理在不同文档中相异... 针对PDF文档的脚注识别问题,提出一种自动识别脚注及其引用,并建立它们之间匹配关系的方法。首先针对PDF文档提取脚注的一系列特征,包括页面布局、字体信息、语义信息等,然后基于文档部件风格一致性,利用聚类技术,处理在不同文档中相异但在同一文档中相似的特征,从而使得识别过程能够适应不同文档类型。此外,利用脚注与引用的匹配结果为识别过程提供反馈,进一步提高了识别准确性。在真实文档测试集上的实验结果表明,所提方法对于PDF文档的脚注识别取得较高的准确率和召回率。 展开更多
关键词 脚注 PDF文档 文档分析与理解
下载PDF
表格型文档自动识别系统及其应用 被引量:2
18
作者 张艳 郁生阳 +2 位作者 张重阳 娄震 杨静宇 《系统仿真学报》 CAS CSCD 北大核心 2009年第10期2916-2920,共5页
随着文档影像系统的广泛应用,文档图像自动处理已成为当前的一个研究热点。对表格型文档自动识别系统中的若干关键技术进行了研究。首先,在版面分析中,提出了基于框线检测的文档分类方法;其次,根据表格型文档图像的特点,介绍了相应的识... 随着文档影像系统的广泛应用,文档图像自动处理已成为当前的一个研究热点。对表格型文档自动识别系统中的若干关键技术进行了研究。首先,在版面分析中,提出了基于框线检测的文档分类方法;其次,根据表格型文档图像的特点,介绍了相应的识别域提取、框线去除以及手写字符串分割方法;最后,在手写数字识别部分,设计了一种基于形状上下文特征和梯度特征的组合识别方法。最后将该系统应用于银行票据小写金额识别,通过真实表格型票据进行仿真实验,证明了系统的有效性,系统识别率达到了实用的水平。 展开更多
关键词 表格型文档 框线检测 框线去除 文档图像分析 手写数字识别
下载PDF
基于知识图谱的核电技术文档挖掘与应用实践 被引量:2
19
作者 杨强 查凤华 胡心宇 《中国档案》 北大核心 2022年第12期54-55,共2页
江苏核电有限公司(以下简称“江苏核电”)结合核电技术文档知识图谱的应用需求,围绕知识获取、实体识别、关系抽取、知识融合、知识存储、知识服务等关键过程,分析目前主流的技术,形成针对核电技术文档分析挖掘的智能问答服务方案,通过... 江苏核电有限公司(以下简称“江苏核电”)结合核电技术文档知识图谱的应用需求,围绕知识获取、实体识别、关系抽取、知识融合、知识存储、知识服务等关键过程,分析目前主流的技术,形成针对核电技术文档分析挖掘的智能问答服务方案,通过挖掘利用核电技术文档知识资源,验证知识图谱在核电技术文档分析利用中的可行性,并取得了较好的应用效果。 展开更多
关键词 技术文档 实体识别 关系抽取 知识获取 知识融合 知识存储 知识图谱 文档分析
下载PDF
文档处理中背景字符的去除
20
作者 张重阳 杨静宇 +1 位作者 李伟 孙明明 《计算机科学》 CSCD 北大核心 2006年第8期229-231,共3页
识别域图像的提取是文档自动处理系统中一个重要的预处理过程。在实际应用中,用户填写的信息常常与版面中的框线和背景字符存在交叠现象,严重影响了系统的性能。本文提出了基于点边距离分析的背景字符去除算法。首先通过灰度图像匹配的... 识别域图像的提取是文档自动处理系统中一个重要的预处理过程。在实际应用中,用户填写的信息常常与版面中的框线和背景字符存在交叠现象,严重影响了系统的性能。本文提出了基于点边距离分析的背景字符去除算法。首先通过灰度图像匹配的方法精定位背景字符子图像;然后利用形态学方法结合笔画的宽度信息对背景字符子图像进行二值化;最后分析像素点到边界距离的变化确定需要填充的像素位置,并通过形态学方法计算像素的填充值。实验采用了真实票据图像中的日期域,实验结果表明本文的方法获得了基本令人满意的效果,背景字符像素被成功去除。 展开更多
关键词 图像处理 文档图像分析 图像匹配 二值化 数学形态学
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部