期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
优化LangChain框架中的文档分割方法:方法与应用
1
作者 蔡运生 穆欣宇 +2 位作者 董浩 陈国铨 孙达 《计算机科学与应用》 2023年第12期2575-2586,共12页
本研究旨在改进LangChain框架中的文档分割方法,以提高大型语言模型处理长文本的效率和准确性。通过分析现有的文档分割工具,发现其可能导致语义断裂和处理效率低下的问题。针对这些问题,提出了一种基于KMeans聚类算法的优化策略,以保... 本研究旨在改进LangChain框架中的文档分割方法,以提高大型语言模型处理长文本的效率和准确性。通过分析现有的文档分割工具,发现其可能导致语义断裂和处理效率低下的问题。针对这些问题,提出了一种基于KMeans聚类算法的优化策略,以保持文本的语义连贯性和句子的原始顺序。构建了名为TextSplitter的类和名为chunk_file的函数,实现了新的文档分割和聚类方法。通过PK值评估法对优化策略的效果进行了验证,并通过实验展示了新方法相较于现有方法的优势。本研究不仅为LangChain框架的文档分割提供了有效的优化方案,也为处理大规模文本数据提供了有益的参考。 展开更多
关键词 LangChain框架 文档分割方法 大型语言模型 KMeans聚类算法
下载PDF
基于自适应特征与多级反馈模型的中英文混排文档分割 被引量:4
2
作者 夏勇 王春恒 戴汝为 《自动化学报》 EI CSCD 北大核心 2006年第3期353-359,共7页
提出了一种基于自适应特征与多级反馈模型的新颖的字符分割方法,对文字图像质量与中英文混排格式有较好的自适应能力.该方法的主要思想就是将一个分割过程分成很多层,每层都会由一个主要特征来指导字符分割与中英文预分类,然后将分割... 提出了一种基于自适应特征与多级反馈模型的新颖的字符分割方法,对文字图像质量与中英文混排格式有较好的自适应能力.该方法的主要思想就是将一个分割过程分成很多层,每层都会由一个主要特征来指导字符分割与中英文预分类,然后将分割层的结果反馈至当前分割层或前面的分割层,并指导下一层的分割.该方法将字符分割、中英文预分类和字符识别这三者进行了很好的融合,大大提高了字符分割与识别的正确率. 展开更多
关键词 中英文混排文档分割 中英文预分类 自适应特征 多级反馈模型 文档图像的自适应特性 OCR
下载PDF
基于数字标签的电子文档分割存储研究
3
作者 王小飞 《电脑知识与技术》 2016年第6X期21-22,24,共3页
电子文件的应用伴随信息化进程的推进得到很大发展,政府以及各类型企业的电子档案数量已经远远超过纸质档案数量。但由于电子文件自身易复制、易修改、易传播、易扩散等特点,导致传统文档防扩散管理办法难以保障涉密电子文档的安全性和... 电子文件的应用伴随信息化进程的推进得到很大发展,政府以及各类型企业的电子档案数量已经远远超过纸质档案数量。但由于电子文件自身易复制、易修改、易传播、易扩散等特点,导致传统文档防扩散管理办法难以保障涉密电子文档的安全性和可靠性。本文首先设了一种涉密电子文档多属性数字标签,其次提出基于多属性标签的涉密电子文档加密分割方法,然后采用STAR码对文档分割后的数据块进行编码,最后通过实验对算法的性能进行了测试,以论证本文提出的电子文档防扩散方法可以更高效、安全地解决电子文档被恶意窃取的问题,为电子文件细粒度安全管控提供有力的技术支撑。 展开更多
关键词 数字标签 文档分割 数据块编码
下载PDF
一种优化的文档图像分割方法 被引量:1
4
作者 朱庆生 林杰 张敏 《计算机科学》 CSCD 北大核心 2004年第4期151-153,共3页
文档图像在数字图书馆、电子商务以及电子政务等工程中已获得广泛应用。如何对文档图像进行有效的转换、存储和传输.成为人们研究的焦点。将文档图像分割成不同的区域,根据不同区域的特点分别进行处理,成为一种有效的解决方案。本文在... 文档图像在数字图书馆、电子商务以及电子政务等工程中已获得广泛应用。如何对文档图像进行有效的转换、存储和传输.成为人们研究的焦点。将文档图像分割成不同的区域,根据不同区域的特点分别进行处理,成为一种有效的解决方案。本文在传统的块分割和图层分割方法的基础上,提出了一种优化的文档图像分割思路,对这两种方法进行了合理的综合处理,能够取得更好的效果。 展开更多
关键词 文档图像分割 文档图像处理 分割 分割 计算机
下载PDF
XDrill:基于文件差异的XML文档压缩算法 被引量:3
5
作者 耿志华 王晓玲 周傲英 《计算机研究与发展》 EI CSCD 北大核心 2007年第z3期379-385,共7页
XML已成为网络传输、信息交换领域数据交换和存储的标准.由于XML文档的自描述性,导致信息冗余,特别是在一些特殊的应用场合,如PDA,Smart Phone等网络资源受限的系统中,网络性能受到较大影响.虽然目前很多研究者提出了通过对XML文档进行... XML已成为网络传输、信息交换领域数据交换和存储的标准.由于XML文档的自描述性,导致信息冗余,特别是在一些特殊的应用场合,如PDA,Smart Phone等网络资源受限的系统中,网络性能受到较大影响.虽然目前很多研究者提出了通过对XML文档进行压缩,来缓解系统负担,但是大部分的压缩方法关注单个文档的压缩,而对文档集合压缩效果较差.分析了已有的XML压缩算法在实际使用中的潜在问题,提出了一种新的基于文件差异的XML文档压缩算法--XDrill. 该算法通过对XML文档树进行划分来挖掘文档内部以及文档间的冗余信息,得到了良好的压缩效果.通过对XDrill系统的理论分析以及对实际数据集的测试表明,XDrill在压缩单个文档的性能上与XMill接近,对文档集合的压缩效果明显优于XMill压缩方法.同时,相比已有的XML压缩算法,XDrill支持增量式存储,并可以降低更新操作的系统开销. 展开更多
关键词 XML压缩 增量式压缩 XML文档分割
下载PDF
改进SURF特征的维吾尔文复杂文档图像匹配检索 被引量:3
6
作者 阿丽亚·巴吐尔 努尔毕亚·亚地卡尔 +2 位作者 吾尔尼沙·买买提 阿力木江·艾沙 库尔班·吾布力 《智能系统学报》 CSCD 北大核心 2019年第2期296-305,共10页
针对图像局部特征的词袋模型(Bag-of-Word, BOW)检索研究中聚类中心的不确定性和计算复杂性问题,提出一种由不同种类的距离进行相似程度测量的检索和由匹配点数来检索的方法。这种方法首先需要改进文档图像的SURF特征,有效降低特征提取... 针对图像局部特征的词袋模型(Bag-of-Word, BOW)检索研究中聚类中心的不确定性和计算复杂性问题,提出一种由不同种类的距离进行相似程度测量的检索和由匹配点数来检索的方法。这种方法首先需要改进文档图像的SURF特征,有效降低特征提取复杂度;其次,对FAST+SURF特征实现FLANN双向匹配与KD-Tree+BBF匹配,在不同变换条件下验证特征鲁棒性;最后,基于这两种检索方法对已收集整理好的各类维吾尔文文档图像数据库进行检索。实验结果表明:基于距离的相似性度量复杂度次于基于匹配数目的检索,而且两种检索策略都能满足快速、精确查找需求。 展开更多
关键词 复杂文档 维吾尔文档图像 文档图像分割 特征提取 SURF特征 FLANN双向匹配 KD-Tree+BBF匹配 图像检索
下载PDF
基于文本布局块距离度量的文档图像检索
7
作者 王牡丹 邬春学 《电子科技》 2017年第9期46-49,共4页
针对现有基于图像文档转换为文本后进行文档检索的方法,无法满足当今超大量数字图像库的处理场景。文中提出一种基于文本布局块的文档图像检索方法。根据文本布局块之间的距离特征,定义了新的距离函数,利用新的距离函数计算得到文本布... 针对现有基于图像文档转换为文本后进行文档检索的方法,无法满足当今超大量数字图像库的处理场景。文中提出一种基于文本布局块的文档图像检索方法。根据文本布局块之间的距离特征,定义了新的距离函数,利用新的距离函数计算得到文本布局块之间的距离矩阵,并结合匈牙利算法求出文档图像的最佳匹配结果。通过大量实验证明,所提方法能够有效地提高图像文档检索准确度,并且能保证78.2%的正确率。 展开更多
关键词 图像文档检索 文档图像分割 文本布局块 距离函数 匈牙利算法
下载PDF
基于GPT的本地文档智能问答方法及应用研究
8
作者 吴晓蓉 程俊杰 《电脑知识与技术》 2024年第13期91-94,共4页
随着大模型的发展,公开通用的知识得到了广泛的训练和应用。但企业和个人的内部文档仍然没有实现智能化。用户查找内部文档内容时,仍需打开对应文档进行搜索,效率低下,为了提高企业和个人内部文档的智能化访问效率,减少查找时间提高工... 随着大模型的发展,公开通用的知识得到了广泛的训练和应用。但企业和个人的内部文档仍然没有实现智能化。用户查找内部文档内容时,仍需打开对应文档进行搜索,效率低下,为了提高企业和个人内部文档的智能化访问效率,减少查找时间提高工作效率。文章提出了一种基于大模型的本地文档智能问答方法,该方法通过将本地文档分割并调用大模型进行智能问答,以实现高效的文档检索。研究结果表明该方法能够在不耗费大量计算资源的情况下,获得与大模型相媲美的问答效果,为用户提供更快速、智能的内部文档访问体验。 展开更多
关键词 GPT 智能化问答 大模型 文档检索 文档分割
下载PDF
用C#进行Word信息抽取
9
作者 蔺聪 《现代计算机》 2010年第4期132-135,142,共5页
从系统构思、表头信息抽取、表格信息抽取几个方面详细介绍一个Word信息抽取系统的原理和实现方法;在表格信息处理部分,分为必修改课和选修课两种情况,并就内存可能溢出的情况给出相应的处理方法。实验结果显示,该系统能够从附录所示格... 从系统构思、表头信息抽取、表格信息抽取几个方面详细介绍一个Word信息抽取系统的原理和实现方法;在表格信息处理部分,分为必修改课和选修课两种情况,并就内存可能溢出的情况给出相应的处理方法。实验结果显示,该系统能够从附录所示格式的文档中正确地抽取出相应的数据。 展开更多
关键词 信息抽取 Word抽取 文档分割
下载PDF
基于TWAIN标准的扫描仪接口软件的应用 被引量:2
10
作者 向冬梅 肖佩 《武汉理工大学学报(信息与管理工程版)》 CAS 2003年第6期86-89,共4页
介绍了扫描仪软件接口国际标准TWAIN的7个工作阶段;并以开发1个控件为例,说明TWAIN应用软件的开发过程及参数设置的注意事项;最后提出了扫描软件的2个个性化功能———文档分割和有效区扫描的实现方法。
关键词 扫描仪 TWAIN 文档分割 扫描模板
下载PDF
基于子空间优化的潜在语义标引技术研究 被引量:1
11
作者 季铎 常利伟 蔡东风 《沈阳航空航天大学学报》 2013年第2期60-65,共6页
潜在语义标引是一项无监督的特征抽取技术,并且其有效性在信息检索等多个研究领域得到证明。由于该技术的特征抽取效果完全依赖于数据的特征分布,因此对数据的优化能够较好改善技术的有效性。提出了一种潜在语义标引的优化技术-增广空... 潜在语义标引是一项无监督的特征抽取技术,并且其有效性在信息检索等多个研究领域得到证明。由于该技术的特征抽取效果完全依赖于数据的特征分布,因此对数据的优化能够较好改善技术的有效性。提出了一种潜在语义标引的优化技术-增广空间模型,同时提出了基于文档长度和特征DF分布状态的数据分割策略,该策略的提出能够使子空间尽可能继承原始空间的良好结构。实验证明合理的子空间分割策略,不但保证了正确率,同时极大地缩短了算法的运行时间。最后,采用增广空间模型,将不同子空间进行融合,并获得较好的性能。在分类实验中分类正确率已达85.92%。 展开更多
关键词 潜在语义标引 文档频度(DF)值分布分割 增广空间模型 系统融合
下载PDF
一种鲁棒的离线笔迹鉴别方法 被引量:6
12
作者 陈使明 王以松 《自动化学报》 EI CSCD 北大核心 2020年第1期108-116,共9页
离线笔迹鉴别在司法鉴定与历史文档分析中有重要作用.当前的主要离线笔迹鉴别都是基于局部特征提取的方法,其在笔迹检索中严重依赖于数据增强和全局编码,在笔迹识别中需要较多的笔迹信息.针对这一问题,本文提出一种基于统计的文档行分... 离线笔迹鉴别在司法鉴定与历史文档分析中有重要作用.当前的主要离线笔迹鉴别都是基于局部特征提取的方法,其在笔迹检索中严重依赖于数据增强和全局编码,在笔迹识别中需要较多的笔迹信息.针对这一问题,本文提出一种基于统计的文档行分割与深度卷积神经网络相结合的离线笔迹鉴别方法(DLS-CNN).首先,使用基于统计的文档行分割方法将笔迹材料分割成小的像素块;然后,用优化后的残差神经网络作为识别模型;最后,对局部特征使用取均值法进行编码.在ICDAR2013和CVL这两个标准数据集上的实验结果表明,该方法能有效获得鲁棒的局部特征,从而仅需要少量的笔迹信息就能取得较高的识别率,而且不需依赖于数据增强和全局编码就能取得较好的检索效果.实验代码地址:https://github.com/shiming-chen/DLS-CNN. 展开更多
关键词 笔迹鉴别 笔迹检索 文档分割 卷积神经网络 特征提取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部