期刊文献+
共找到88篇文章
< 1 2 5 >
每页显示 20 50 100
边缘引导和拉普拉斯金字塔分解的古文本图像修复算法
1
作者 刘畅 张玲 何英豪 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第6期884-894,共11页
针对当前图像修复算法应用到古文本图像上时,出现纹理模糊或结构内容不完整的问题,提出边缘引导和拉普拉斯金字塔分解的古文本图像修复算法.首先利用边缘修复模块对古文本图像的边缘结构进行修复,重建缺损区域的边缘信息;然后利用预训... 针对当前图像修复算法应用到古文本图像上时,出现纹理模糊或结构内容不完整的问题,提出边缘引导和拉普拉斯金字塔分解的古文本图像修复算法.首先利用边缘修复模块对古文本图像的边缘结构进行修复,重建缺损区域的边缘信息;然后利用预训练的文字学习模块对局部缺损区域进行内容修复,得到一幅局部内容修复图像,并进行拉普拉斯分解;最后在拉普拉斯金字塔修复模块中,根据图像的低层和高层特征,利用内容修复模块对图像进行递进修复,内容修复模块中引入双交叉编码器和多尺度融合块,有助于获取更加有效的特征信息,生成纹理结构完整的图像修复结果.在古文本图像数据集的测试集上进行实验的结果表明,各项图像质量评估指标中,峰值信噪比为34.322 dB,结构相似性为0.970,均方根误差为5.203,验证了所提算法的有效性和可行性. 展开更多
关键词 图像修复 古文本图像 边缘图 双交叉编码器 多尺度融合块
下载PDF
特殊软件工具在典型街区发展情景判断中的应用
2
作者 应琼妮 戴敬东 《中阿科技论坛(中英文)》 2024年第6期56-60,共5页
历史文化街区存有一定数量、规模和比例的历史建筑物、构筑物和传统街巷空间格局,因其能反映城市历史发展过程并呈现鲜明的地方特色,因而深受游客青睐。临海紫阳街是台州府城文化旅游区的重要组成部分,拥有丰富的文化旅游资源。文章基... 历史文化街区存有一定数量、规模和比例的历史建筑物、构筑物和传统街巷空间格局,因其能反映城市历史发展过程并呈现鲜明的地方特色,因而深受游客青睐。临海紫阳街是台州府城文化旅游区的重要组成部分,拥有丰富的文化旅游资源。文章基于扎根理论,借助软件对紫阳街的网络评价进行网络文本词频分析和情感分析,深入梳理临海紫阳街开发过程中面临的优势与不足,进而提出了如何充分发挥临海紫阳街独特的优势,实现旅游功能、产业功能和城市功能有机联动的具体建议。 展开更多
关键词 历史文化街区 网评文本分析 扎根理论 紫阳街
下载PDF
文字元素块面化样式在平面广告设计中的应用价值与应用策略
3
作者 周小青 郭艳 《湖南包装》 2023年第6期98-100,113,共4页
以视知觉形式动力理论为依据,从广告设计三大要素中的文字元素切入,针对文字元素块面化样式在平面广告设计中的应用价值与应用策略展开论述,深入设计层面探寻文字元素块面化样式的优势、作用及应用方法。文中精选了世界现代平面设计大... 以视知觉形式动力理论为依据,从广告设计三大要素中的文字元素切入,针对文字元素块面化样式在平面广告设计中的应用价值与应用策略展开论述,深入设计层面探寻文字元素块面化样式的优势、作用及应用方法。文中精选了世界现代平面设计大师的多件广告作品加以剖析,并选取了作者在课堂教学中的数件学生习作加以论证观点,从广告版面设计的整体性与平衡性的设计实践出发,归纳总结出文字元素块面化样式在现代平面广告设计中的应用价值与应用经验。 展开更多
关键词 平面广告 广告设计 文字元素 块面化
下载PDF
基于多层注意力机制的图文双模态情感分析 被引量:2
4
作者 周婷 杨长春 《计算机工程与设计》 北大核心 2023年第6期1853-1859,共7页
针对在图文双模态情感分析任务中,容易忽略通道信息,造成关键信息遗漏以及特征融合不充分、不考虑各模态权重的问题,提出一种基于多层注意力机制的图文双模态情感分析模型(multi-level attention mechanism fusion,MAMF)。使用BERT模型... 针对在图文双模态情感分析任务中,容易忽略通道信息,造成关键信息遗漏以及特征融合不充分、不考虑各模态权重的问题,提出一种基于多层注意力机制的图文双模态情感分析模型(multi-level attention mechanism fusion,MAMF)。使用BERT模型和双向长短时记忆网络结合的方式获得文本特征;在图片特征抽取中,引入卷积注意力模块(convolutional block attention module,CBAM)生成视觉注意特征;利用视觉引导的文本注意力和文本引导的视觉注意力重构特征向量,在特征融合中使用注意力机制对不同模态加权以区别其影响,最后输出进行分类。在多模态情感数据集MVSA上的实验验证了模型的有效性。 展开更多
关键词 图文情感分析 深度学习 卷积神经网络 卷积注意力模块 注意力机制 模态融合 多模态识别
下载PDF
基于注意力机制的接线端子文本检测与识别
5
作者 黄辉 吴建强 +5 位作者 肖豪 梁志龙 王家浩 谭晓茵 孙梦雪 舒展 《机电工程技术》 2023年第6期202-206,共5页
针对当下变电站二次保护屏柜电缆接线仍采用传统人工验收方式,存在效率低、容易漏检、错检等问题,提出一种基于注意力机制的接线端子文本检测与识别方法。在文本检测阶段,针对接线端子弯曲倾斜、排列密集等问题,提出一种改进DBNet方法... 针对当下变电站二次保护屏柜电缆接线仍采用传统人工验收方式,存在效率低、容易漏检、错检等问题,提出一种基于注意力机制的接线端子文本检测与识别方法。在文本检测阶段,针对接线端子弯曲倾斜、排列密集等问题,提出一种改进DBNet方法。使用SwinTransformer提取图像基础特征,搭建特征金字塔网络,提取并融合多尺度的图像特征,输出连接SEblock,增强重要特征权重,使检测框定位更加精准。在文本识别阶段,提出一种改进CRNN方法,使用ResNet提取特征,并在残差模块中加入SEblock,强化重要通道特征,进一步提升识别准确率。在检测和识别数据集上分别进行验证,结果表明:在检测数据集中,改进DBNet的精准率为95.6%,召回率为82.9%,调和平均数达到88.8%;在识别数据集中,改进CRNN方法的字符识别准确率达到87.2%。 展开更多
关键词 注意力机制 文本检测 文本识别 接线端子 SwinTransformer
下载PDF
基于OCR的标书文件信息获取技术应用研究 被引量:1
6
作者 芦琦 刘洋 +2 位作者 秦辉 程文明 唐明霞 《信息与电脑》 2023年第9期166-169,共4页
电子评标过程中,由于目前的辅助招评标系统在智能化程度方面有所欠缺,在评标效率、准确率等方面仍有提升进步的区间。例如,在获取招投标文件图片信息中,现有的辅助招评标系统识别效果较差。为解决现有问题,提出了一种通过使用光学字符识... 电子评标过程中,由于目前的辅助招评标系统在智能化程度方面有所欠缺,在评标效率、准确率等方面仍有提升进步的区间。例如,在获取招投标文件图片信息中,现有的辅助招评标系统识别效果较差。为解决现有问题,提出了一种通过使用光学字符识别(Optical Character Recognition,OCR)技术获取招投标文件内容,并对上传图片进行灰度值、图像预处理。该方法可大幅度增强系统智能辅助招评标功能,使用公章检测算法判断招投标文件中公章使用情况,划分标书文字块,从而缩短评标时间,减轻评审标书的工作强度,解决了评标过程中的评审不公正、评标效率低等问题,使招投标项目的评标更加公平、公正、公开。 展开更多
关键词 光学字符识别(OCR)技术 文字分割 二值化 辅助招评标 公章检测算法 文字块 缩短评标时间 减轻评审工作强度
下载PDF
Web页面清洗技术的研究与实现 被引量:20
7
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 WEB页面 清洗技术 文本块 链接块 DOM 解析器 Internet 信息检索
下载PDF
基于隐马尔可夫模型的文本信息抽取 被引量:51
8
作者 刘云中 林亚平 陈治平 《系统仿真学报》 CAS CSCD 2004年第3期507-510,共4页
文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐... 文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐马尔可夫模型进行文本信息抽取。仿真结果表明,新的算法在精确度和召回率方面有明显的提高。 展开更多
关键词 隐马尔可夫模型 信息抽取 文本分块 机器学习
下载PDF
基于文本块密度和标签路径覆盖率的网页正文抽取 被引量:5
9
作者 刘鹏程 胡骏 吴共庆 《计算机应用研究》 CSCD 北大核心 2018年第6期1645-1650,共6页
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征... 大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。 展开更多
关键词 正文抽取 文本块密度 标签路径覆盖率 特征融合
下载PDF
基于特征和隐马尔可夫模型的文本信息抽取 被引量:3
10
作者 常军林 吴笑伟 +1 位作者 吴芬芬 刘磊 《河南科技大学学报(自然科学版)》 CAS 2008年第2期55-57,70,共4页
基于文本分块提出一种新的文本信息抽取技术,该技术利用文本的语义特征和结构特征,抽取具有特征的状态,以此结果为基础,进一步运用改进的隐马尔可夫模型,抽取剩余的无特征状态。对美国CMU大学CORA搜索引擎研制组提供的数据集中的100篇... 基于文本分块提出一种新的文本信息抽取技术,该技术利用文本的语义特征和结构特征,抽取具有特征的状态,以此结果为基础,进一步运用改进的隐马尔可夫模型,抽取剩余的无特征状态。对美国CMU大学CORA搜索引擎研制组提供的数据集中的100篇进行测试,结果显示精确度和召回率比基于单词和传统隐马尔可夫模型的方法都有所提高,并进一步提高了效率。 展开更多
关键词 文本分块 特征提取 隐马尔可夫模型
下载PDF
一种启发式的信息抽取算法 被引量:3
11
作者 吴芬芬 刘磊 肖宪 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2007年第1期73-76,共4页
提出一种启发式的信息抽取算法,并利用该算法建立一个信息抽取系统.该系统基于文本分块,利用文本的语义特征和结构特征,抽取具有特征的状态,在此基础上,利用反向动态规划和正向A*算法,抽取剩余的无特征状态.通过对100篇论文头部进行测... 提出一种启发式的信息抽取算法,并利用该算法建立一个信息抽取系统.该系统基于文本分块,利用文本的语义特征和结构特征,抽取具有特征的状态,在此基础上,利用反向动态规划和正向A*算法,抽取剩余的无特征状态.通过对100篇论文头部进行测试的结果表明,精确度和召回率比基于单词和传统Viterbi算法的方法均有所提高,启发式算法的性能优于Viterbi算法. 展开更多
关键词 启发式算法 文本分块 A^*算法
下载PDF
中文搜索引擎分块倒排索引存储模式 被引量:10
12
作者 马健 张太红 陈燕红 《计算机应用》 CSCD 北大核心 2013年第7期2031-2036,共6页
针对开源搜索引擎ASPSeek中的倒排索引的内部结构和访问模式,抽象出了倒排索引的形式化定义。为解决ASPSeek倒排索引更新困难和直接采用操作系统文件缓冲访问机制带来的效率问题,以125万张中文农业网页为样本,结合其特点,提出了一种块... 针对开源搜索引擎ASPSeek中的倒排索引的内部结构和访问模式,抽象出了倒排索引的形式化定义。为解决ASPSeek倒排索引更新困难和直接采用操作系统文件缓冲访问机制带来的效率问题,以125万张中文农业网页为样本,结合其特点,提出了一种块大小可变的分块倒排索引存储模式和基于CLOCK替代策略的专用缓冲管理机制。实验结果表明在禁用和启用缓冲的情况下,分块访问模式检索效率都优于ASPSeek。在启用缓冲并使用16万中文词条或5万高频中文词条作为测试集合的条件下,分块存储模式在访问倒排索引100万次后的检索时间趋于常量,即使以全部的827309个词条作为测试集合的条件下,分块存储模式在访问倒排索引200万次后的检索时间趋于收敛。 展开更多
关键词 倒排索引 搜索引擎 全文检索 分块结构 检索效率
下载PDF
基于文本分块的多模板隐马尔可夫模型的文本信息抽取 被引量:4
13
作者 王雷 陈治平 李志成 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期25-28,共4页
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法.新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模... 针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法.新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取.实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能. 展开更多
关键词 文本信息抽取 隐马尔可夫模型 多模板 文本分块
下载PDF
一种基于启发式搜索的论文元数据提取算法 被引量:1
14
作者 张付志 侯娜 +1 位作者 刘慧 马玉静 《计算机应用与软件》 CSCD 2009年第9期86-88,94,共4页
随着大量的科研论文以电子文档的形式出现,为了高效地检索这些科研文献资料,从中精确地抽取这些论文头部的元数据信息显得十分有必要。在条件随机场模型的基础上,提出了一种启发式搜索算法来对论文头部的元数据信息进行提取。该算法首... 随着大量的科研论文以电子文档的形式出现,为了高效地检索这些科研文献资料,从中精确地抽取这些论文头部的元数据信息显得十分有必要。在条件随机场模型的基础上,提出了一种启发式搜索算法来对论文头部的元数据信息进行提取。该算法首先利用文本分块技术和特征提取规则来对文本进行预处理,然后结合条件随机场概率模型利用启发式搜索来进行元数据的提取。实验结果表明,在相同概率模型的基础上,该算法有着较好的性能,在精确度和召回率方面都有了明显的提高。 展开更多
关键词 信息提取 元数据提取 条件随机场 文本分块 启发式搜索
下载PDF
基于汉字结构知识的鲁棒性公开文本水印 被引量:4
15
作者 周新民 孙星明 刘超 《计算机工程与应用》 CSCD 北大核心 2006年第8期165-167,169,共4页
针对中文文本存在的版权保护问题,文章提出了一种新的文本水印算法。该方法通过汉字数学表达式,获取汉字的结构类型和笔画数,利用汉字的结构类型将整个文档分成两块,在各块中由汉字笔画数和水印比特位共同确定水印加载的位置,通过设置... 针对中文文本存在的版权保护问题,文章提出了一种新的文本水印算法。该方法通过汉字数学表达式,获取汉字的结构类型和笔画数,利用汉字的结构类型将整个文档分成两块,在各块中由汉字笔画数和水印比特位共同确定水印加载的位置,通过设置字体下划线以嵌入水印。水印提取时不需要原始文档和原始水印,通过块校验和海明校验可将破坏的水印比特位进行恢复。实验结果表明该算法具有较好的透明性和鲁棒性。 展开更多
关键词 文本水印 汉字结构知识 海明校验 文本分块 版权保护
下载PDF
中文文本数字水印算法的研究 被引量:2
16
作者 何岸 胡伟刚 《中南林业科技大学学报》 CAS CSCD 北大核心 2011年第8期204-210,共7页
为了提高水印的鲁棒性,适应文本完整性检测的需求,很多文献提倡多组水印的冗余嵌入方法,这涉及到文本分块问题。根据中文汉字的结构,研究并提出了一种中文文本分块设计方法以及水印嵌入算法。该方法具有明显的中文文字特色,能有效提高... 为了提高水印的鲁棒性,适应文本完整性检测的需求,很多文献提倡多组水印的冗余嵌入方法,这涉及到文本分块问题。根据中文汉字的结构,研究并提出了一种中文文本分块设计方法以及水印嵌入算法。该方法具有明显的中文文字特色,能有效提高水印的鲁棒性,提高受攻击后水印的恢复能力。 展开更多
关键词 文本分块 汉字结构 鲁棒性
下载PDF
基于网页分块的正文信息提取方法 被引量:13
17
作者 黄玲 陈龙 《计算机应用》 CSCD 北大核心 2008年第S2期326-328,共3页
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中... 网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。 展开更多
关键词 WEB信息抽取 主题内容块 网页正文信息
下载PDF
基于朴素贝叶斯Web新闻内容的抽取方法 被引量:4
18
作者 罗永莲 赵昌垣 +1 位作者 贾玉芳 芦彩林 《计算机与现代化》 2016年第1期59-63,68,共6页
针对网页信息自动抽取问题,提出一种将网页按标记分块并根据朴素贝叶斯理论从中识别新闻正文的方法。该方法将各分块的标记信息、文本相似度以及字长特征作为机器学习的特征属性。为提高标记属性的表征作用,减少相关标记之间的干扰,算... 针对网页信息自动抽取问题,提出一种将网页按标记分块并根据朴素贝叶斯理论从中识别新闻正文的方法。该方法将各分块的标记信息、文本相似度以及字长特征作为机器学习的特征属性。为提高标记属性的表征作用,减少相关标记之间的干扰,算法采用χ2检验法来检验标记属性之间以及标记属性与类别之间的相关性并实现属性约减。新闻正文抽取过程中同时考虑正文与非正文分块的后验概率,以提高抽取准确率。实验结果表明,选取适当的参数值,抽取新闻正文的准确率达到85%。 展开更多
关键词 朴素贝叶斯 新闻网页 网页分块 正文抽取 相关性检验
下载PDF
基于CURE算法的网页分块及正文块提取研究 被引量:1
19
作者 王超 徐杰锋 《微型机与应用》 2012年第12期11-14,共4页
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信... 研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。 展开更多
关键词 WEB信息抽取 聚类算法 页面分块 正文块提取
下载PDF
一种结合压缩激发块和CNN的文本分类模型 被引量:4
20
作者 陶永才 刘亚培 +3 位作者 马建红 李琳娜 石磊 卫琳 《小型微型计算机系统》 CSCD 北大核心 2020年第9期1925-1929,共5页
针对单一卷积神经网络进行文本分类,容易出现忽视局部与整体之间关联性的问题,本文构建了一种基于压缩激发块的卷积神经网络文本分类模型,提高文本分类的精确度.主要工作分为三部分:1)使用字符级词向量作为卷积神经网络的输入;2)引入压... 针对单一卷积神经网络进行文本分类,容易出现忽视局部与整体之间关联性的问题,本文构建了一种基于压缩激发块的卷积神经网络文本分类模型,提高文本分类的精确度.主要工作分为三部分:1)使用字符级词向量作为卷积神经网络的输入;2)引入压缩-激发块学习使用全局信息,有选择地强调有用的特征,来增加提取特征的多样性,弥补单一卷积神经网络多样性的不足;3)使用多头注意力机制进行权重更新计算,突出类别向量的重要程度.实验结果显示,本文提出的文本分类模型,在THUCNews数据集和搜狐数据集上,比单一的字符级卷积神经网络模型精确度分别提高了2.29%、4.75%. 展开更多
关键词 字符级 压缩—激发块 多头注意力机制 文本分类
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部