期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于对比优化的多输入融合拼写纠错模型
1
作者 伍瑶瑶 黄瑞章 +2 位作者 白瑞娜 曹军航 赵建辉 《模式识别与人工智能》 EI CSCD 北大核心 2024年第1期85-94,共10页
文本编辑工作中,中文拼写纠错必不可少.现有中文拼写纠错模型大多为单输入模型,语义信息和纠错结果存在局限性.因此,文中提出基于对比优化的多输入融合拼写纠错模型,包含多输入语义学习阶段和对比学习驱动的语义融合纠错阶段.第一阶段... 文本编辑工作中,中文拼写纠错必不可少.现有中文拼写纠错模型大多为单输入模型,语义信息和纠错结果存在局限性.因此,文中提出基于对比优化的多输入融合拼写纠错模型,包含多输入语义学习阶段和对比学习驱动的语义融合纠错阶段.第一阶段集成多个单模型的初步纠错结果,为语义融合提供充分的互补语义信息.第二阶段基于对比学习方法优化多个互补的句子语义,避免模型过度纠正句子,同时融合多个互补语义对错误句子进行再纠错,改善模型纠错结果的局限性.在SIGHAN13、SIGHAN14、SIGHAN15数据集上的实验表明文中方法可有效提升纠错性能. 展开更多
关键词 中文拼写纠错 多输入语义学习 互补语义融合 对比学习优化
下载PDF
基于语音信号的跨语种交互翻译机器人语义纠错方法
2
作者 付曼 《信息与电脑》 2024年第5期31-33,共3页
传统的跨语种交互翻译机器人语义纠错方法通常是单向的,效率较低,导致识别错误率较高。为此,文章提出基于语音信号的跨语种交互翻译机器人语义纠错方法。在基础语音识别的基础上,通过交互标定和特征提取来修正语义错误位置,并设计语音... 传统的跨语种交互翻译机器人语义纠错方法通常是单向的,效率较低,导致识别错误率较高。为此,文章提出基于语音信号的跨语种交互翻译机器人语义纠错方法。在基础语音识别的基础上,通过交互标定和特征提取来修正语义错误位置,并设计语音信号翻译机器人的语义纠错模型,采用随时间反向传播(Backpropagation Through Time,BPTT)循环训练核验方式,以确保纠错的准确性。测试结果显示,经过3个阶段测试,选定的5段语音材料的纠错识别率成功控制在10%以下,表明基于语音信号的跨语种交互翻译机器人语义纠错方法高效,具有实际应用价值。 展开更多
关键词 语音信号 跨语种交互 交互翻译 机器人语义 语义纠错 纠错方法
下载PDF
基于MacBERT⁃BiLSTM和注意力机制的短文本分类研究 被引量:1
3
作者 王道康 张吴波 《现代电子技术》 2023年第21期123-128,共6页
针对中文短文本上下文依赖性强,特征信息难以提取的问题,提出一种融合MacBERT、双向长短期记忆神经网络(BiLSTM)、注意力(Attention)机制的短文本分类模型方法。利用预训练模型MacBERT得到动态词向量,输入BiLSTM模型中提取上下文关系特... 针对中文短文本上下文依赖性强,特征信息难以提取的问题,提出一种融合MacBERT、双向长短期记忆神经网络(BiLSTM)、注意力(Attention)机制的短文本分类模型方法。利用预训练模型MacBERT得到动态词向量,输入BiLSTM模型中提取上下文关系特征。结合注意力机制分配不同的权重值,最后使用Softmax分类器得到分类结果。研究表明,该模型在THUCNews数据集上F1值达到了95.63%,相较于基准模型BERT提高了2.18%,验证了其在短文本分类任务中的可行性和有效性。 展开更多
关键词 短文本 文本分类 MacBERT BiLSTM ATTENTION 纠错掩码 特征加权 语义向量
下载PDF
基于错误纠正模块的场景文本识别算法
4
作者 于洁潇 张大壮 何凯 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2023年第4期400-407,共8页
近年来,场景文本识别技术得到了飞速发展.然而,由于不规则场景文本图像中经常存在诸如杂物遮挡、分布扭曲、光照不足等视觉障碍,使得现有方法不能对单词中某些字符进行准确识别,进而产生较多的错误识别.为了解决这一问题,本文提出了一... 近年来,场景文本识别技术得到了飞速发展.然而,由于不规则场景文本图像中经常存在诸如杂物遮挡、分布扭曲、光照不足等视觉障碍,使得现有方法不能对单词中某些字符进行准确识别,进而产生较多的错误识别.为了解决这一问题,本文提出了一种基于错误纠正(error correction,EC)模块的场景文本识别算法.与现有算法中的纠错模块不同,所提出的EC模块是一个序列到序列的预测模型.在EC模块的编解码结构中增加了多单元注意力机制,能够更加关注特征图中的一些重要信息.EC模块可直接从纯文本中学习语义信息,用于纠正拼写错误的文本.此外,提出了一种基于场景文本识别的多特征(multi-feature,MF)提取器,该提取器由5个MF单元组成,可分别从Resnet-45后5个模块的输出中提取特征信息.与传统的方法相比,MF提取器可以从不同深度挖掘更加丰富的图像信息.在7个数据集上的对比实验结果表明,与当前先进方法相比,所提算法在性能上具有明显的优势. 展开更多
关键词 场景文本识别 语义信息纠错 多特征提取 深度学习
下载PDF
扩展三值纠一检二码原理与设计 被引量:2
5
作者 沈云付 潘磊 《电子学报》 EI CAS CSCD 北大核心 2013年第8期1615-1621,共7页
本文在三值汉明码一位检错纠错研究工作的基础上,对三值汉明码的检错纠错方法进行进一步研究.给出了扩展三值汉明码的形式,通过对扩展三值汉明码的错误分析获得了一位纠错和二位检错原理,给出了扩展三值汉明码的纠错码表,根据纠错码表... 本文在三值汉明码一位检错纠错研究工作的基础上,对三值汉明码的检错纠错方法进行进一步研究.给出了扩展三值汉明码的形式,通过对扩展三值汉明码的错误分析获得了一位纠错和二位检错原理,给出了扩展三值汉明码的纠错码表,根据纠错码表提出了一位纠错方法,给出了基于三值光学计算机的扩展三值汉明码检错纠错概念结构图和功能部件,为检错纠错系统的光学设计提供一种途径. 展开更多
关键词 三值光学计算机(TOC) 三值扩展汉明码 纠一检二码 纠错码表
下载PDF
一种基于语义分析的汉语语音识别纠错方法 被引量:2
6
作者 韦向峰 张全 熊亮 《计算机科学》 CSCD 北大核心 2006年第10期152-155,共4页
汉语语音识别的研究越来越重视与语言处理的结合,语音识别已经不是单纯的语音信号处理。N-gram语言模型应用到语音识别系统中,大大增强了系统的正确率和稳定性,但它也有其自身的局限性,使得语音识别出现许多语法和语义的错误结果。本文... 汉语语音识别的研究越来越重视与语言处理的结合,语音识别已经不是单纯的语音信号处理。N-gram语言模型应用到语音识别系统中,大大增强了系统的正确率和稳定性,但它也有其自身的局限性,使得语音识别出现许多语法和语义的错误结果。本文分析了语音识别产生语音和文字方面的错误的原因和类型,在概念层次网络语言模型的基础上提出了一种基于语句语义分析和混淆音矩阵的语音识别纠错方法。通过三个发音人、5万字的声音语料和216句实验语句的纠错测试,本文的纠错系统在纠正语义搭配型错误方面有比较好的表现,可克服N-gram语言模型带来的一些缺陷。本文提出的纠错方法还可以融合到语音识别系统中,以便更好地为语音识别的纠错处理服务。 展开更多
关键词 语音识别 纠错 语义分析 语言模型 概念层次网络
下载PDF
中文常见医疗问题命名实体识别研究
7
作者 赵瑛 任燕春 +1 位作者 王铁 许丹彤 《现代电子技术》 2022年第16期121-126,共6页
为了达到提高中文常见医疗问题命名实体识别的效果,并为医疗领域知识图谱及其知识搜索奠定基础的目的,文中借助BiLSTM⁃CRF模型在解决序列问题时的优越性和BERT模型的强大表义能力,将BERT集成到BiLSTM⁃CRF中组成BERT⁃BiLSTM⁃CRF模型。该... 为了达到提高中文常见医疗问题命名实体识别的效果,并为医疗领域知识图谱及其知识搜索奠定基础的目的,文中借助BiLSTM⁃CRF模型在解决序列问题时的优越性和BERT模型的强大表义能力,将BERT集成到BiLSTM⁃CRF中组成BERT⁃BiLSTM⁃CRF模型。该模型通过引入BERT提取文本全局特征和局部特征,从而生成表义更加丰富的字向量,同时还具备BiLSTM网络捕获上下文语义信息和CRF标注偏置纠错的能力。鉴于目前缺少该领域的标注语料,该研究采用人工方式构建标注语料库。实验结果表明:BERT⁃BiLSTM⁃CRF模型的医疗实体识别效果优于传统的BiLSTM⁃CRF模型;且该模型在基于BIOE标注方案下实体识别效果较好,F1值达到97%;从类别上看,疾病类、症状类、检查类F1值达到99%,药物类达到92%。总体而言,中文常见医疗问题在基于BERT⁃BiLSTM⁃CRF模型并采用BIOE标注方案下实体识别效果最好,其中疾病类、症状类、检查类的实体识别效果较好。 展开更多
关键词 中文常见医疗问题 命名实体识别 BERT⁃BiLSTM⁃CRF模型 特征提取 语义信息 标注偏置纠错
下载PDF
中文文本自动校对综述 被引量:1
8
作者 李云汉 施运梅 +1 位作者 李宁 田英爱 《中文信息学报》 CSCD 北大核心 2022年第9期1-18,27,共19页
文本校对在新闻发布、书刊出版、语音输入、汉字识别等领域有着极其重要的应用价值,是自然语言处理领域中的一个重要研究方向。该文对中文文本自动校对技术进行了系统性的梳理,将中文文本的错误类型分为拼写错误、语法错误和语义错误,... 文本校对在新闻发布、书刊出版、语音输入、汉字识别等领域有着极其重要的应用价值,是自然语言处理领域中的一个重要研究方向。该文对中文文本自动校对技术进行了系统性的梳理,将中文文本的错误类型分为拼写错误、语法错误和语义错误,并对这三类错误的校对方法进行了梳理,对中文文本自动校对的数据集和评价方法进行了总结,最后展望了中文文本自动校对技术的未来发展。 展开更多
关键词 自动校对 拼写错误 语法错误 语义错误 数据集 评估指标
下载PDF
基于上下文语义的新闻人名纠错方法 被引量:1
9
作者 杨越 黄瑞章 +2 位作者 魏琴 陈艳平 秦永彬 《电子科技大学学报》 EI CAS CSCD 北大核心 2019年第6期809-814,共6页
新闻文本中的人名纠错存在以下难点:1)人名中含有错误字段会影响甚至改变文本语义表达,故无法用传统命名实体识别方法识别句中人名;2)人名字段的特殊性极易产生重名或者歧义,使得误报率增加,并提升了人名纠错的难度.为此,本文提出了一... 新闻文本中的人名纠错存在以下难点:1)人名中含有错误字段会影响甚至改变文本语义表达,故无法用传统命名实体识别方法识别句中人名;2)人名字段的特殊性极易产生重名或者歧义,使得误报率增加,并提升了人名纠错的难度.为此,本文提出了一种基于上下文语义的新闻人名纠错方法.该方法使用卷积神经网络提取文本语义信息,并使用词激活力模型计算文本中其他词语与人名字段的关联程度来捕捉并使用文本上下文语义信息.同时,针对文本中人名字段中含有错误而导致的识别效果低下的问题,使用人名实体边界识别算法提高对文本中疑似含有错误人名的识别提取效果.实验结果表明,该方法能够有效地识别文本中的人名并对其中的错误内容进行纠正. 展开更多
关键词 边界识别 上下语义 命名实体识别 人名纠错
下载PDF
基于自然语言处理的纠错系统架构设计 被引量:3
10
作者 周原 《太原师范学院学报(自然科学版)》 2022年第3期37-41,46,共6页
为提升文本纠错效果,本文研究了一种基于自然语言处理的纠错系统架构.通过建立语言知识库,描述自然语言的上下位关系、同义反义关系等;制定语句合成规则,构建二元句法和三元句法规则集;通过语言分析及文字错误识别功能设计,判断句子中... 为提升文本纠错效果,本文研究了一种基于自然语言处理的纠错系统架构.通过建立语言知识库,描述自然语言的上下位关系、同义反义关系等;制定语句合成规则,构建二元句法和三元句法规则集;通过语言分析及文字错误识别功能设计,判断句子中的用词规范性,排查句子中可能存在错误的汉字串;基于自然语言处理构建纠错模型,输入文本,输出概率最大的候选串与原文相结合,得出正确的句子,完成纠错.实验结果证明,应用本文纠错系统架构后,文本错误召回率和正确率均在95.00%以上,对同音词纠错的纠正率为95.76%,长词纠错的纠正率为90.03%,证明本文设计的纠错系统架构具有一定应用价值. 展开更多
关键词 自然语言处理 纠错系统 系统架构 知识库构建 句法规则 语义分析
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部