期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
汉字三字节编码的探讨——DGS—200上的一种实现方案
1
作者 石教英 黄剑锋 +1 位作者 刘炼材 田洪亮 《小型微型计算机系统》 CSCD 北大核心 1991年第1期56-60,共5页
本文在对汉字编码及大系统的汉化问题进行探讨的基础上,提出了一个新的三字节汉字编码方案,解决了3字节编码的二义性、兼容性问题.最后介绍了它在DGS—200终端上的具体实现.
关键词 汉字 编码 计算机 字节编码
下载PDF
基于预训练与音素字节对编码的越南语识别 被引量:1
2
作者 沈之杰 郭武 《数据采集与处理》 CSCD 北大核心 2023年第1期101-110,共10页
基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC... 基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。 展开更多
关键词 低资源语音识别 建模单元 字节编码 音素子词 预训练 越南语识别
下载PDF
基于改进字节对编码的汉藏机器翻译研究 被引量:12
3
作者 头旦才让 仁青东主 +2 位作者 尼玛扎西 于永斌 邓权芯 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期249-255,293,共8页
该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型。通过测试和验证,模型的BLEU值达到36.8... 该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型。通过测试和验证,模型的BLEU值达到36.84。该模型的命名实体翻译效果优于已商用汉藏在线翻译系统。同时,该文的神经机器翻译模型已部署于汉藏机器翻译网站,实现了汉藏神经机器翻译系统的应用推广。 展开更多
关键词 注意力机制 字节编码 汉藏神经机器翻译 命名实体识别
下载PDF
基于图卷积编码器的蒙汉神经机器翻译
4
作者 薛媛 苏依拉 +2 位作者 仁庆道尔吉 石宝 李雷孝 《计算机应用与软件》 北大核心 2023年第10期70-75,89,共7页
基于神经网络模型的蒙汉机器翻译严格采用编码器-解码器的序列建模方式,不能有效利用句法信息以及语言的层次结构信息。为将句法结构信息融入蒙汉机器翻译以提高其翻译性能,提出在源语言端采用双编码器,同时对源句和由源句解析而来的句... 基于神经网络模型的蒙汉机器翻译严格采用编码器-解码器的序列建模方式,不能有效利用句法信息以及语言的层次结构信息。为将句法结构信息融入蒙汉机器翻译以提高其翻译性能,提出在源语言端采用双编码器,同时对源句和由源句解析而来的句法依存树进行编码;由于蒙汉机器翻译中经常会出现未登录词问题,因此将使用字节对编码技术预处理蒙古语。为解决机器翻译中的过度矫正问题,在训练阶段,模型以一定的概率从正确标注的序列中和预测生成的序列中采样上下文单词。在120万蒙汉平行语料的实验中证明,该方法相较于传统的BiRNN和CNN,BLEU值分别提高了2.69和2.09。 展开更多
关键词 依存句法树 图卷积编码 字节编码 蒙汉机器翻译
下载PDF
基于带阈值的BPE-dropout多任务学习的端到端语音识别
5
作者 马建 朵琳 +1 位作者 韦贵香 唐剑 《吉林大学学报(理学版)》 CAS 北大核心 2024年第3期674-682,共9页
针对语音识别任务中出现的未登录词问题,提出一种带阈值的BPE-dropout多任务学习语音识别方法.该方法采用带随机性的字节对编码算法,在形成子词时引入带字数阈值的策略,将子词作为建模单元,编码器部分采用Conformer结构,与链接时序分类... 针对语音识别任务中出现的未登录词问题,提出一种带阈值的BPE-dropout多任务学习语音识别方法.该方法采用带随机性的字节对编码算法,在形成子词时引入带字数阈值的策略,将子词作为建模单元,编码器部分采用Conformer结构,与链接时序分类和注意力机制相结合.为进一步提升模型性能,引入动态参数对损失函数进行动态调节,并同时进行多任务训练和解码.实验结果表明,该方法采用子词作为建模单元可有效解决未登录词问题,在多任务学习框架下进一步提升了模型的识别性能.在公开数据集THCHS30和ST-CMDS上,该模型实现了超过95%的识别准确率. 展开更多
关键词 语音识别 多任务学习 字节编码 动态调节参数
下载PDF
位置结构导向的多模态代码摘要生成方法
6
作者 张学君 侯霞 《北京信息科技大学学报(自然科学版)》 2024年第2期43-49,共7页
针对软件维护中的自动代码摘要任务,提出了一种创新的模型,旨在解决现有方法在保留源代码语义结构信息方面的不足。该模型采用图神经网络和Transformer技术,以更全面地捕捉代码的语义信息和结构信息。此外,采用字节对编码算法来处理未... 针对软件维护中的自动代码摘要任务,提出了一种创新的模型,旨在解决现有方法在保留源代码语义结构信息方面的不足。该模型采用图神经网络和Transformer技术,以更全面地捕捉代码的语义信息和结构信息。此外,采用字节对编码算法来处理未登录词问题,并通过四元组的形式保留抽象语法树的结构信息。这样的组合使得模型在处理源代码时不仅能够全面地捕捉代码的语义特征,还能够准确地学习到代码的语法结构。在真实Java数据集上的实验结果表明,该模型在BLEU、METEOR和ROUGE指标上均优于基线模型,从而验证了其在生成更准确代码摘要方面的有效性。 展开更多
关键词 自动代码摘要 字节编码 抽象语法树 TRANSFORMER
下载PDF
彩虹单字节汉字系统问世
7
《电子出版》 1995年第10期7-7,共1页
彩虹单字节汉字系统问世〔本刊讯〕彩虹单字节汉字系统在BIEP’95北京国际电子出版系统展览会上首次亮相,该系统是继尖端字库后在Windows平台上推出的又一种单字节汉字系统。字形以国内常用的简体汉字为主,每种字体均有... 彩虹单字节汉字系统问世〔本刊讯〕彩虹单字节汉字系统在BIEP’95北京国际电子出版系统展览会上首次亮相,该系统是继尖端字库后在Windows平台上推出的又一种单字节汉字系统。字形以国内常用的简体汉字为主,每种字体均有TrueType和PostScri... 展开更多
关键词 汉字系统 字节 动态字库 动态文档 简体汉字 字节编码 彩色印前系统 电子出版系统 文档转换 字体文件
下载PDF
基于OTA技术实现USIM卡动态更新菜单 被引量:2
8
作者 周允强 李代平 +2 位作者 刘志武 周林 郑汉的 《微计算机信息》 2010年第3期140-142,共3页
3G网络下的USIM卡利用OTA技术,让OTA服务器以数据短消息的形式将相应的OTA下载数据透明地传送给卡,对卡内的数据与菜单进行更新。在USIM卡COS(卡片操作系统)基础上,提出一个三层应用结构模型,阐述了业务菜单数据在卡内如何组织形成并且... 3G网络下的USIM卡利用OTA技术,让OTA服务器以数据短消息的形式将相应的OTA下载数据透明地传送给卡,对卡内的数据与菜单进行更新。在USIM卡COS(卡片操作系统)基础上,提出一个三层应用结构模型,阐述了业务菜单数据在卡内如何组织形成并且动态更新。对于菜单数据在COS中如何有效的存储和读取,自定义了一套以C语言实现的字节编码规则。该研究结果已经成功应用到卡的芯片中,有效解决USIM卡中的应用和服务主动与手机终端进行交互操作的问题。 展开更多
关键词 USIM卡 OTA技术 增值业务菜单 字节编码规则
下载PDF
JSP中文乱码问题及其解决方法 被引量:1
9
作者 史胜辉 《中国会计电算化》 2004年第10期58-60,共3页
关键词 JSP文件 字节编码语言 UNICODE编码 字节编码 JAVA语言
下载PDF
基于神经网络迁移学习的蒙汉机器翻译方法 被引量:6
10
作者 赵亚平 苏依拉 +1 位作者 牛向华 仁庆道尔吉 《计算机应用与软件》 北大核心 2020年第1期179-185,共7页
针对蒙汉神经机器翻译过程中出现严重未登录词的问题,利用字节编码技术对蒙汉平行语料进行预处理,实验结果表明字节对编码技术有效缓解了未登录词现象。同时,为缓解蒙汉平行语料不足问题,将迁移学习策略应用到在蒙汉神经机器翻译中,实... 针对蒙汉神经机器翻译过程中出现严重未登录词的问题,利用字节编码技术对蒙汉平行语料进行预处理,实验结果表明字节对编码技术有效缓解了未登录词现象。同时,为缓解蒙汉平行语料不足问题,将迁移学习策略应用到在蒙汉神经机器翻译中,实验结果表明最终的翻译译文提高了1.6个BLEU值。另外,考虑到在神经机器翻译模型中的双语词向量的质量对最终的翻译译文质量有较大影响,将基于Word2vec预训练得到的词向量嵌入到蒙汉神经机器翻译模型中,实验结果表明译文提升了0.6个BLEU值。 展开更多
关键词 机器翻译 神经网络 迁移学习 字节编码 未登录词
下载PDF
基于Transformer的AMR-to-Text生成 被引量:3
11
作者 朱杰 李军辉 《中文信息学报》 CSCD 北大核心 2020年第10期10-18,共9页
抽象语义表示到文本(AMR-to-Text)的生成任务是给定AMR图,生成相同意义表示的文本。可以把此任务当成一个从源端AMR图到目标端句子的翻译任务。然而,传统的序列到序列(seq2seq,S2S)方法使用循环递归网络进行编码,并不能很好地解决长距... 抽象语义表示到文本(AMR-to-Text)的生成任务是给定AMR图,生成相同意义表示的文本。可以把此任务当成一个从源端AMR图到目标端句子的翻译任务。然而,传统的序列到序列(seq2seq,S2S)方法使用循环递归网络进行编码,并不能很好地解决长距离依赖的问题。当前最好的性能是图到序列(graph2seq,G2S)的模型,使用了图模型直接对AMR图结构进行编码,但是,该方法对于非直接相连的节点依然会损失大量的结构信息。针对上述问题,基于seq2seq框架,该文提出了一种直接而有效的AMR-to-Text生成方法。在这项工作中,引入了当前最优的seq2seq模型Transformer作为基准模型,并且使用字节对编码(BPE)和共享词表的方法来联合处理未登录词(OOV)的问题。在现有的两份英文标准数据集上,实验结果都得到了显著的提升,达到了新的最高性能。 展开更多
关键词 AMR-to-Text生成 序列到序列模型 字节编码 共享词表 未登录词
下载PDF
端到端维吾尔语语音识别研究 被引量:2
12
作者 丁枫林 郭武 孙健 《小型微型计算机系统》 CSCD 北大核心 2020年第1期19-23,共5页
近几年来,基于端到端模型的语音识别系统因其相较于传统混合模型的结构简洁性和易于训练性而得到广泛的应用,并在汉语和英语等大语种上取得了显著的效果.本文将自注意力机制和链接时序分类损失代价函数相结合,将这种端到端模型应用到维... 近几年来,基于端到端模型的语音识别系统因其相较于传统混合模型的结构简洁性和易于训练性而得到广泛的应用,并在汉语和英语等大语种上取得了显著的效果.本文将自注意力机制和链接时序分类损失代价函数相结合,将这种端到端模型应用到维吾尔语语音识别上.考虑到维吾尔语属于典型的黏着语,其丰富的构词形式使得维吾尔语的词汇量异常庞大,本文引入字节对编码算法进行建模单元的生成,从而获得合适的端到端建模输出单元.在King-ASR450维吾尔语数据集上,提出的算法明显优于基于隐马尔可夫模型的经典混合系统和基于双向长短时记忆网络的端到端模型,最终识别词准确率为91.35%. 展开更多
关键词 语音识别 维吾尔语 端到端 自注意力 字节编码 链接时序分类
下载PDF
Linux中文化内幕
13
作者 张其刚 《开放系统世界》 2002年第1期53-55,共3页
Linux诞生之时,并没有考虑到诸如中文,日文,韩文等语种的用户。曾经在一段时间里,处理多字节编码(多字节编码会在后面介绍)的语言非常不方便。现在处理这些语系已经非常方便。作为中文用户,已经有诸多的中文Linux发行版本可供选... Linux诞生之时,并没有考虑到诸如中文,日文,韩文等语种的用户。曾经在一段时间里,处理多字节编码(多字节编码会在后面介绍)的语言非常不方便。现在处理这些语系已经非常方便。作为中文用户,已经有诸多的中文Linux发行版本可供选择,诸如Turbo Linux,BluePoint Linux,Xteam Linux,RedFlag Linux等。但是还是有许多读者使用国外的发行版本,使这些版本支持中文处理已经是非常容易的事情,在网上可以说轻松就可以找到关于这方面的文章,但是能做到知其然且知其所以然不是更好么? 展开更多
关键词 LINUX 操作系统 字节编码 文件名 计算机
下载PDF
基于BPE与自更新马尔科夫链的耳鸣康复音乐合成方法 被引量:1
14
作者 方一鸣 何培宇 +2 位作者 方安成 邓茗月 潘帆 《生物医学工程研究》 2022年第4期376-381,共6页
为弥补现有耳鸣治疗方法的模型复杂,且合成音乐具有较强拼接痕迹的问题,本研究基于字节对编码与自更新马尔科夫链提出一种新的音乐合成方法用于耳鸣治疗。首先,使用字节对编码将原始音乐主旋律声部的音符、和弦按照顺序分割成音乐块;最... 为弥补现有耳鸣治疗方法的模型复杂,且合成音乐具有较强拼接痕迹的问题,本研究基于字节对编码与自更新马尔科夫链提出一种新的音乐合成方法用于耳鸣治疗。首先,使用字节对编码将原始音乐主旋律声部的音符、和弦按照顺序分割成音乐块;最后将音乐块作为状态,利用自更新马尔科夫链生成无限长、不重复且与原始曲风相似的音乐。结果表明,该方法合成的音乐保留了原始音乐的特点,听感自然、无拼接痕迹且不完全重复。该方法对耳鸣治疗具有一定的参考价值。 展开更多
关键词 字节编码 自更新马尔科夫链 音乐块 音乐合成 耳鸣治疗 自相似
下载PDF
基于语种相似性挖掘的神经机器翻译语料库扩充方法
15
作者 李灿 杨雅婷 +1 位作者 马玉鹏 董瑞 《计算机应用》 CSCD 北大核心 2021年第11期3145-3150,共6页
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处... 针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。 展开更多
关键词 相似语种 语料扩充 机器翻译 字节编码 音节切分 基于音节切分的字节编码 “开始-中部-结束”序列标注方法
下载PDF
基于VOLT的藏汉双向机器翻译 被引量:3
16
作者 孙义栋 拥措 杨丹 《计算机与现代化》 2022年第5期28-32,39,共6页
藏汉词表的生成不仅是藏汉双向机器翻译任务开始的第一步,而且影响着藏汉双向翻译效果。本文通过改进生成藏汉词表来提升下游藏汉双向翻译性能。一方面从词表拼接入手,采用高频使用正常词表,低频使用字节对编码词表的思想,通过反复训练... 藏汉词表的生成不仅是藏汉双向机器翻译任务开始的第一步,而且影响着藏汉双向翻译效果。本文通过改进生成藏汉词表来提升下游藏汉双向翻译性能。一方面从词表拼接入手,采用高频使用正常词表,低频使用字节对编码词表的思想,通过反复训练找到最佳词频阈值;另一方面通过最优传输的词汇学习方法学习生成藏汉词表,并针对藏语本身语言特点进行改进后应用到藏汉双向翻译上。实验结果表明,本文针对藏文语言特点提出的字节对编码加最优传输的词汇学习方法效果最佳,在藏汉翻译任务上BLEU值达到37.35,汉藏翻译任务上BLEU值达到27.60。 展开更多
关键词 藏文词表 字节编码 藏汉双向翻译 VOLT
下载PDF
创艺跨平台中文字库
17
作者 徐征远 《桌面出版与设计》 1995年第6期36-39,共3页
一、TrueType字库 PostScript字库演变史 1985年Adobe公司发表PostScript语言和True Type 1格式字库附属在硬件上。Adobe公司取得ITC公司及Linotype公司的字库技术授权,并将这些字库放进第一部PostScript印字机的 ROM中。现在的电脑造... 一、TrueType字库 PostScript字库演变史 1985年Adobe公司发表PostScript语言和True Type 1格式字库附属在硬件上。Adobe公司取得ITC公司及Linotype公司的字库技术授权,并将这些字库放进第一部PostScript印字机的 ROM中。现在的电脑造字、建字库技术和工业化生产字体, 展开更多
关键词 TRUETYPE字库 POSTSCRIPT语言 应用软件 跨平台 动态字库 中文字库 字节 Adobe公司 字节编码 Windows
全文增补中
一种全数字式电磁搅拌器计算机控制系统
18
作者 钱新恩 高安生 程良鸿 《控制工程》 CSCD 2003年第z2期122-124,共3页
介绍了一种全数字式电磁搅拌器计算机控制系统,SPWM由SA866芯片产生,能对电流实现闭环调节;以内含式PLC为核心的工业控制计算机控制系统,控制多台电磁搅拌器;电流上位机和下位机采用双字节通信编码.
关键词 电磁搅拌 SA866 内含式PLC 字节通信编码
下载PDF
基于子词单元的深度学习摘要生成方法
19
作者 陈雪雯 《计算机应用与软件》 北大核心 2020年第3期202-208,共7页
现有的生成式文本摘要方法存在一些局限,包括难以产生可靠的源文本表示,产生的摘要句与源文本的语义相似度较低,存在集外词问题等。对此提出一种混合神经网络编码器结构,对源文本的长距依赖和上下文信息进行捕捉,得到高质量的文本表示;... 现有的生成式文本摘要方法存在一些局限,包括难以产生可靠的源文本表示,产生的摘要句与源文本的语义相似度较低,存在集外词问题等。对此提出一种混合神经网络编码器结构,对源文本的长距依赖和上下文信息进行捕捉,得到高质量的文本表示;提出一种基于关键短语的重排序机制,利用源文本中抽取的关键短语对集束搜索生成的候选序列进行重新排序,以减小其与源文本语义上的距离;对文本进行子词单元提取,利用更细粒度的单元对文本进行表示。该方法在不同长度的摘要数据集上进行实验,均取得了良好的效果。 展开更多
关键词 生成式文本摘要 字节编码 集束搜索 深度学习
下载PDF
基于柔性粒度的文本摘要自动化技术创新研究
20
作者 涂著刚 李正军 杨敏 《计算机科学与应用》 2021年第10期2546-2554,共9页
本文对使用序列到序列模型进行文本摘要时的方法进行研究,重点分析了集外词难以生成以及单词间联系缓慢两个不足产生的原因;结合字节对编码算法,提出了柔性粒度字节对编码算法FG-BPE。改进后的FG-BPE算法将完整单词分割为不相交的子词单... 本文对使用序列到序列模型进行文本摘要时的方法进行研究,重点分析了集外词难以生成以及单词间联系缓慢两个不足产生的原因;结合字节对编码算法,提出了柔性粒度字节对编码算法FG-BPE。改进后的FG-BPE算法将完整单词分割为不相交的子词单元,通过降低文本粒度大小解决缓解集外词难以生成的问题,通过子词单元二次分割实现单词之间联系的更好学习。关于Gigaword集的实验证明,与原始子词分割算法相比,FG-BPE实现了一元组、二元组及最长公共子串的共现召回率整体提升。 展开更多
关键词 文本摘要自动化 子词 字节编码 粒度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部