期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于网络的跨语言信息检索中OOV译文挖掘研究 被引量:2
1
作者 葛运东 梁颖红 +2 位作者 孙常龙 房璐 姚建民 《微电子学与计算机》 CSCD 北大核心 2009年第10期185-188,共4页
查询翻译是影响跨语言信息检索(CLIR)性能的关键因素之一.查询中未登录词(OOV)译文的挖掘对改进CLIR性能具有重要意义.利用主题词译文查询扩展方法从搜索引擎自动获取有效双语摘要资源;采用频度变化信息和邻接信息从双语摘要资源中抽取... 查询翻译是影响跨语言信息检索(CLIR)性能的关键因素之一.查询中未登录词(OOV)译文的挖掘对改进CLIR性能具有重要意义.利用主题词译文查询扩展方法从搜索引擎自动获取有效双语摘要资源;采用频度变化信息和邻接信息从双语摘要资源中抽取多词候选单元,并与常见的基于统计的多词单元抽取方法进行了比较.实验中译文挖掘方法取得了TOP 1包含率62.02%,TOP 10包含率95.35%的效果. 展开更多
关键词 跨语言信息检索 oov 查询翻译 多词单元抽取 译文挖掘
下载PDF
自动语音识别系统中的OOV快速拒识算法 被引量:2
2
作者 蔡铁 朱杰 《计算机工程》 EI CAS CSCD 北大核心 2005年第10期22-24,共3页
在自动语音识别系统的实际应用中,词表外(Out-of-Vocabulary,OOV)语音的检测与拒识非常重要。针对语音识别的实时性要求,提出了一种新的基于支持向量机的OOV快速拒识算法,并将其应用于基于DSP实现的孤立词语音识别系统中。实验结果表明... 在自动语音识别系统的实际应用中,词表外(Out-of-Vocabulary,OOV)语音的检测与拒识非常重要。针对语音识别的实时性要求,提出了一种新的基于支持向量机的OOV快速拒识算法,并将其应用于基于DSP实现的孤立词语音识别系统中。实验结果表明,该算法计算简单,实时性好,且效果显著,拒识率达80%以上。通过与传统神经网络方法的比较,证明该算法具有更好的性能和应用潜力。 展开更多
关键词 支持向量机 oov拒识 语音识别 神经网络
下载PDF
维汉人名翻译中不雅字或OOV的前处理研究 被引量:3
3
作者 阿里木·赛买提 沙丽瓦尔·阿里木 +4 位作者 吐尔根·依不拉音 段雪明 古丽尼格尔·阿不都外力 麦合甫热提 吾守尔·斯拉木 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第2期76-80,共5页
针对维汉人名数据集稀少且难以获取等问题,提出了从常规维汉句对数据中通过Fast align对齐方法结合NER方法抽取维汉人名数据的方法.针对维吾尔人名翻译后易出现集外词(OOV)问题或不雅字、不恰当译文表示的问题,通过对维汉人名数据中汉... 针对维汉人名数据集稀少且难以获取等问题,提出了从常规维汉句对数据中通过Fast align对齐方法结合NER方法抽取维汉人名数据的方法.针对维吾尔人名翻译后易出现集外词(OOV)问题或不雅字、不恰当译文表示的问题,通过对维汉人名数据中汉语部分训练1—4阶N-Gram语言模型,根据语言模型对该数据进行打分后筛选出best-2结果,并结合了维汉字符级端到端的神经网络人名翻译模型.通过实验可发现,结合本文提出的前处理方法后的维汉人名翻译模型效果是BLEU提升了0.95分,并且不雅字或不恰当表示问题也得到了明显的改善. 展开更多
关键词 机器翻译 oov 维汉人名 Fast align 字符级端到端的神经网络
下载PDF
维吾尔语语音识别语料库中的OOV研究 被引量:4
4
作者 张小燕 宿建军 +1 位作者 薛化建 王磊 《计算机工程与设计》 CSCD 北大核心 2012年第2期772-776,共5页
鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现。... 鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用控制语料库测试集OOV的算法及最佳文本挑选算法对不同OOV的测试集进行实验,算法通过Python语言实现。应用该算法进行电话语音库的文本转写,构建了维吾尔语的电话语音库。实验结果表明,该控制测试集OOV的方法能够有效地提高维吾尔语语音识别率。 展开更多
关键词 维吾尔语 集外词 语料库 文本挑选 语音识别
下载PDF
基于统计信息的未登录词的扩展识别方法 被引量:15
5
作者 韩艳 林煜熙 姚建民 《中文信息学报》 CSCD 北大核心 2009年第3期24-30,50,共8页
该文提出一种基于网络资源的未登录词的扩展识别方法。该方法以左右邻信息判断未登录词边界为基础对已识别出的二元候选未登录词种子进行扩展,从而得到不限长度的语义更完整的未登录词。实验证明该文方法可行有效。
关键词 计算机应用 中文信息处理 未登录词识别 左右邻信息 最频繁左邻比 最频繁右邻比 候选oov扩展
下载PDF
基于动态规划和流形排序的知识库问答未登录词处理
6
作者 何儒汉 万方名 +1 位作者 胡新荣 刘军平 《计算机应用与软件》 北大核心 2023年第10期64-69,100,共7页
为解决知识库问答中较多实体未被纳入到词库中以及新词层出不穷旧词库无法及时更新的问题,提出一种基于动态规划和流形排序的知识库问答模型DPQA来为未登录词选择最优表征,缓解知识库未登录词描述信息不足的问题。该方法通过动态规划获... 为解决知识库问答中较多实体未被纳入到词库中以及新词层出不穷旧词库无法及时更新的问题,提出一种基于动态规划和流形排序的知识库问答模型DPQA来为未登录词选择最优表征,缓解知识库未登录词描述信息不足的问题。该方法通过动态规划获取未登录词的子词序列;使用一种基于流形排序的子词排序方法得到最优子词;使用最优子词的向量表示未登录词。实验结果表明,基于动态规划的方法在多个数据集上的问答结果表现最佳。 展开更多
关键词 知识库问答 动态规划 未登录词 流形排序
下载PDF
基于平行语料库和网络的未登录词译文挖掘
7
作者 孙萌 梁颖红 +2 位作者 葛运东 颜振祥 姚建民 《江南大学学报(自然科学版)》 CAS 2010年第1期66-70,共5页
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元... 分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度-距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。 展开更多
关键词 oov翻译 网络挖掘 平行双语语料库构建
下载PDF
P-HB#:基于物理不可克隆函数的轻量级认证协议
8
作者 李艳 周清雷 邹伟 《小型微型计算机系统》 CSCD 北大核心 2015年第11期2545-2548,共4页
在分析HB#协议和OOV-MIM攻击的基础上,针对HB#协议的缺陷,基于物理不可克隆函数设计了P-HB#协议,并给出具体的硬件实现结构.新协议通过引入轻量级的n-n PUF,实现在低资源占用量的情况下提供较高的安全性.文章在DET模型下通过向LPN问题... 在分析HB#协议和OOV-MIM攻击的基础上,针对HB#协议的缺陷,基于物理不可克隆函数设计了P-HB#协议,并给出具体的硬件实现结构.新协议通过引入轻量级的n-n PUF,实现在低资源占用量的情况下提供较高的安全性.文章在DET模型下通过向LPN问题的规约严格证明了协议的安全性,在GRS-MIM和OOV-MIM模型下分析表明新协议具备了抵御相应中间人攻击的能力,提供了低功耗、防篡改、可证明的安全认证. 展开更多
关键词 PUF HB#协议 GRS模型 oov-MIM攻击
下载PDF
一种针对机器阅读理解中答案获取的序列生成模型
9
作者 霍欢 邹依婷 +2 位作者 金轩城 黄君扬 薛瑶环 《计算机应用研究》 CSCD 北大核心 2020年第3期734-738,共5页
针对机器阅读理解任务中的答案问题获取提出一种序列生成模型SGN。首先,SGN在问题矩阵空间获取问题与文章的匹配表示,并参照潜在的问题信息生成当前节点的词向量;然后使用一个选择门结构从文章或者字典中选择当前词汇,并且自发学习和归... 针对机器阅读理解任务中的答案问题获取提出一种序列生成模型SGN。首先,SGN在问题矩阵空间获取问题与文章的匹配表示,并参照潜在的问题信息生成当前节点的词向量;然后使用一个选择门结构从文章或者字典中选择当前词汇,并且自发学习和归纳OOV(out-of-vocabulary)单词,解决语义表述不准确的问题;最后使用改进的覆盖机制消除生成序列中的冗余问题,从而提高可读性。实验通过人工数据集SQuAD进行验证,其结果表明,在阅读理解任务上SGN生成的目标序列与基准模型seq2seq相比可读性更加优异,并且与原文语义更贴近。 展开更多
关键词 答案获取 序列模型 oov 覆盖机制
下载PDF
中文分词十年回顾 被引量:250
10
作者 黄昌宁 赵海 《中文信息学报》 CSCD 北大核心 2007年第3期8-19,共12页
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可... 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。 展开更多
关键词 计算机应用 中文信息处理 中文分词 词语定义 未登录词识别 字标注分词方法
下载PDF
基于关键词的代码自动摘要 被引量:2
11
作者 张世琨 谢睿 +1 位作者 叶蔚 陈龙 《计算机研究与发展》 EI CSCD 北大核心 2020年第9期1987-2000,共14页
代码摘要(code summary)是对一段源代码简短的自然语言描述,代码自动摘要(code summarization)技术通过自动化地生成代码摘要辅助开发者更好地理解程序代码,该技术在许多软件开发活动中都具有重要的应用价值.代码自动摘要同时结合了机... 代码摘要(code summary)是对一段源代码简短的自然语言描述,代码自动摘要(code summarization)技术通过自动化地生成代码摘要辅助开发者更好地理解程序代码,该技术在许多软件开发活动中都具有重要的应用价值.代码自动摘要同时结合了机器翻译和文本摘要2个任务,如何更好地对代码建模以及如何更好地筛选代码中的关键信息是代码摘要所面临的主要挑战.受人类写摘要时的习惯和相关研究的启发,提出了一种基于关键词的代码自动摘要方法(keyword-based source code summarization,KBCoS).该方法将函数签名和API(application programming interface)调用视为关键词,并利用关键词序列来优化解码器注意力机制中的权重分布,使模型在生成摘要时更集中地关注代码中的重要信息.此外,为克服代码符号词汇表过大的问题,提出了符号部分拆分算法,即当符号不在词表中时,依据常用命名规则将符号拆成子符号的序列.该算法简单有效,能很好地平衡代码符号序列长度和未登录词数目之间的矛盾.选用了带有注意力机制的序列到序列模型作为基准模型,并在公开的Java代码摘要数据集上进行了评估.实验表明,基于关键词的注意力机制和部分拆分算法在BLEU-4,METEOR,ROUGE-L这3个评测指标上均能提升基准模型的表现.同时,在另一个Python数据集上也取得了一致的实验结果.最后,将KBCoS与现有模型相结合,在Java数据集上取得了当前最好的结果,该结果表明KBCoS也能改进现有的其他模型.评测结果和注意力权重的热力图都表明了KBCoS的有效性. 展开更多
关键词 代码自动摘要 未登录词 注意力机制 关键词 编码器解码器 序列到序列
下载PDF
基于在线垃圾模型的语音确认方法 被引量:1
12
作者 李大治 王成友 +1 位作者 王莹 蔡宣平 《计算机仿真》 CSCD 2003年第11期48-50,共3页
该文针对关键词检测和实用语音识别中OOV(Out-Of-vocabulary)问题的检测和拒绝进行研究 ,通过使用判别式分析 ,利用L -Best本地分数和N -best言语假设判别分数 ,进行言语判别 (utteranceverification) ;该文进行了两组实验 ,分别针对OO... 该文针对关键词检测和实用语音识别中OOV(Out-Of-vocabulary)问题的检测和拒绝进行研究 ,通过使用判别式分析 ,利用L -Best本地分数和N -best言语假设判别分数 ,进行言语判别 (utteranceverification) ;该文进行了两组实验 ,分别针对OOV问题 ,在小词汇量特定人孤立词识别系统、小词汇量非特定人的孤立词识别系统中进行研究。 展开更多
关键词 语音识别 在线垃圾模型 语音确认方法 隐马尔可夫模型
下载PDF
基于网络的中文未登录词译文挖掘方法研究
13
作者 李斌 梁伍七 +1 位作者 马宁 董露露 《安徽广播电视大学学报》 2016年第1期116-120,共5页
为了获得较高的译文质量,提出了一种基于网络搜索的中文未登录词的翻译方法。该方法首先利用词典对未登录词进行扩展,然后将扩展查询词提交搜索引擎,从获取的中英文混合摘要中采用频度变化信息算法抽取译文候选,最后采用表层模板和频度... 为了获得较高的译文质量,提出了一种基于网络搜索的中文未登录词的翻译方法。该方法首先利用词典对未登录词进行扩展,然后将扩展查询词提交搜索引擎,从获取的中英文混合摘要中采用频度变化信息算法抽取译文候选,最后采用表层模板和频度右距离模型对译文候选进行排序。实验结果表明通过本方法进行中文未登录词译文挖掘是有效可行的。 展开更多
关键词 未登录词翻译 数据挖掘 网络搜索 查询扩展
下载PDF
使用无监督学习改进中文分词 被引量:8
14
作者 沈翔翔 李小勇 《小型微型计算机系统》 CSCD 北大核心 2017年第4期744-748,共5页
针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文分词改进算法.使用基准分词器对未标注的语料进行分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未登录词,修正分词结果.在传统... 针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文分词改进算法.使用基准分词器对未标注的语料进行分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未登录词,修正分词结果.在传统中文语料上与互联网语料上,比较了基于字典的字符串匹配模型与基于字符标注的机器学习模型的分词效果.实验结果表明,改进算法可以提升中文分词效果,在互联网语料上的提升效果尤为明显.改进算法在PKU语料上取得了最多1.1%的F值提升,在MSR语料上取得了最多1.2%的F值提升,在互联网语料上取得了最多5%的F值提升. 展开更多
关键词 中文分词 词向量 无监督学习 未登陆词 分词优化 互联网语料
下载PDF
基于维基百科的未登录词译文挖掘 被引量:2
15
作者 孙常龙 洪宇 +2 位作者 葛运东 姚建民 朱巧明 《计算机研究与发展》 EI CSCD 北大核心 2011年第6期1067-1076,共10页
未登录词(out of vocabulary,OOV)的查询翻译是影响跨语言信息检索(cross-language information retrieval,CLIR)性能的关键因素之一.它根据维基百科(Wikipedia)的数据结构和语言特性,将译文环境划分为目标存在环境和目标缺失环境.针对... 未登录词(out of vocabulary,OOV)的查询翻译是影响跨语言信息检索(cross-language information retrieval,CLIR)性能的关键因素之一.它根据维基百科(Wikipedia)的数据结构和语言特性,将译文环境划分为目标存在环境和目标缺失环境.针对目标缺失环境下的译文挖掘难点,它采用频度变化信息和邻接信息实现候选单元抽取,并建立基于频度-距离模型、表层匹配模板和摘要得分模型的混合译文挖掘策略.实验将基于搜索引擎的未登录词挖掘技术作为baseline,并采用TOP1进行评测.实验验证基于维基百科的混合译文挖掘方法可达到0.6822的译文正确率,相对baseline取得6.98%的改进. 展开更多
关键词 未登录词 维基百科 跨语言信息检索 译文挖掘 目标缺失环境
下载PDF
多种方法融合的中文自动分词系统的设计与实现
16
作者 郑炜冬 《韩山师范学院学报》 2009年第6期37-43,共7页
在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开发基于该算法的自动分词系统,并探讨了开发过程的关键技术.实验表明,采用所述算法和技术的自动分词系统的... 在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开发基于该算法的自动分词系统,并探讨了开发过程的关键技术.实验表明,采用所述算法和技术的自动分词系统的准确率较高、分词速度较快. 展开更多
关键词 中文自动分词 最大匹配法 歧义切分 未登录词 分词词典 Visual-Prolog
下载PDF
汉语自动分词技术研究 被引量:3
17
作者 王凡秀 王自强 《计算机与数字工程》 2008年第11期57-59,共3页
汉语自动分词是中文信息处理的基本问题。从分词的基本理论出发,对近年来中文分词研究的现状进行介绍,指出了能够大幅度提高未登录词识别性能的分词方法将是未来汉语自动分词技术的发展趋势,分析了分词中存在的两个困难及其解决方法。
关键词 汉语自动分词 分词方法 未登录词识别 条件随机场
下载PDF
一种增强的Good-Turing方法
18
作者 毛隽 何炎祥 +1 位作者 刘娟 成钢 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2007年第5期527-530,共4页
在传统的图灵回退语言模型的基础上,提出了一种增强的图灵回退语言模型.这种增强的方法通过3个算法实现,包括语言模型的实现流程,以及统计语言模型中三元语法串、二元语法串和一元语法串的概率计算的方法,并将未登录词的计算结合起来.... 在传统的图灵回退语言模型的基础上,提出了一种增强的图灵回退语言模型.这种增强的方法通过3个算法实现,包括语言模型的实现流程,以及统计语言模型中三元语法串、二元语法串和一元语法串的概率计算的方法,并将未登录词的计算结合起来.通过利用大规模语料库进行实验,验证了这种改进的N元语法语言模型能较好解决传统语言模型中的二元语法串、一元语法串和未登录词计算等问题. 展开更多
关键词 图灵打折 回退 数据平滑 未登录词
下载PDF
基于深度学习的生成式文本摘要技术综述 被引量:18
19
作者 朱永清 赵鹏 +3 位作者 赵菲菲 慕晓冬 白坤 尤轩昂 《计算机工程》 CAS CSCD 北大核心 2021年第11期11-21,28,共12页
在互联网数据急剧扩张和深度学习技术高速发展的背景下,自动文本摘要任务作为自然语言处理领域的主要研究方向之一,其相关技术及应用被广泛研究。基于摘要任务深化研究需求,以研究过程中存在的关键问题为导向,介绍现有基于深度学习的生... 在互联网数据急剧扩张和深度学习技术高速发展的背景下,自动文本摘要任务作为自然语言处理领域的主要研究方向之一,其相关技术及应用被广泛研究。基于摘要任务深化研究需求,以研究过程中存在的关键问题为导向,介绍现有基于深度学习的生成式文本摘要模型,简述定义及来源、数据预处理及基本框架、常用数据集及评价标准等,指出发展优势和关键问题,并针对关键问题阐述对应的可行性解决方案。对比常用的深度预训练模型和创新方法融合模型,分析各模型的创新性和局限性,提出对部分局限性问题的解决思路。进一步地,对该技术领域的未来发展方向进行展望总结。 展开更多
关键词 深度学习 生成式文本摘要 未登录词 生成重复 长程依赖 评价标准
下载PDF
基于知识增强的中文命名实体识别 被引量:12
20
作者 胡新棒 于溆乔 +1 位作者 李邵梅 张建朋 《计算机工程》 CAS CSCD 北大核心 2021年第11期84-92,共9页
基于字词联合的中文命名实体识别模型能够兼顾字符级别与词语级别的信息,但受未登录词影响较大且在小规模数据集上存在训练不充分等问题。在现有LR-CNN模型的基础上,提出一种结合知识增强的中文命名实体识别模型,采用相对位置编码的多... 基于字词联合的中文命名实体识别模型能够兼顾字符级别与词语级别的信息,但受未登录词影响较大且在小规模数据集上存在训练不充分等问题。在现有LR-CNN模型的基础上,提出一种结合知识增强的中文命名实体识别模型,采用相对位置编码的多头注意力机制提高模型上下文信息捕捉能力,通过实体词典融入先验知识降低未登录词的影响并增强模型学习能力。实验结果表明,该模型在保持较快解码速度和较低计算资源占用量的情况下,在MSRA、People Daily、Resume、Weibo数据集上相比SoftLexicon、FLAT等模型F1值均有明显提升,同时具有较强的鲁棒性和泛化能力。 展开更多
关键词 中文命名实体识别 注意力机制 知识增强 未登录词 小规模数据集
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部