期刊文献+
共找到132篇文章
< 1 2 7 >
每页显示 20 50 100
A 14.5Gb/s word alignment circuit in 0.18μm CMOS technology for high-speed SerDes
1
作者 阮伟华 Hu Qingsheng 《High Technology Letters》 EI CAS 2014年第3期328-332,共5页
This paper presents a word alignment circuit for high speed SerDes system.By using pipeline structure and circuit optimization techniques,the speed of the aligner is increased,and its performance is improved further t... This paper presents a word alignment circuit for high speed SerDes system.By using pipeline structure and circuit optimization techniques,the speed of the aligner is increased,and its performance is improved further through adopting the full custom design method.The proposed word aligner has fabricated in 0.18μm CMOS technology with total area of 1.075 ×0.775mm^2 ̄ including I/O pad.Measurement results show that this circuit achieves the maximum data rate of 14.5Gb/s,while consuming a total power of 34.9mW from a 1.8V supply. 展开更多
关键词 comma detection word alignment PIPELINE full custom parallel structure
下载PDF
基于word2vec的大中华区词对齐库的构建 被引量:6
2
作者 王明文 徐雄飞 +1 位作者 徐凡 李茂西 《中文信息学报》 CSCD 北大核心 2015年第5期76-83,共8页
该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大... 该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。 展开更多
关键词 大中华区 词对齐 最长公共子序列 word2vec
下载PDF
基于Transformer的多模态级联文档布局分析网络
3
作者 温绍杰 吴瑞刚 +1 位作者 冯超文 刘英莉 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第2期317-324,369,共9页
针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAE... 针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAEM),实现文本和图像模态预训练目标的对齐嵌入,使用掩码语言建模(MLM)、掩码图像建模(MIM)和词块对齐(WPA)进行预训练,以促进模型在文本和图像模态上的表征学习能力.直接使用文档原始图像,用图像块的线性投影特征来表示文档图像,简化模型结构,减小了模型参数量.实验结果表明,所提模型在PubLayNet公开数据集上的平均精度均值(mAP)达到95.1%.相较于其他模型,整体性能提升了2.5%,泛化能力突出,综合效果最优. 展开更多
关键词 文档布局分析 词块对齐嵌入 TRANSFORMER MCOD-Net模型
下载PDF
加权平均Word2Vec实体对齐方法 被引量:6
4
作者 罗钰敏 刘丹 +1 位作者 尹凯 赵宏森 《计算机工程与设计》 北大核心 2019年第7期1927-1933,共7页
针对已有文本相似度计算方法应用在实体对齐上准确率低的问题,提出一种加权平均Word2Vec的实体对齐方法。利用Word2Vec训练文本,得到词向量模型;使用LTP(language technology platform)工具抽取文本中的命名实体并对其进行分词、去停用... 针对已有文本相似度计算方法应用在实体对齐上准确率低的问题,提出一种加权平均Word2Vec的实体对齐方法。利用Word2Vec训练文本,得到词向量模型;使用LTP(language technology platform)工具抽取文本中的命名实体并对其进行分词、去停用词处理,由Word2Vec得到处理后的词向量;根据分词后出现相同词的情况进行加权归一,得到各实体的特征向量;利用特征向量计算余弦相似度得到对齐结果。实验结果表明,与已有的文本相似度方法及未改进的Word2Vec方法对比,所提方法降低了实体对齐的漏检率,提高了准确性。 展开更多
关键词 词嵌入 命名实体识别 中文组织机构名 实体对齐 词向量
下载PDF
融入线性句法信息的神经网络双语词对齐算法
5
作者 尹宝生 张斌斌 李绍鸣 《计算机应用与软件》 北大核心 2023年第9期278-282,319,共6页
目前的双语词对齐模型主要依赖大量人工标注语料,不仅耗费时间成本并且人工标注质量不稳定,为了解决这一问题,提出一种基于双语句对齐语料构建双语词对齐神经网络模型的方法。使用GIZA++进行双语词对齐,设计标注方案,生成双语词对齐语料... 目前的双语词对齐模型主要依赖大量人工标注语料,不仅耗费时间成本并且人工标注质量不稳定,为了解决这一问题,提出一种基于双语句对齐语料构建双语词对齐神经网络模型的方法。使用GIZA++进行双语词对齐,设计标注方案,生成双语词对齐语料,作为神经网络初始训练输入;为了充分挖掘句子间潜在的语言特征,提出一种在神经网络的编码层融入双语线性句法信息的词对齐方法。实验基于英中专利与标准句对齐语料进行,神经网络对齐的准确率达到89.05%。 展开更多
关键词 线性句法 词对齐 神经网络
下载PDF
基于动态词嵌入对齐的无监督泰语依存句法分析 被引量:1
6
作者 张弘弢 文永华 王剑 《信息技术》 2023年第4期1-7,共7页
泰语的依存句法分析任务具有重要研究价值。但泰语作为低资源语言,缺乏公开可用的句法标注训练集,难以训练有效的依存解析模型。针对这种情况,借助泰语和英语间的动态词嵌入对齐矩阵,将在英语标注数据上训练的依存解析模型迁移到泰语中... 泰语的依存句法分析任务具有重要研究价值。但泰语作为低资源语言,缺乏公开可用的句法标注训练集,难以训练有效的依存解析模型。针对这种情况,借助泰语和英语间的动态词嵌入对齐矩阵,将在英语标注数据上训练的依存解析模型迁移到泰语中,分析无监督泰语依存句法。实验结果表明,该方法能有效地从无标注泰语数据中提取到依存句法知识。此外该方法还支持多语言联合训练迁移到泰语来提升泰语依存句法分析的性能。 展开更多
关键词 依存句法分析 泰语 无监督 动态词嵌入对齐 迁移学习
下载PDF
融合词簇约束的汉越跨语言词嵌入
7
作者 武照渊 余正涛 黄于欣 《计算机工程》 CAS CSCD 北大核心 2023年第1期82-91,共10页
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分... 针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分挖掘双语词典中的词簇对齐信息以融入到映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系,根据跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近,并利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果较差的问题,其在汉越双语词典归纳任务P@1和P@5上的对齐准确率相比最好基线模型提升了2.2个百分点。 展开更多
关键词 汉越双语 低资源语言 跨语言词嵌入 词簇对齐 多粒度约束
下载PDF
普通话论元混合配置及其句法特异性 被引量:1
8
作者 金立鑫 《常熟理工学院学报》 2023年第4期25-33,共9页
本文根据及物与不及物结构中论元与动词之间的语义关系,建立了普通话论元在句法上的三分格局,即主格、宾格与通格。该三分格局可以用来统一解释普通话语序类型上的混合性、汉语语法史上长期存在的一系列老大难问题以及一些有趣的语法现象。
关键词 论元配置 主格 宾格 通格 语序类型 语法难题
下载PDF
Improving neural sentence alignment with word translation 被引量:2
9
作者 Ying DING Junhui LI +1 位作者 Zhengxian GONG Guodong ZHOU 《Frontiers of Computer Science》 SCIE EI CSCD 2021年第1期81-90,共10页
Sentence alignment is a basic task in natural lan-guage processing which aims to extract high-quality paral-lel sentences automatically.Motivated by the observation that aligned sentence pairs contain a larger number ... Sentence alignment is a basic task in natural lan-guage processing which aims to extract high-quality paral-lel sentences automatically.Motivated by the observation that aligned sentence pairs contain a larger number of aligned words than unaligned ones,we treat word translation as one of the most useful external knowledge.In this paper,we show how to explicitly integrate word translation into neural sentence alignment.Specifically,this paper proposes three cross-lingual encoders to incorporate word translation:1)Mixed Encoder that learns words and their translation annotation vectors over sequences where words and their translations are mixed alterma-tively;2)Factored Encoder that views word translations as fea-tures and encodes words and their translations by concatenating their embeddings;and 3)Gated Encoder that uses gate mechanism to selectively control the amount of word translations moving forward.Experimentation on NIST MT and Opensub-titles Chinese-English datasets on both non-monotonicity and monotonicity scenarios demonstrates that all the proposed encoders significantly improve sentence alignment performance. 展开更多
关键词 sentence alignment word translation mixeden coder factored encoder gated encoder
原文传递
基于锚点词对的双语词对齐算法 被引量:10
10
作者 张孝飞 陈肇雄 +1 位作者 黄河燕 王建德 《小型微型计算机系统》 CSCD 北大核心 2006年第2期330-334,共5页
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及英汉语言间的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要... 双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及英汉语言间的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率达77.3%,F值达84.2%,基本上满足了有关应用的实际要求. 展开更多
关键词 自然语言处理 双语词对齐 语料 锚点词对
下载PDF
基于词典和统计的语料库词汇级对齐算法 被引量:8
11
作者 刘小虎 吴葳 +3 位作者 李生 赵铁军 蔡萌 鞠英杰 《情报学报》 CSSCI 北大核心 1997年第1期21-27,共7页
语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词... 语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。 展开更多
关键词 语料库 词汇级对齐 共现概率 信息处理
下载PDF
单语句法分析指导的双语结构对齐 被引量:5
12
作者 吕雅娟 赵铁军 李生 《计算机研究与发展》 EI CSCD 北大核心 2003年第7期970-976,共7页
提出了一种单语句法分析指导的双语语料库结构对齐方法 该方法以统计的双语模型———反向转换文法为基础 ,通过把英语句法分析知识融入到双语模型中 ,实现英汉双语的结构对齐 与现有方法相比 ,只需要一种语言的句法分析结果 ,避开了... 提出了一种单语句法分析指导的双语语料库结构对齐方法 该方法以统计的双语模型———反向转换文法为基础 ,通过把英语句法分析知识融入到双语模型中 ,实现英汉双语的结构对齐 与现有方法相比 ,只需要一种语言的句法分析结果 ,避开了汉语句法分析的难题 ,同时保证了双语结构对齐的语法合理性 实验结果表明 ,这种方法充分利用现有的句法分析知识 ,有效地提高了结构对齐的正确率 展开更多
关键词 双语语料库 词对齐 结构对齐 知识获取
下载PDF
中英命名实体识别及对齐中的中文分词优化 被引量:6
13
作者 尹存燕 黄书剑 +1 位作者 戴新宇 陈家骏 《电子学报》 EI CAS CSCD 北大核心 2015年第8期1481-1487,共7页
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后... 中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性. 展开更多
关键词 分词 命名实体识别 双语对齐 机器翻译
下载PDF
基于实例的汉蒙机器翻译 被引量:16
14
作者 侯宏旭 刘群 那顺乌日图 《中文信息学报》 CSCD 北大核心 2007年第4期65-72,共8页
本文通过对汉蒙机器翻译方法的研究,给出了一种基于实例的汉蒙机器翻译方法,并加以了实现。本文给出了用于汉蒙EBMT机器翻译的实例搜索以及短语片段划分、匹配、组合的方法。本文给出的方法是基于词语对齐的,利用词语对齐进行词语的匹配... 本文通过对汉蒙机器翻译方法的研究,给出了一种基于实例的汉蒙机器翻译方法,并加以了实现。本文给出了用于汉蒙EBMT机器翻译的实例搜索以及短语片段划分、匹配、组合的方法。本文给出的方法是基于词语对齐的,利用词语对齐进行词语的匹配,并根据匹配词数和长度计算相似度,选取最好的实例。通过对齐信息,确定片段组合的策略,生成翻译结果。通过对方法的实现和实验,完成了一个基于实例的汉蒙机器翻译系统。 展开更多
关键词 人工智能 机器翻译 蒙古语 基于实例 词语对齐
下载PDF
面向统计机器翻译的重对齐方法研究 被引量:5
15
作者 肖桐 李天宁 +2 位作者 陈如山 朱靖波 王会珍 《中文信息学报》 CSCD 北大核心 2010年第1期110-116,共7页
词对齐是统计机器翻译中的重要技术之一。该文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,... 词对齐是统计机器翻译中的重要技术之一。该文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,该文提出的方法还可以利用大规模单语语料来强化对齐结果。实验结果表明,相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,该文提出的方法可以使统计机器翻译系统得到更高的翻译准确率。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 词对齐 重对齐 IBMmodels
下载PDF
基于双语对齐的汉语–新蒙古文命名实体翻译 被引量:4
16
作者 杨萍 侯宏旭 +2 位作者 蒋玉鹏 申志鹏 杜健 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期148-154,共7页
汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义,而直接使用机器翻译的方法不能达到满意的结果。针对上述问题,提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉... 汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义,而直接使用机器翻译的方法不能达到满意的结果。针对上述问题,提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注;然后基于双语HMM词对齐结果,利用滑动窗口的方法抽取所有候选命名实体翻译对;最后基于融合5种特征的最大熵模型,对所有候选翻译单位进行过滤,选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明,该方法优于基于HMM的方法,在对齐模型只是部分准确的情况下,也获得较高准确率的汉语–新蒙古文命名实体翻译对。 展开更多
关键词 命名实体 识别 翻译 双语对齐
下载PDF
汉维/维汉统计机器翻译中若干问题研究 被引量:6
17
作者 徐春 杨勇 董兴华 《计算机工程与应用》 CSCD 北大核心 2011年第35期150-154,167,共6页
针对汉语和维吾尔语形态差别较大的特点,借助开源的Moses工具箱,通过各种翻译模型的对比及相关实验结果的分析,深入探讨了对汉维/维汉翻译有影响的各种因素,包括词对齐问题,汉维翻译中主语、谓语中心词、时态等的一致性问题,维汉翻译中... 针对汉语和维吾尔语形态差别较大的特点,借助开源的Moses工具箱,通过各种翻译模型的对比及相关实验结果的分析,深入探讨了对汉维/维汉翻译有影响的各种因素,包括词对齐问题,汉维翻译中主语、谓语中心词、时态等的一致性问题,维汉翻译中OOV的问题,汉维句法结构差异问题。最后给出了提高汉维/维汉统计翻译性能的一些建议。 展开更多
关键词 汉维 维汉 词对齐 一致性 句法结构
下载PDF
基于语义相似度并运用语言学知识进行双语语句词对齐 被引量:6
18
作者 晋薇 黄河燕 夏云庆 《计算机科学》 CSCD 北大核心 2002年第11期44-47,共4页
This paper claries the definition of alignment from the viewpoint of linguistic similarity. Many alignment algorithms have been proposed with very high precision. But the languages belong to occidental family. We prop... This paper claries the definition of alignment from the viewpoint of linguistic similarity. Many alignment algorithms have been proposed with very high precision. But the languages belong to occidental family. We propose a new method for alignment between languages that do not belong to the same language family. On the contrary to most of the previously proposed methods that rely heavily on statistics, our method attempts to use linguistic knowledge to overcome the problems of statistical model. Experimental results confirm that the algorithm can align over 85 % of word pairs while maintaining a comparably high precision rate, even when a small corpus is used in training. 展开更多
关键词 机器翻译 双语语句词对齐 语言学知识 语义相似度 计算机
下载PDF
动态相位调整技术在FPGA中的设计与实现 被引量:4
19
作者 黄万伟 汪斌强 曹晓磊 《电子技术应用》 北大核心 2009年第5期58-61,共4页
提出一种基于FPGA的动态相位调整实现方案。在高速数据传输接口中,由于数据窗缩小以及传输路径不一致,造成数据和时钟信号在FPGA的接收端发生位偏移和字偏移。动态相位调整技术根据当前各数据线物理状态,对各信号线动态进行去偏移操作,... 提出一种基于FPGA的动态相位调整实现方案。在高速数据传输接口中,由于数据窗缩小以及传输路径不一致,造成数据和时钟信号在FPGA的接收端发生位偏移和字偏移。动态相位调整技术根据当前各数据线物理状态,对各信号线动态进行去偏移操作,克服了静态相位调整中参数不可再调的缺点,使接口不断适应外部环境的变化,从而保证数据的可靠传输。 展开更多
关键词 FPGA 动态相位调整 位偏移 字偏移 静态相位调整
下载PDF
基于加权二部图的汉日词对齐 被引量:7
20
作者 吴宏林 刘绍明 于戈 《中文信息学报》 CSCD 北大核心 2007年第5期101-106,共6页
高效的自动词对齐技术是词对齐语料库建设的关键所在。当前很多词对齐方法存在以下不足:未登录词问题、灵活翻译问题和全局最优匹配问题。针对以上不足,该文提出加权二部图最大匹配词对齐模型,利用二部图为双语句对建模,利用词形、语义... 高效的自动词对齐技术是词对齐语料库建设的关键所在。当前很多词对齐方法存在以下不足:未登录词问题、灵活翻译问题和全局最优匹配问题。针对以上不足,该文提出加权二部图最大匹配词对齐模型,利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。在汉日词语对齐上的实验表明,该方法在一定程度上解决了以上三点不足,F-Score为80%,优于GIZA++的72%。 展开更多
关键词 计算机应用 中文信息处理 词对齐 二部图 匹配
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部