期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
用基于词的二元模型消解交集型分词歧义 被引量:7
1
作者 陈小荷 《南京师大学报(社会科学版)》 CSSCI 北大核心 2004年第6期109-113,共5页
解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明... 解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明显的提高。 展开更多
关键词 中文信息处理 基于词的二元模型 交集型分歧义
下载PDF
基于词图的音素识别及在语种识别中的应用
2
作者 王士进 郑榕 徐波 《中文信息学报》 CSCD 北大核心 2008年第2期124-128,共5页
本文介绍了一种基于词图的并行音素识别方法的自动语种识别系统,基于词图的并行音素识别方法是并行音素识别方法的一个扩展,它用识别产生的词图来描述声学候选结果空间,比并行音素识别方法中用最佳路径音子序列包含更丰富的信息。通过... 本文介绍了一种基于词图的并行音素识别方法的自动语种识别系统,基于词图的并行音素识别方法是并行音素识别方法的一个扩展,它用识别产生的词图来描述声学候选结果空间,比并行音素识别方法中用最佳路径音子序列包含更丰富的信息。通过真实环境广播语音测试表明,该方法比并行音素识别方法识别性能提升了约6%,在每个语种约4小时的训练数据下,跟其他的几种语种识别方法也有可比的性能。 展开更多
关键词 计算机应用 中文信息处理 语种识别 基于词图的并行音素识别方法
下载PDF
格值上下文无关文法对基于词的计算
3
作者 杨春志 张超 《重庆交通大学学报(自然科学版)》 CAS 北大核心 2009年第4期804-806,共3页
给出了当格半群满足交换律时,任何格值上下文无关文法都与格值Greibach范式文法等价,并利用Zadeh扩张原理,研究了格值Greibach范式文法对基于词的计算,最后得出文法对基于词的计算最终由对基于值的计算来实现。
关键词 格半群 基于词的计算 上下文无关文法
下载PDF
基于词块的词汇教学策略的实证研究 被引量:1
4
作者 黄莉娜 《湖南科技学院学报》 2013年第11期198-201,共4页
语言学家发现自然语言中存在大量的词块作为整体存储在记忆中,使用时可直接提取而无需语法分析和生成,能促进语言产出的准确性和流利性。该研究运用实证研究方法,探讨基于词块的词汇教学策略对于非英语专业大学生语言习得的影响。研究... 语言学家发现自然语言中存在大量的词块作为整体存储在记忆中,使用时可直接提取而无需语法分析和生成,能促进语言产出的准确性和流利性。该研究运用实证研究方法,探讨基于词块的词汇教学策略对于非英语专业大学生语言习得的影响。研究结果表明:基于词块的词汇教学策略是:1.对于促进英语听力水平的提高具有显著性;2.有利于英语综合运用能力的提高。 展开更多
关键词 汇教学 基于词块的 综合能力
下载PDF
一种改进的句子相似度计算模型 被引量:34
5
作者 杨思春 《电子科技大学学报》 EI CAS CSCD 北大核心 2006年第6期956-959,共4页
在基于实例的机器翻译中,句子相似度计算是实例匹配的有效机制。该文对基于相同词的句子相似模型作进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词的情形。实验结果表明,改进方法比原方法具有较高的准确率。
关键词 自然语言处理 基于实例的机器翻译 句子相似度 基于词
下载PDF
神经网络语言模型在统计机器翻译中的应用 被引量:11
6
作者 张家俊 宗成庆 《情报工程》 2017年第3期21-28,共8页
近两年来,神经机器翻译(Neural Machine Translation,NMT)模型主导了机器翻译的研究,但是统计机器翻译(Statistical Machine Translation,SMT)在很多应用场合(尤其是专业领域)仍有较强的竞争力。如何利用深度学习技术提升现有统计机器... 近两年来,神经机器翻译(Neural Machine Translation,NMT)模型主导了机器翻译的研究,但是统计机器翻译(Statistical Machine Translation,SMT)在很多应用场合(尤其是专业领域)仍有较强的竞争力。如何利用深度学习技术提升现有统计机器翻译的水平成为研究者们关注的主要问题。由于语言模型是统计机器翻译中最核心的模块之一,本文主要从语言模型的角度入手,探索神经网络语言模型在统计机器翻译中的应用。本文分别探讨了基于词和基于短语的神经网络语言模型,在汉语到英语和汉语到日语的翻译实验表明神经网络语言模型能够显著改善统计机器翻译的译文质量。 展开更多
关键词 统计机器翻译 神经网络语言模型 基于词的语言模型 基于短语的语言模型
下载PDF
机器翻译研究新进展 被引量:42
7
作者 刘群 《当代语言学》 CSSCI 北大核心 2009年第2期147-158,共12页
本文介绍近年来国际机器翻译研究领域取得的一些进展,着重介绍统计机器翻译方面取得的进展。具体包括:统计机器翻译的原理和特点、统计机器翻译的发展历程和现状、基于词的统计机器翻译方法、基于短语的统计机器翻译方法、基于句法的统... 本文介绍近年来国际机器翻译研究领域取得的一些进展,着重介绍统计机器翻译方面取得的进展。具体包括:统计机器翻译的原理和特点、统计机器翻译的发展历程和现状、基于词的统计机器翻译方法、基于短语的统计机器翻译方法、基于句法的统计机器翻译方法等。最后对机器翻译研究今后的发展进行了讨论和展望。 展开更多
关键词 统计机器翻译 基于词的方法 基于短语的方法 基于句法的方法
原文传递
深度学习中文命名实体识别研究综述 被引量:13
8
作者 康怡琳 孙璐冰 +1 位作者 朱容波 李梦瑶 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第11期44-53,共10页
针对目前中文命名实体识别研究集中在输入文本的特征的提取,且输入的嵌入表示直接影响模型的性能这一特点,从背景知识、研究现状和未来发展等方面对中文命名实体识别的研究展开全面的调查.回顾了命名实体识别的发展进程,解释中文命名实... 针对目前中文命名实体识别研究集中在输入文本的特征的提取,且输入的嵌入表示直接影响模型的性能这一特点,从背景知识、研究现状和未来发展等方面对中文命名实体识别的研究展开全面的调查.回顾了命名实体识别的发展进程,解释中文命名实体识别的研究难点,归纳不同的研究方法,分为基于字的模型、基于词的模型和基于字-词的模型;介绍目前中文命名实体识别的主流数据集、标注方法和评价指标,从不同角度分析了各数据集的特点;讨论了近几年深度学习技术在中文命名实体识别中的最新研究进展,介绍各分类下具有代表性的模型及性能对比,分析性能优劣原因;总结了中文命名实体识别当下所面临的一些挑战,讨论了未来更具有研究价值的方向,促进中文命名实体识别的进一步发展. 展开更多
关键词 中文命名实体识别 深度学习 自然语言处理 基于字-的模型 基于字的模型 基于词的模型
原文传递
A CORPUS-BASED ANALYSIS ON BOOSTER "VERY" IN CHINESE SENIOR HIGH SCHOOL STUDENTS' WRITING 被引量:1
9
作者 唐洁仪 张杏娟 《Chinese Journal of Applied Linguistics》 2008年第6期12-19,127,共9页
This paper aims to find out how Chinese senior high school students use booster 'very' in writing by means of contrastive interlanguage analysis (CIA). The writing corpora of Grade Three students in the Chines... This paper aims to find out how Chinese senior high school students use booster 'very' in writing by means of contrastive interlanguage analysis (CIA). The writing corpora of Grade Three students in the Chinese senior high schools, 04MET and 05MET, and the native speakers' writing corpora BROWN K&L are analyzed and compared with the help of the tools like MCO and AntConc. The findings of this study reveal the tendency of the usage of booster 'very' among Chinese senior high school students. Based on the above corpus analysis, this paper infers three pedagogical implications for English teaching and learning. 展开更多
关键词 CORPUS-BASED booster 'very' in writing OVERUSE MISUSE
原文传递
A CLEC-BASED STUDY OF COLLOCATION ACQUISITION BY CHINESE ENGLISH LANGUAGE LEARNERS 被引量:1
10
作者 张允 高佑梅 《Chinese Journal of Applied Linguistics》 2006年第4期28-35,127,共9页
Though collocations have drawn much attention in the field of language acquisition, difficulties with them have not been investigated in much detail. This paper reports on a corpus-based exploratory study that analyze... Though collocations have drawn much attention in the field of language acquisition, difficulties with them have not been investigated in much detail. This paper reports on a corpus-based exploratory study that analyzes the mistakes learners made when they produced English collocations. The current study shows that not only beginners but also advanced learners have difficulties in choosing the right collocates and the difficulties that learners of different levels have are more or less the same. The L1 influence on the production of L2 collocations exists at every stage of learning though it varies with the learners' L2 competence. 展开更多
关键词 COLLOCATION second language acquisition CORPUS-BASED CLEC
原文传递
TextGen: a realistic text data content generation method for modern storage system benchmarks
11
作者 Long-xiang WANG Xiao-she DONG +3 位作者 Xing-jun ZHANG Yin-feng WANG Tao JU Guo-fu FENG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2016年第10期982-993,共12页
Modem storage systems incorporate data compressors to improve their performance and capacity. As a result, data content can significantly influence the result of a storage system benchmark. Because real-world propriet... Modem storage systems incorporate data compressors to improve their performance and capacity. As a result, data content can significantly influence the result of a storage system benchmark. Because real-world proprietary datasets are too large to be copied onto a test storage system, and most data cannot be shared due to privacy issues, a benchmark needs to generate data synthetically. To ensure that the result is accurate, it is necessary to generate data content based on the characterization of real-world data properties that influence the storage system performance during the execution of a benchmark. The existing approach, called SDGen, cannot guarantee that the benchmark result is accurate in storage systems that have built-in word-based compressors. The reason is that SDGen characterizes the properties that influence compression performance only at the byte level, and no properties are characterized at the word level. To address this problem, we present TextGen, a realistic text data content generation method for modem storage system benchmarks. TextGen builds the word corpus by segmenting real-world text datasets, and creates a word-frequency distribution by counting each word in the corpus. To improve data generation performance, the word-frequency distribution is fitted to a lognormal distribution by maximum likelihood estimation. The Monte Carlo approach is used to generate synthetic data. The running time of TextGen generation depends only on the expected data size, which means that the time complexity of TextGen is O(n). To evaluate TextGen, four real-world datasets were used to perform an experiment. The experimental results show that, compared with SDGen, the compression performance and compression ratio of the datasets generated by TextGen deviate less from real-world datasets when end-tagged dense code, a representative of word-based compressors, is evaluated. 展开更多
关键词 BENCHMARK Storage system Word-based compression
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部