期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
基于条件随机场汉语分词的语料规模量化研究
1
作者 周雪燕 韩建敏 《电脑与电信》 2012年第7期56-59,共4页
近年来,条件随机场在汉语分词领域得到了广泛的应用。在对条件随机场模型进行训练时,训练语料的规模直接影响模型稳定性以及分词的准确率,但目前对语料规模的选取尚无指导性结论。针对上述问题选取Bakeoff2005和Bakeoff2006的一组不同... 近年来,条件随机场在汉语分词领域得到了广泛的应用。在对条件随机场模型进行训练时,训练语料的规模直接影响模型稳定性以及分词的准确率,但目前对语料规模的选取尚无指导性结论。针对上述问题选取Bakeoff2005和Bakeoff2006的一组不同规模的评测语料,使用CRF++0.53工具包实现字串序列词位标注分词,定量分析了训练语料规模对分词性能的影响,得出了基于条件随机场的汉语分词方法中,训练语料规模选取的量化结论。 展开更多
关键词 汉语分词 条件随机场 语料规模 词位标注
下载PDF
语域与语料规模在语义韵研究中的影响
2
作者 李中正 《语料库语言学》 2022年第1期69-84,163,共17页
在语义韵相关研究中,语域的区分与语料规模的控制长期以来为部分研究者所忽视。本文以最高程度副词entirely为节点词,分别在COCA语料库的总库,以及小说、学术、报刊、口语、小样本、中样本、大样本七个子库中进行检索,进而探究其语义韵... 在语义韵相关研究中,语域的区分与语料规模的控制长期以来为部分研究者所忽视。本文以最高程度副词entirely为节点词,分别在COCA语料库的总库,以及小说、学术、报刊、口语、小样本、中样本、大样本七个子库中进行检索,进而探究其语义韵在不同语域和不同语料规模中的差异。研究结果显示,就语域而言,节点词entirely的语义韵在小说、学术、报刊和口语四大语域中均存在较为显著的差异;就语料规模而言,节点词entirely的语义韵仅在大样本当中部分还原了COCA总库中的原貌,而在小、中样本中与在COCA总库中相去甚远。因此,研究者应将语义韵研究置于特定的语域当中,并尽量避免因样本数量过小而产生的负面影响。 展开更多
关键词 语义韵 扩展意义单元 语域 语料规模
下载PDF
自建小规模语料库 开展化学名词教学
3
作者 江明军 吴勇梅 《教学月刊(中学版)(教学参考)》 2024年第3期39-44,共6页
化学名词是学习化学的必要工具,是化学知识传播的基础,而语料库在当今社会的研究与运用也日趋成熟、普遍。教师可基于《化学名词(第二版)》等专业词典,运用AntConc等语料库软件,自建小规模高中化学教科书语料库,构建《高中化学名词词表... 化学名词是学习化学的必要工具,是化学知识传播的基础,而语料库在当今社会的研究与运用也日趋成熟、普遍。教师可基于《化学名词(第二版)》等专业词典,运用AntConc等语料库软件,自建小规模高中化学教科书语料库,构建《高中化学名词词表》,从而引导学生明确教科书语境下化学名词的正名与异名及其定义与词频。具体教学中,教师可引导学生关注正名与异名的使用语境以提高科学交流的准确性,整合化学名词定义以增进对化学名词的理解,化抽象为具体以提高理解抽象化学名词的能力,从而增强构建知识的主动性,达成更有深度的学习。 展开更多
关键词 自建小规模语料 化学名词 高中化学教学
下载PDF
日语色彩词「赤い」的认知语义研究——基于大规模语料库
4
作者 韩笑 钟勇 《文化创新比较研究》 2023年第24期32-36,共5页
该文基于大规模语料库从隐喻和转喻两个角度分析日语色彩词「赤い」的语义扩展机制,研究发现:(1)「赤い」的语义扩展方向是由表达主观感觉性质的语义扩展到表达客观存在性质的语义;(2)表达主观感觉性质的语义多于表达客观存在性质的语义... 该文基于大规模语料库从隐喻和转喻两个角度分析日语色彩词「赤い」的语义扩展机制,研究发现:(1)「赤い」的语义扩展方向是由表达主观感觉性质的语义扩展到表达客观存在性质的语义;(2)表达主观感觉性质的语义多于表达客观存在性质的语义;(3)基于身体经验的原型义很重要,是理解扩展义的前提;(4)在认知理据方面,基于隐喻的语义扩展少于基于转喻的语义扩展;(5)语义扩展程度较高。同时,日语学习者在学习日语色彩词时,也要先找到各义项间的认知理据,重点理解和把握原型义,了解日本人认知世界的方式,才能更好地学习扩展义。 展开更多
关键词 色彩词 规模语料 认知语言学 赤い 语义扩展 日语教学
下载PDF
语料规模与常用字词计量研究的关系
5
作者 梁琳琳 侯敏 何宇茵 《中国语文》 CSSCI 北大核心 2013年第6期566-574,576,共9页
基于语料库的计量研究是语言研究的新范式。本研究以常用字/词的提取为切入点,通过语料规模的递增实验,探讨了语料规模与常用字/词计量研究间的关系。实验结果表明:1)在语料规模阈值内,语料规模与高频字词基本呈现一种正相关关系;2)以... 基于语料库的计量研究是语言研究的新范式。本研究以常用字/词的提取为切入点,通过语料规模的递增实验,探讨了语料规模与常用字/词计量研究间的关系。实验结果表明:1)在语料规模阈值内,语料规模与高频字词基本呈现一种正相关关系;2)以覆盖率90%为标准提取常用字/词时的语料规模阈值分别为200万和6000万;3)达到语料规模阈值以后,语料规模对高频字词的影响微乎其微。 展开更多
关键词 语料规模 常用字 常用词 计量研究
原文传递
基于Web的大规模语料库构建方法 被引量:8
6
作者 李培峰 朱巧明 钱培德 《计算机工程》 CAS CSCD 北大核心 2008年第7期41-43,46,共4页
低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境... 低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规模的语料库及对语料库纠错,从而提高其质量。该方法利用网格技术的大规模计算能力与Wiki的开放编辑环境去收集和处理语料,根据可信度模型挑选出不可信的语料并由人工进行校对,计算校对后结果的可信度,选择出最可信的结果作为正确语料存储到语料库中。 展开更多
关键词 规模语料 网格 可信度
下载PDF
大规模汉语标注语料库的制作与使用 被引量:20
7
作者 段慧明 松井久仁於 +2 位作者 徐国伟 胡国昕 俞士汶 《语言文字应用》 CSSCI 北大核心 2000年第2期72-77,共6页
随着自然语言处理研究的深入开展 ,大规模语料库的作用越来越重要。自从70年代美国制作了著名的BrownCorpus以来 ,世界上已制作了各种语料库。富士通研究开发中心和北京大学计算语言学研究所合作 ,以人民日报语料为对象 ,制作大规模汉... 随着自然语言处理研究的深入开展 ,大规模语料库的作用越来越重要。自从70年代美国制作了著名的BrownCorpus以来 ,世界上已制作了各种语料库。富士通研究开发中心和北京大学计算语言学研究所合作 ,以人民日报语料为对象 ,制作大规模汉语标注语料库 ,这个语料库是世界上规模最大的标注语料库之一。 展开更多
关键词 自然语言处理 规模语料 人民日报语料 语言资源 汉语切分系统 精度
下载PDF
大规模语料库可用性评测方法 被引量:1
8
作者 李艳红 郑家恒 《计算机工程与应用》 CSCD 北大核心 2009年第16期134-137,共4页
提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语... 提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析-模糊综合评价方法实现了语料库的可用性评测,给出了语料库的可用性级别。分析语料库的评测结果,确定影响语料库可用性的瓶颈因素,进而提出针对性的改进措施。最后,举例说明了该方法在语料库上的应用。 展开更多
关键词 规模语料 可用性评价 层次分析法 模糊综合评价
下载PDF
基于大规模语料库的多引擎语言翻译模型的构建 被引量:1
9
作者 黄金柱 李青 《洛阳师范学院学报》 2010年第2期64-69,共6页
提出了基于大规模语料库的多引擎翻译系统模型的构建,该模型主要包括三大部分:基于层次化长句分解和支持向量机基本名词识别的句法分析器、基于实例匹配的翻译子引擎、基于语块的统计翻译子引擎.该语言翻译模型综合各个翻译模型的优点,... 提出了基于大规模语料库的多引擎翻译系统模型的构建,该模型主要包括三大部分:基于层次化长句分解和支持向量机基本名词识别的句法分析器、基于实例匹配的翻译子引擎、基于语块的统计翻译子引擎.该语言翻译模型综合各个翻译模型的优点,最大程度地提高机器翻译的准确率和召回率.实验表明该系统的各项指标都比较理想,尤其是处理效率很高. 展开更多
关键词 机器翻译 多引擎 规模语料 双语平行语料
下载PDF
大规模英汉平行语料库的开发与实用性探讨 被引量:2
10
作者 赵巍 王雷 《牡丹江师范学院学报(社会科学版)》 2014年第4期116-117,共2页
英汉平行语料库因其容量大、语料真实、检索快速便捷准确等优势在现代英语教学中发挥着越来越重要的作用。本文将简要探讨大规模英汉平行语料库的开发与其实用性。
关键词 国家社会科学基金重大项目 规模英汉平行语料 开发 实用性
下载PDF
大规模语音语料库的文语转换技术研究
11
作者 张小军 张宇 《通讯世界》 2015年第9期283-283,共1页
语音是人与人之间沟通及交流的最自然、最便捷的方式之一,随着科学技术的发展,人类与互联网、计算机等网络及机器的交流方式也不断向语音交流方式转变。语音语料库的建立为文语转换技术提供了新的发展空间及发展方向。本文立足于对大规... 语音是人与人之间沟通及交流的最自然、最便捷的方式之一,随着科学技术的发展,人类与互联网、计算机等网络及机器的交流方式也不断向语音交流方式转变。语音语料库的建立为文语转换技术提供了新的发展空间及发展方向。本文立足于对大规模语音语料库及文语转换技术的简述,对大规模语音语料库在文语转换技术中的应用进行阐述和探析,以提高其应用的精确性。 展开更多
关键词 规模语音语料 文语转换技术 研究
下载PDF
语料库与词典编纂 被引量:7
12
作者 刘庆荣 《上海师范大学学报(哲学社会科学版)》 2001年第3期109-112,共4页
  随着计算机技术的发展、电子语料库的产生,现在的词典编纂有着过去无以比拟的优势,文章主要探讨了语料库对词典编纂所起的作用以及词典编纂对语料库所提出的要求,并得出通过语料库进行词典编纂是今后词典业发展的普遍趋势这一结论。
关键词 电子语料 词典编纂 词性标准 语义标准 语料规模 赋码
下载PDF
语料库自然标注信息与中文分词应用研究(英文) 被引量:2
13
作者 饶高琦 修驰 荀恩东 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期140-146,共7页
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。... 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。 展开更多
关键词 自然标注信息 中文分词 词语抽取 规模语料
下载PDF
语料库对词典编纂的影响 被引量:4
14
作者 王小海 《辞书研究》 北大核心 2001年第4期15-21,共7页
近些年来 ,语料库规模的不断扩大和与之配套的检索技术的日益完善 ,极大地方便了各项语言研究工作的开展。传统的辞书编纂工作因此也注入了新的活力 ,发生了一些革命性变化。辞书编纂的诸多方面 ,包括选词、配例、释义、义项排列等均能... 近些年来 ,语料库规模的不断扩大和与之配套的检索技术的日益完善 ,极大地方便了各项语言研究工作的开展。传统的辞书编纂工作因此也注入了新的活力 ,发生了一些革命性变化。辞书编纂的诸多方面 ,包括选词、配例、释义、义项排列等均能从语料库提供的数据中获得帮助。本文在概述国外语料库发展基本情况的基础上 ,重点讨论由语料库统计出的词频信息及其他一些特点 ,介绍了从语料库中检索固定搭配和利用语料库统计信息排列义项的方法 。 展开更多
关键词 语料规模 辞书编纂 义项 词典编纂 口语语料 释义 语言研究 简析 传统 排列
下载PDF
国内语料库发展现存问题与分析 被引量:3
15
作者 王大鹏 《渤海大学学报(哲学社会科学版)》 2010年第3期137-140,共4页
国内语料库语言学发展已有近30个年头,成果颇丰。随着计算机技术的发展,基于语料库的语言学研究优势明显,大批学者投身到了语料库语言学的研究中,但问题也逐渐显现。在语料库的规模、口笔语语料库比重、国内英语中介语研究和语料库资源... 国内语料库语言学发展已有近30个年头,成果颇丰。随着计算机技术的发展,基于语料库的语言学研究优势明显,大批学者投身到了语料库语言学的研究中,但问题也逐渐显现。在语料库的规模、口笔语语料库比重、国内英语中介语研究和语料库资源共享等四大方面国内语料库语言学发展仍存在问题,需要逐步解决。 展开更多
关键词 语料规模 语料库口笔语比重 英语中介语 语料库资源共享
下载PDF
大规模真实文本处理的理论与方法
16
作者 黄昌宁 《国际学术动态》 1998年第4期14-16,共3页
背景随着因特网和光盘等大容量存储技术的普及,机储文本语料库的规模已冲破1万亿(10~(12)字节。它一方面带来了巨大的商业利益,促进了信息咨询业的空前发展;另一方面也向学术界和企业界提出了挑战,呼唤着大规模真实文本处理技术的革新... 背景随着因特网和光盘等大容量存储技术的普及,机储文本语料库的规模已冲破1万亿(10~(12)字节。它一方面带来了巨大的商业利益,促进了信息咨询业的空前发展;另一方面也向学术界和企业界提出了挑战,呼唤着大规模真实文本处理技术的革新。据美国Lexis-Nexis公司John Rausch高级工程师在第5届国际大规模语料库研讨会(The Fifth workshop on Verylarge Corpora,简称WVLC-5)上披露,这家提供信息检索服务的公司今年的机储文档已达15亿件,相当于15000亿字符,是该公司1993年机储文档的7.5倍,并且持续以每周950万件的速度递增。此外Lexis—Nexis公司平均每天要接受50万次客户查询,每次查询平均访问182个不同数据库,而每次查询的响应时间平均为4.8秒,公司每天为客户打印的文档多达37.5万件。从以上数据中不难看到,信息资源在当今社会中的重要性,以及文本语料库(或数据库)所达到的巨大规模和相应的处理技术。 展开更多
关键词 规模语料 真实文本处理 文本处理 文本分析
下载PDF
基于熵的机器翻译伪并行语料库选择方法
17
作者 刘婉月 艾山・吾买尔 +1 位作者 敖乃翔 郭锐 《现代计算机》 2021年第19期9-14,18,共7页
为了获得高质量的NMT模型,大规模并行语料库是必不可少的。使用反向翻译构造伪造语料库,这些伪造语料中存在大量的噪声,这些噪声会降低NMT模型的翻译质量。为了从反向翻译的伪造语料中选取高质量的语料,对此,提出了多种基于熵过滤伪造... 为了获得高质量的NMT模型,大规模并行语料库是必不可少的。使用反向翻译构造伪造语料库,这些伪造语料中存在大量的噪声,这些噪声会降低NMT模型的翻译质量。为了从反向翻译的伪造语料中选取高质量的语料,对此,提出了多种基于熵过滤伪造语料的方法,使用单个或多个语言模型按照不同的困惑度选择方法筛选伪造语料,实验表明,联合不同语言模型能够筛选高质量语料,并提高模型的质量。 展开更多
关键词 规模并行语料 语言模型 伪造语料 困惑度
下载PDF
ChatGPT工作原理及对未来工作方式的影响 被引量:4
18
作者 邵昱 《通信与信息技术》 2023年第4期113-117,共5页
介绍了ChatGPT的工作原理,重点介绍其基于大规模语料库进行训练的方法和使用Transformer架构实现的自注意力和多头注意力机制。探讨了ChatGPT对未来工作方式的影响,包括自动化、智能化和改变人机交互方式。ChatGPT作为一种新兴的人工智... 介绍了ChatGPT的工作原理,重点介绍其基于大规模语料库进行训练的方法和使用Transformer架构实现的自注意力和多头注意力机制。探讨了ChatGPT对未来工作方式的影响,包括自动化、智能化和改变人机交互方式。ChatGPT作为一种新兴的人工智能技术,将会对未来的工作方式和就业市场产生深远的影响。 展开更多
关键词 ChatGPT 自然语言处理 规模语料 人机交互 就业市场
下载PDF
“大语言模型与知识图谱”专题征文通知
19
《计算机工程与应用》 CSCD 北大核心 2023年第9期I0001-I0001,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 规模语料 自动学习 知识图谱
下载PDF
“大语言模型与知识图谱”专题征文通知
20
《计算机工程与应用》 CSCD 北大核心 2023年第10期I0001-I0001,共1页
大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,... 大语言模型通过在大规模语料库上训练,能够自动学习和理解自然语言,具备强大的自然语言生成能力。当前,以ChatGPT为代表的语言大模型正在人工智能的多个领域产生着深刻影响,引发了广泛关注。知识图谱是一种组织和表示结构化知识的技术,它可以描述实体、属性和关系,并支持复杂的查询推理,为自然语言理解、信息检索和智能推荐等任务提供了基础。 展开更多
关键词 自然语言理解 自然语言生成 智能推荐 信息检索 人工智能 规模语料 自动学习 知识图谱
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部