期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
EVA2.0:Investigating Open-domain Chinese Dialogue Systems with Large-scale Pre-training 被引量:1
1
作者 Yuxian Gu Jiaxin Wen +8 位作者 Hao Sun Yi Song Pei Ke Chujie Zheng Zheng Zhang Jianzhu Yao Lei Liu Xiaoyan Zhu Minlie Huang 《Machine Intelligence Research》 EI CSCD 2023年第2期207-219,共13页
Large-scale pre-training has shown remarkable performance in building open-domain dialogue systems.However,previous works mainly focus on showing and evaluating the conversational performance of the released dialogue ... Large-scale pre-training has shown remarkable performance in building open-domain dialogue systems.However,previous works mainly focus on showing and evaluating the conversational performance of the released dialogue model,ignoring the discussion of some key factors towards a powerful human-like chatbot,especially in Chinese scenarios.In this paper,we conduct extensive experiments to investigate these under-explored factors,including data quality control,model architecture designs,training approaches,and decoding strategies.We propose EVA2.0,a large-scale pre-trained open-domain Chinese dialogue model with 2.8 billion parameters,and will make our models and codes publicly available.Automatic and human evaluations show that EVA2.0 significantly outperforms other open-source counterparts.We also discuss the limitations of this work by presenting some failure cases and pose some future research directions on large-scale Chinese open-domain dialogue systems. 展开更多
关键词 Natural language processing deep learning(DL) large-scale pre-training dialogue systems chinese open-domain conversational model
原文传递
基于对话语音的与文本无关的说话人确认系统的研究 被引量:4
2
作者 陈雁翔 戴蓓倩 +1 位作者 周曦 李辉 《中文信息学报》 CSCD 北大核心 2004年第2期36-43,共8页
本文建立了一个基于对话语音的与文本无关的说话人确认系统 ,它和传统的与文本无关的说话人确认系统的关键不同在于 ,训练及测试语音不再只包含一个人而都是对话语音 ,因此需要分割出属于不同说话人的语音段 ,以建立说话人模型和实现最... 本文建立了一个基于对话语音的与文本无关的说话人确认系统 ,它和传统的与文本无关的说话人确认系统的关键不同在于 ,训练及测试语音不再只包含一个人而都是对话语音 ,因此需要分割出属于不同说话人的语音段 ,以建立说话人模型和实现最终判决。文中详细介绍了高斯混合模型 -背景模型 (GMM UBM)这种说话人确认系统的框架 ,重点讨论了基于GLR(GeneralizedLikelihoodRatio)距离测度的无监督语音分割算法。最终阐述的输出评分的规整方法即ZNORM (ZeroNormalization)和持续时间修正 ,可以使确认系统的性能提高近 10 %。 展开更多
关键词 计算机应用 中文信息处理 对话语音 GLR距离测度 无监督语音分割 说话人确认系统 文本
下载PDF
语料库词性标注一致性检查方法研究 被引量:9
3
作者 张虎 郑家恒 刘江 《中文信息学报》 CSCD 北大核心 2004年第5期11-16,共6页
在对大规模语料库进行深加工时 ,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法 ,该方法避开了以前一贯采用的规则或统计的方法 ,利用聚类和分类的思想 ,对范例... 在对大规模语料库进行深加工时 ,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法 ,该方法避开了以前一贯采用的规则或统计的方法 ,利用聚类和分类的思想 ,对范例进行聚类并求出阈值 ,对测试数据分类来确定其标注的正误 ,进而得出每篇文章的词性标注一致性情况 。 展开更多
关键词 计算机应用 中文信息处理 词性标注一致性 兼类词 聚类
下载PDF
汉语二语学习者课堂会话修正策略研究 被引量:6
4
作者 刘佳音 刘富华 《汉语学习》 CSSCI 北大核心 2016年第2期93-102,共10页
本文基于自建小型语料库,采用定量描写与定性分析的方法,对汉语二语学习者课堂会话修正策略进行了考察。考察发现,汉语二语学习者在课堂上主要使用了九种修正策略:重复、替换、完成、插入、重构、解释、删除、否定和元语言。
关键词 汉语二语学习者 课堂 会话修正策略
下载PDF
汉语“话语修正”过程内部项目的构成 被引量:5
5
作者 郑贵友 《汉语学习》 CSSCI 北大核心 2016年第3期12-21,共10页
本文从话语结构的角度对汉语"话语修正"过程中含有"否定语"、"修正语"、"批评语"、"建议语"四个项目的构成情况进行考察。"否定语"表达说话人对前话轮内容或观点的否定,... 本文从话语结构的角度对汉语"话语修正"过程中含有"否定语"、"修正语"、"批评语"、"建议语"四个项目的构成情况进行考察。"否定语"表达说话人对前话轮内容或观点的否定,一般由否定词独词小句或其他具有否定意义的小句构成。"修正语"是说话人对前话轮所含错误的修正,可分为"有标记修正语"和"无标记修正语"。"批评语"表达说话人对前话轮中的错误实施的批评,可分为"感叹式"、"疑问式"、"陈述式"三类。"建议语"是说话人在实施否定、修正或批评之后提出的建议,由祈使小句构成,含有"劝阻类"和"倡议类"两种功能类型。从四个项目的出现情况来看,"修正语"是必有项目,"否定语"、"批评语"、"建议语"是可有项目,内部存在不平衡性。 展开更多
关键词 “话语修正”过程 内部项目 构成
下载PDF
语句级汉字拼音输入技术评估方法的研究 被引量:3
6
作者 汤步洲 王晓龙 +1 位作者 王轩 张强 《中文信息学报》 CSCD 北大核心 2008年第5期51-55,共5页
该文介绍了语句级汉字拼音输入技术评估方法的研究意义及其重要性。从信息论角度出发,提出了基于损失函数的语句级汉字拼音输入技术的评估方法,它通过损失函数比较经语句级汉字拼音输入系统输出的句子和相应的标准句子,得到描述系统性... 该文介绍了语句级汉字拼音输入技术评估方法的研究意义及其重要性。从信息论角度出发,提出了基于损失函数的语句级汉字拼音输入技术的评估方法,它通过损失函数比较经语句级汉字拼音输入系统输出的句子和相应的标准句子,得到描述系统性能的定量指标。该方法对汉字拼音输入技术的音节流自动切分和音字转换两方面进行了较全面的评估。采用手工标注的1996年《人民日报》部分语料,对目前流行的汉字拼音输入技术进行了评估,实验结果表明:拼音输入技术音字转换准确率最高能达到64.3%,音节流自动切分对音字转换的准确率有大约2%的影响。评估结果对今后的拼音输入技术的评估提供了参考价值,对汉字拼音输入技术的持续发展有指导意义。 展开更多
关键词 人工智能 自然语言处理 语句级汉字拼音输入技术 损失函数 音节流自动切分 音字转换
下载PDF
汉语文语转换中的音库词库 被引量:2
7
作者 潘春华 武港山 《计算机应用研究》 CSCD 北大核心 2004年第3期167-169,共3页
阐述了为实现汉语文本到语音转换而设计的汉语词库和语音库的设计思想和实现技术。
关键词 文语转换 汉语词库 语音库 中文信息处理
下载PDF
基于ISO/IEC 10646标准的藏文编码转换的设计与实现 被引量:2
8
作者 张青 黄鹤鸣 章登义 《中文信息学报》 CSCD 北大核心 2009年第4期118-123,共6页
目前,国内少数民族地区的书报印刷行业大多使用北大方正、华光藏文排版系统。这些软件的编码各异,致使有限的藏文资源无法实现交换和共享,造成这种现象的原因是各种软件编码体系不一致。解决这个问题的根本途径是将各种不同体系的藏文... 目前,国内少数民族地区的书报印刷行业大多使用北大方正、华光藏文排版系统。这些软件的编码各异,致使有限的藏文资源无法实现交换和共享,造成这种现象的原因是各种软件编码体系不一致。解决这个问题的根本途径是将各种不同体系的藏文编码转换为符合国际标准的编码。该文以华光Windows藏文字符编码为例,首先对每个藏文字符进行构字分析,然后采用分表分组技术构造出每个字符符合ISO/IEC 10646标准的编码序列,最后采用hash技术优化查询算法,实现非标准的藏文字符编码向标准编码序列转换。 展开更多
关键词 计算机应用 中文信息处理 藏文 字符集标准 编码转换 分表分组技术
下载PDF
汉语冒犯性言语行为分析 被引量:6
9
作者 申智奇 《华文教学与研究》 CSSCI 2010年第2期78-86,94,共10页
本文对言语冒犯和冒犯性言语行为进行了界定,对汉语冒犯性言语行为的构成进行了描述性分析,揭示了冒犯程度和言语行为类型的关系,并探究了汉语冒犯性言语行为的话语结构,揭示了其会话进程,即通过相邻对了解了冒犯性言语行为的发生情况,... 本文对言语冒犯和冒犯性言语行为进行了界定,对汉语冒犯性言语行为的构成进行了描述性分析,揭示了冒犯程度和言语行为类型的关系,并探究了汉语冒犯性言语行为的话语结构,揭示了其会话进程,即通过相邻对了解了冒犯性言语行为的发生情况,从听话人的回应当中发掘了冒犯实施的证据,通过其后继发展,研究了该言语行为的发展进程和终结过程;文章还从和谐社交关系的管理角度,解释了汉语冒犯性言语行为发生的原因。 展开更多
关键词 汉语冒犯性言语行为 冒犯程度 话语结构 会话进程
下载PDF
汉语二语学习者课堂自启自修型会话修正研究 被引量:1
10
作者 刘佳音 《东北师大学报(哲学社会科学版)》 CSSCI 北大核心 2016年第3期249-253,共5页
笔者基于自建汉语二语课堂小型语料库,采用定量描写与定性分析相结合的方法,讨论了汉语二语学习者课堂自启自修型会话修正的概念、类别、基本结构与特殊结构,为汉语二语教师有效地组织课堂教学提供了有益参考。
关键词 汉语二语学习者 课堂 自启自修型 会话修正
下载PDF
面向语音转换的汉语语料自动选取算法
11
作者 沈亚敏 赵晖 +1 位作者 张权 唐朝京 《计算机工程》 CAS CSCD 北大核心 2011年第5期256-257,260,共3页
为实现语音转换,建立符合要求的汉语语音转换语料库,提出一种基于半音节模型的语料自动选取算法。根据语音转换训练时需要语料数量较少的特征,选择半音节作为语料库的基本单位。在此基础上,从原始语料中自动选取语料,根据语音转换对说... 为实现语音转换,建立符合要求的汉语语音转换语料库,提出一种基于半音节模型的语料自动选取算法。根据语音转换训练时需要语料数量较少的特征,选择半音节作为语料库的基本单位。在此基础上,从原始语料中自动选取语料,根据语音转换对说话人特征较敏感的情况,利用评估函数并根据半音节的出现次数对原始语料中的句子进行打分。实验结果表明,与传统算法相比,该算法在语音库自动选取615句汉语语料时,可以覆盖97.8%的带声调半音节,其覆盖效率、覆盖率和稀疏度有较大改进。 展开更多
关键词 中文信息处理 语音库 语音转换 覆盖率
下载PDF
汉彝机器翻译探析
12
作者 毛呷呷 杨宪泽 《西南民族大学学报(自然科学版)》 CAS 2016年第1期81-84,共4页
探讨汉语彝语机器翻译的方法与实现.阐述了课题研究的背景和意义,给出了技术实施中的时态转换的匹配规则,汉彝句型转换的翻译初步实践、汉语句子单词切分时的边界处理算法.从而实现对源语言汉语单词的切分检索,通过算法对语句进行调序,... 探讨汉语彝语机器翻译的方法与实现.阐述了课题研究的背景和意义,给出了技术实施中的时态转换的匹配规则,汉彝句型转换的翻译初步实践、汉语句子单词切分时的边界处理算法.从而实现对源语言汉语单词的切分检索,通过算法对语句进行调序,再结合彝族特定的语法、句型结构,最终生成目标语言彝语.即采用适合汉彝语法的句法结构转换再增减恰当的词汇来构成符合源语句语义信息的目标语句,从而达到汉彝机器翻译的基本层次. 展开更多
关键词 汉彝机器翻译 汉彝时态转换 汉彝句型转换 边界处理算法
下载PDF
国际汉语教师课堂自启自修型会话修正研究 被引量:1
13
作者 刘佳音 彭爽 《东北师大学报(哲学社会科学版)》 CSSCI 北大核心 2021年第1期56-63,共8页
本文从汉语二语课堂真实语料出发,对阻碍源在国际汉语教师的汉语二语课堂自启自修型会话修正现象进行详细的描写和系统的分析,讨论自启自修型会话修正的基本结构和特殊结构,并根据国际汉语教师实施修正行为的动机和意图对其进行下位分类。
关键词 国际汉语教师 自启自修型 会话修正
下载PDF
音字转换中分层解码模型的研究与改进 被引量:2
14
作者 张顺昌 孙乐 《中文信息学报》 CSCD 北大核心 2009年第6期79-85,共7页
音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识... 音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。 展开更多
关键词 人工智能 自然语言处理 音字转换 HMM模型 中文信息处理 切分歧义
下载PDF
音字转换系统中字词频的智能调整 被引量:1
15
作者 钟文青 徐秉铮 《华南理工大学学报(自然科学版)》 EI CAS CSCD 1995年第10期57-61,共5页
音字转换是汉字的语音输入系统的一个主要组成部分,音字转换的速度和准确性直接影响整个系统的性能。本文提出在音字转换过程中利用字词的概率统计信息(即字词频)进行辅助判决的方法,优化字词的选择,提高音字转换的速度。考虑到人... 音字转换是汉字的语音输入系统的一个主要组成部分,音字转换的速度和准确性直接影响整个系统的性能。本文提出在音字转换过程中利用字词的概率统计信息(即字词频)进行辅助判决的方法,优化字词的选择,提高音字转换的速度。考虑到人们用词的时变性,提出一种在使用过程中对字词频进行智能调整的算法,并引入遗忘机制以适应字词频的减量变化。该方法应用于实际系统中可减少选字时间40%,提高输入速度约20% 展开更多
关键词 语言处理 人工智能 音字转换系统 汉语 语音识别
下载PDF
一个拼音汉字自动转换系统的设计与实现 被引量:1
16
作者 成华 尹宝林 《北京航空航天大学学报》 EI CAS CSCD 北大核心 1996年第4期465-469,共5页
给出了拼音汉字转换的定义,并建立了一个带调拼音语句到汉字语句的自动转换系统.它由五个部分组成:自动分词模块、词法分析模块、句法和语义分析模块、语义修饰模块和显示模块.其中句法分析是系统的核心,在比较各种方法的基础上选... 给出了拼音汉字转换的定义,并建立了一个带调拼音语句到汉字语句的自动转换系统.它由五个部分组成:自动分词模块、词法分析模块、句法和语义分析模块、语义修饰模块和显示模块.其中句法分析是系统的核心,在比较各种方法的基础上选择了扩充转移网络(ATN)模型,使ATN的优点和音字转换的特点得到较好的结合.测试结果表明,系统的正确转换率达到97%. 展开更多
关键词 汉字处理 自动化系统 转换 网络 双向词链表结构
下载PDF
马里亚纳南部弧内坡橄榄岩的岩石学及地球化学特征:对弧前地幔流体交代作用的指示 被引量:1
17
作者 董彦辉 初凤友 +1 位作者 朱继浩 余星 《热带海洋学报》 CAS CSCD 北大核心 2012年第3期120-127,共8页
马里亚纳俯冲带弧内坡由于俯冲的太平洋板片的侵蚀而出露了相当于弧下地幔成分的橄榄岩,这些橄榄岩是研究岛弧岩浆作用及弧下地幔流体交代作用难得的样品。报道了马里亚纳南部关岛以南的弧内坡橄榄岩的矿物组成、主量元素以及微量元素... 马里亚纳俯冲带弧内坡由于俯冲的太平洋板片的侵蚀而出露了相当于弧下地幔成分的橄榄岩,这些橄榄岩是研究岛弧岩浆作用及弧下地幔流体交代作用难得的样品。报道了马里亚纳南部关岛以南的弧内坡橄榄岩的矿物组成、主量元素以及微量元素地球化学特征。这些岩石具有非常难熔的矿物组成:橄榄石具有很高的Mg,斜方辉石中的Al2O3含量极低,尖晶石具有很高的Cr。滑石、蛇纹石和角闪石(透闪石为主,有少量镁角闪石和浅闪石)则指示了流体在中低温度下对橄榄岩的交代作用,并表明流体可能含有较高的SiO2、Al2O3和Na2O。全岩的主量元素中,CaO和Al2O3的质量百分比含量很低,而MgO的含量较高(干体系下多在43%左右),显示岩石经历了高度熔融。微量元素中,U和Sr的含量较高,相对富集,可能是来源较浅的板片流体化学特点的反映。 展开更多
关键词 马里亚纳 橄榄岩 俯冲带 交代作用
下载PDF
基于μC/OS-II平台的PDA中文处理的实现 被引量:1
18
作者 郭鹏 杨根兴 《北京机械工业学院学报》 2004年第3期27-30,45,共5页
基于嵌入式系统μC/OS-II的个人数字助理中的汉字处理技术主要包括汉字的输入和汉字存储的处理。汉字的输入采用拼音输入法,汉字内码以Uni code编码的形式存放,采用阶梯法查找的方式查找与拼音输入码一致的汉字,从一组相同发音的汉字中... 基于嵌入式系统μC/OS-II的个人数字助理中的汉字处理技术主要包括汉字的输入和汉字存储的处理。汉字的输入采用拼音输入法,汉字内码以Uni code编码的形式存放,采用阶梯法查找的方式查找与拼音输入码一致的汉字,从一组相同发音的汉字中选择需要的汉字。Unicode编码中一个汉字使用一个16位数表示,英文字符使用一个8位数表示,μC/OS-II操作系统的文件系统只能直接读写英文字符,在读写和显示汉字时,需要进行中间转换处理。 展开更多
关键词 μC/OS-Ⅱ 中文处理 读写 字符 PDA 汉字内码 拼音输入 英文 相同 发音
下载PDF
会话修正中的洽商策略
19
作者 陈曦 《科教导刊》 2011年第17期198-199,共2页
本文介绍了会话修正和洽商以及它们的作用。运用洽商策略可以很好的诠释会话修正现象的具体过程。
关键词 会话修正 洽商策略 洽商过程
下载PDF
优化决明子配方颗粒的制备工艺及进行指标成分量值转化研究 被引量:4
20
作者 顾永江 《系统医学》 2020年第24期129-131,共3页
目的分析优化决明子配方颗粒的制备工艺,并对其指标成分量值转化进行研究。方法采用正交试验得出最优水煎提取工艺,采用这一工艺制备饮片提取液,减压浓缩后喷雾干燥,并采用干法制粒得配方颗粒,再通过有效成分含量测定,分析制备工艺流程... 目的分析优化决明子配方颗粒的制备工艺,并对其指标成分量值转化进行研究。方法采用正交试验得出最优水煎提取工艺,采用这一工艺制备饮片提取液,减压浓缩后喷雾干燥,并采用干法制粒得配方颗粒,再通过有效成分含量测定,分析制备工艺流程中指标成分量值转化情况。结果提取工艺最优组合为煎煮前浸泡30 min,煎煮时10倍加水量连续煎煮3次,90 min/次;提取液、干粉、配方颗粒的橙黄决明素量值转移率分别为78.69%~81.59%、97.22%~98.63%、98.54%~100.00%,大黄酚量值转移率分别为14.52%~18.72%、85.69%~89.31%、95.79%~100.00%。结论决明子提取工艺稳定,饮片-提取-干粉-制粒工艺制备过程有效成分橙黄决明素及大黄酚的量值转化较高。 展开更多
关键词 决明子 优化 中药配方颗粒 制备工艺 含量测定 量值转化
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部