期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于汉字形音义多元知识和标签嵌入的文本语义匹配模型 被引量:1
1
作者 赵云肖 李茹 +5 位作者 李欣杰 苏雪峰 施艳蕊 乔雪妮 胡志伟 闫智超 《中文信息学报》 CSCD 北大核心 2024年第3期42-55,共14页
文本语义匹配指基于给定的文本判别文本之间的语义关系。针对该任务,现有模型的信息编码未考虑利用除汉字字符外的潜在语义信息,且在分类时未考虑标签信息对模型性能的影响。因此,该文提出了一种使用汉字形音义多元知识和标签嵌入的文... 文本语义匹配指基于给定的文本判别文本之间的语义关系。针对该任务,现有模型的信息编码未考虑利用除汉字字符外的潜在语义信息,且在分类时未考虑标签信息对模型性能的影响。因此,该文提出了一种使用汉字形音义多元知识和标签嵌入的文本语义匹配方法。首先,通过信息编码层对汉字的形音义的多元知识进行编码;其次,通过信息整合层获取融合汉字形音义多元知识的联合表示;然后,经过标签嵌入层利用编码后的分类标签与汉字形音义的联合表示生成信号监督标签;最后,经过标签预测层获取文本层面与标签层面的联合信息表示,进而对文本语义关系进行最终的判别。在多个数据集上的实验结果显示,该文提出的模型优于多个基线模型,验证了模型的有效性。 展开更多
关键词 汉字形音义多元知识 标签嵌入 文本语义匹配
下载PDF
融合汉字多级特征与文本局部特征的中文命名实体识别
2
作者 张慧 秦董洪 +3 位作者 白凤波 罗余特 刘成星 宋蕃桦 《中文信息学报》 CSCD 北大核心 2024年第9期93-107,共15页
针对目前中文命名实体识别模型在复杂语境下准确率较低的问题,添加更多汉字特征以弥补词向量表形、表音方面的不足,引入更多先验知识,丰富语义特征;同时设计一种兼顾全局特征与局部特征的编码器,提升模型面对复杂语境时的鲁棒性与泛化性... 针对目前中文命名实体识别模型在复杂语境下准确率较低的问题,添加更多汉字特征以弥补词向量表形、表音方面的不足,引入更多先验知识,丰富语义特征;同时设计一种兼顾全局特征与局部特征的编码器,提升模型面对复杂语境时的鲁棒性与泛化性;实验结果表明,该文提出的方法在Weibo、OntoNotes 5.0、Boson、People Daily数据集上F_(1)值分别提升1.61、0.37、0.98、0.98,验证汉字本身特征的重要性与通用性的同时,也验证了文本局部特征有助于提升模型性能。此外,还探究了八种不同汉字编码方式对模型性能的影响,实验证明相比于单个拼音字符,汉字的声母、韵母携带更多发音信息,音调、多音字等特征也有利于提升模型性能;最后,在多种文本实例上测试了模型性能,实验结果表明了该文工作的有效性。 展开更多
关键词 字形特征 拼音特征 文本局部特征 命名实体识别
下载PDF
汉语汉字文本词式书写的心理障碍分析 被引量:4
3
作者 彭泽润 马庆株 《北华大学学报(社会科学版)》 2007年第3期54-59,共6页
对汉语汉字文本实行词式书写遇到的心理障碍主要包括浪费纸张、阅读不连贯、词无法确定等。这些误会和消极因素不利于汉语文本改进研究和实践,必须消除。
关键词 汉语词式书写 汉字文本 拼音文本 心理障碍
下载PDF
面向短文本的命名实体识别 被引量:18
4
作者 王丹 樊兴华 《计算机应用》 CSCD 北大核心 2009年第1期143-145,171,共4页
针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不... 针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性,提出用HMM(隐马尔可夫模型)以词性做观察值进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。在由8464篇短文本构成的测试集上运行的实验表明,该方法能较好地进行短文本命名实体识别。 展开更多
关键词 短文本 隐马尔可夫模型 命名实体识别 拼音同指关系库 词性
下载PDF
基于中文语义−音韵信息的语音识别文本校对模型 被引量:7
5
作者 仲美玉 吴培良 +2 位作者 窦燕 刘毅 孔令富 《通信学报》 EI CSCD 北大核心 2022年第11期65-79,共15页
为了研究拼音对检测和纠正语音识别文本错误的影响,提出了一种基于中文语义−音韵信息的文本校对模型。定义了5种拼音编码方法构建字符−音韵嵌入向量,以此作为基于GRU的Seq2Seq模型的输入,并应用注意力机制提取语句的语义−音韵信息来校... 为了研究拼音对检测和纠正语音识别文本错误的影响,提出了一种基于中文语义−音韵信息的文本校对模型。定义了5种拼音编码方法构建字符−音韵嵌入向量,以此作为基于GRU的Seq2Seq模型的输入,并应用注意力机制提取语句的语义−音韵信息来校对语音识别文本错误。针对标注语料不足的问题,提出了一种基于拼音声韵置换的数据增强方法。在AISHELL-3公开数据集的实验结果表明,拼音携带的音韵信息有利于校对语音识别文本错误,所提方法可提升模型的检错性能。 展开更多
关键词 文本校对 语音识别 拼音 注意力机制
下载PDF
基于文本服务框架的拼音输入法研究与实现 被引量:1
6
作者 胡晓 张征 《电脑知识与技术(过刊)》 2016年第4X期206-208,共3页
目前的输入法大多采用输入法管理器-输入法编辑器(IMM-IME)进行开发,对于微软发布的新型输入法技术—文本服务框架(TSF)的研究一直比较滞后,该文论述了TSF的基本构成、主要接口、输入法的具体实现方法以及后续的改进,并使用该技术实现... 目前的输入法大多采用输入法管理器-输入法编辑器(IMM-IME)进行开发,对于微软发布的新型输入法技术—文本服务框架(TSF)的研究一直比较滞后,该文论述了TSF的基本构成、主要接口、输入法的具体实现方法以及后续的改进,并使用该技术实现一款基本TSF输入法,供相关领域的研究人员参考。 展开更多
关键词 拼音输入法 文本服务框架 动态链接库 文本服务 输入法安装
下载PDF
语音转录后文本的中文拼写纠错模型
7
作者 邢月晗 郑岩 《电子测量技术》 北大核心 2023年第6期57-61,共5页
针对目前语音转录文本错误率较高的问题,本文提出一种基于MacBERT的文本先检错后纠错模型,对语音转录后文本进行校正。检错阶段使用MacBERT-BiLSTM-CRF模型检查文本是否有错及出错位置。纠错阶段从置信度和字音相似度两个维度出发,划定... 针对目前语音转录文本错误率较高的问题,本文提出一种基于MacBERT的文本先检错后纠错模型,对语音转录后文本进行校正。检错阶段使用MacBERT-BiLSTM-CRF模型检查文本是否有错及出错位置。纠错阶段从置信度和字音相似度两个维度出发,划定“置信度-字音相似度”曲线判断候选字是否进行纠错。候选字的置信度使用MacBERT语言模型计算,并提出一种基于拼音码的字音相似度计算方法。在语音公开数据集Thchs-30上通过调用百度语音识别API进行实验,相比现有方法,在检错阶段和纠错阶段的精确率、召回率、F1值都得到了提高,其中纠错阶段精确率达到83.32%,提高了转录文本的正确性。 展开更多
关键词 语音 文本纠错 MacBERT 拼音码 Thchs-30
下载PDF
中文文本汉语拼音自动产生系统设计方案
8
作者 侯雨铃 《软件》 2019年第9期144-147,共4页
汉语中有1000多个多音字,正确的判断多音字并进行注音,是计算机拼音合成的难点之一。为了实现对多音字的自动识别标注,采用最大向前匹配、最大向后匹配法对词句进行分词处理。再构建条件概率表,对多音字进行整理归类。最后系统的进行注... 汉语中有1000多个多音字,正确的判断多音字并进行注音,是计算机拼音合成的难点之一。为了实现对多音字的自动识别标注,采用最大向前匹配、最大向后匹配法对词句进行分词处理。再构建条件概率表,对多音字进行整理归类。最后系统的进行注音。通过《中文拼音词典》模块、文本分词模块、《汉字条件概率表》模块、《汉字条件概率表》计算模块、自动产生文本拼音模块构成拼音自动生产系统。 展开更多
关键词 中文文本 汉语拼音 自动生产系统设计
下载PDF
基于拼音输入的语音合成器的设计和实现
9
作者 罗冲 朱吉喆 宋铁成 《信息化研究》 2014年第6期75-78,共4页
设计了基于拼音输入的语音合成器的总体方案,该方案用C语言编程,以STC89C52单片机作为中心控制器,利用国标码的编码特性,选用高效的数据结构,在尽可能减少拼音输入法所占代码空间的情况下,结合矩阵键盘与带中文字库的LCD液晶显示屏实现... 设计了基于拼音输入的语音合成器的总体方案,该方案用C语言编程,以STC89C52单片机作为中心控制器,利用国标码的编码特性,选用高效的数据结构,在尽可能减少拼音输入法所占代码空间的情况下,结合矩阵键盘与带中文字库的LCD液晶显示屏实现中文拼音输入法。按照所设计的拼音输入法操作流程,通过键盘输入文本,在液晶显示屏上显示,利用语音合成技术,文本数据通过语音合成模块的处理,转换为语音,经过功放与喇叭输出,实现硬件的自然语调发声。 展开更多
关键词 拼音输入法 单片机 国标码 语音合成技术
下载PDF
北京地区双语公共标识的社会语言学调查——理论方法篇 被引量:38
10
作者 杨永林 程绍霖 刘春霞 《语言教学与研究》 CSSCI 北大核心 2007年第3期1-6,共6页
本文主要介绍双语公共标识的研究背景及国内外相关研究概况,构建一种社会认知的理论框架,介绍“千百十”抽样概念与“网格定位”调查方法,依据所得海量图片文本数据,区分拼音化、信息性、文本性、跨文化4个主题研究,并对拼音化问题进行... 本文主要介绍双语公共标识的研究背景及国内外相关研究概况,构建一种社会认知的理论框架,介绍“千百十”抽样概念与“网格定位”调查方法,依据所得海量图片文本数据,区分拼音化、信息性、文本性、跨文化4个主题研究,并对拼音化问题进行专题讨论,说明拼音化在双语路标文本中的重要作用,最后重申了社会语言学与跨学科视角对于双语公共标识研究的重要意义。 展开更多
关键词 社会文本 公共标识 北京地区 拼音化 双语街道名称
原文传递
基于多特征融合的中文文本分类研究 被引量:5
11
作者 王艳 王胡燕 余本功 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第10期1-14,共14页
【目的】通过结合拼音字符特征、汉字字符特征、词级别语义特征和词性特征,缓解文本所呈现出的弱结构化、拼写错误及其同音词较多的问题,丰富语义特征,提高模型的分类能力。【方法】多特征融合的文本分类方法,在词级别特征的基础上进行... 【目的】通过结合拼音字符特征、汉字字符特征、词级别语义特征和词性特征,缓解文本所呈现出的弱结构化、拼写错误及其同音词较多的问题,丰富语义特征,提高模型的分类能力。【方法】多特征融合的文本分类方法,在词级别特征的基础上进行词性特征、汉字字符特征和拼音字符特征构建多特征语义表示,然后将特征输入BiGRU中获取上下文语义特征,输入CNN中获取局部语义特征,最终将特征进行融合并输入Softmax中进行分类,预测需要的类别标签。【结果】在两个不同的数据集下,多特征融合的模型的准确率分别达到83.3%和91.1%,比其他分类模型准确率至少提升了7个百分点。【局限】实验数据数量较少,未在更多的数据集上进行验证。【结论】所提方法提升了模型的语义表征能力,是一种有效的文本分类模型,为企业进行高效文本分类提供了有效支持。 展开更多
关键词 词性标记 词级别特征 文本分类 拼音字符特征 汉字字符特征
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部