期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于扩展N元文法模型的快速语言模型预测算法 被引量:6
1
作者 单煜翔 陈谐 +1 位作者 史永哲 刘加 《自动化学报》 EI CSCD 北大核心 2012年第10期1618-1626,共9页
针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现... 针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现,极大地提升了语言模型预测的速度,使得高阶语言模型预测成为可能.扩展N元文法模型在解码之前离线生成,生成过程利用了N元文法的稀疏性加速计算过程,并采用了词尾节点前推和分数量化的方法压缩模型存储空间大小.实验表明,相比于采用动态规划在解码过程中实时计算语言模型预测分数的传统方法,本文提出的方法在相同的字错误率下使得整个识别系统识别速率提升了5~9倍,并且采用高阶语言模型预测可获得比低阶预测更优的解码速度与精度. 展开更多
关键词 语音识别 语言模型预测 n元文法模型 解码
下载PDF
《红楼梦》词和N元文法分析 被引量:10
2
作者 肖天久 刘颖 《现代图书情报技术》 CSSCI 2015年第4期50-57,共8页
【目的】研究《红楼梦》前八十回与后四十回的关系,从而判定《红楼梦》是否为一人所写。【方法】定量统计和定性分析相结合,比较前、中、后四十回的独有词;利用虚词、词及词类的N元文法模型、实词以及词长进行聚类;计算三个部分的相似... 【目的】研究《红楼梦》前八十回与后四十回的关系,从而判定《红楼梦》是否为一人所写。【方法】定量统计和定性分析相结合,比较前、中、后四十回的独有词;利用虚词、词及词类的N元文法模型、实词以及词长进行聚类;计算三个部分的相似度。【结果】证明前八十回与后四十回有差异。前八十回用词连贯性较高,更重视细节描写,长词较少,可读性更强;后四十回更重视动作和场景化描写,长词较多,可读性稍弱。【局限】仅限于词和N元文法,未能进一步考察语义、语篇等方面的特征。【结论】从词、词类、短语串和词类串等方面分析,前八十回与后四十回很可能并非一人所作。 展开更多
关键词 风格分析 层次聚类 K—means聚类 n元文法
原文传递
N-gram语言模型中的插值平滑技术研究 被引量:13
3
作者 徐望 王炳锡 《信息工程大学学报》 2002年第4期13-15,共3页
本文研究了N元文法(N gram)统计语言模型中的4种插值平滑算法,在中文语言模型中进行了应用,从语言模型复杂度的角度比较了该4种方法解决零概率问题的效率。
关键词 n-GRAM语言模型 复杂度 插值平滑算法 语音识别 中文语言模型 n元文法统计模型
下载PDF
基于MicroWindows的多设备支持智能中文输入系统 被引量:1
4
作者 周慧娟 向荣 《计算机应用》 CSCD 北大核心 2013年第7期2067-2070,2082,共5页
针对现有嵌入式中文输入系统输入设备种类支持单一、中文输入引擎效率低、用户体验差等问题,提出一种基于MicroWindows的智能中文输入系统。系统首先在前端的设备输入实现层模块式完成了不同类型的设备消息封装投递,然后在消息处理中心... 针对现有嵌入式中文输入系统输入设备种类支持单一、中文输入引擎效率低、用户体验差等问题,提出一种基于MicroWindows的智能中文输入系统。系统首先在前端的设备输入实现层模块式完成了不同类型的设备消息封装投递,然后在消息处理中心对各种输入设备的投递信息进行集中处理,通过统一分发处理的方式编码为输入法处理的消息类型,最后结合改进N元文法模型与用户模型实现中文输入引擎。MIPS等硬件平台的实际应用结果表明,该系统运行状态良好,汉字输入流畅快捷,比以往的中文输入方式提高了35%的输入效率。 展开更多
关键词 n元文法模型 MICROWInDOWS 多设备支持 中文输入法
下载PDF
高性能中文垃圾邮件过滤器 被引量:7
5
作者 齐浩亮 程晓龙 +3 位作者 杨沐昀 何晓宁 李生 雷国华 《中文信息学报》 CSCD 北大核心 2010年第2期76-83,共8页
设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮... 设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮件过滤公开评测数据上的实验结果表明,该文过滤器的性能在TREC 06C数据上优于当年评测的最好成绩,在SEWM07立即反馈上1-ROCA值达到了0.000 0%,并明显优于SEWM08评测在线过滤任务中的所有其他方法。 展开更多
关键词 计算机应用 中文信息处理 中文垃圾邮件过滤 在线学习 逻辑回归模型 字节级n元文法 TOnE
下载PDF
一种混合的中文文本校对方法 被引量:21
6
作者 于勐 姚天顺 《中文信息学报》 CSCD 北大核心 1998年第2期31-36,共6页
本文以模式匹配的方法和3元文法分析的方法为基础,结合语法属性标注和分析的方法,提出了一种混合的中文文本校对方法,其结果优于任何一种方法的单独应用。
关键词 中文校对 n元文法 自然语言处理 中文文本
下载PDF
基于上下文特征分类的评论长句切分方法 被引量:2
7
作者 陈鸿 金培权 +2 位作者 岳丽华 胡玉娟 殷凤梅 《计算机工程》 CAS CSCD 北大核心 2015年第9期233-237,244,共6页
商品评论文本对消费者和商家的决策都有重要参考价值。用户在评论中使用的语言较为随意,语法结构不规则,给文本分析带来很大难度。正确的句子切分是文本信息抽取和挖掘工作的基础。为解决商品评论中用户省略标点情况下的句子切分问题,... 商品评论文本对消费者和商家的决策都有重要参考价值。用户在评论中使用的语言较为随意,语法结构不规则,给文本分析带来很大难度。正确的句子切分是文本信息抽取和挖掘工作的基础。为解决商品评论中用户省略标点情况下的句子切分问题,基于上下文特征,提出使用机器学习的方法对评论长句进行切分。根据大规模评论语料的统计特征选取候选句子切分点,对每一个候选句子切分点提取其上下文特征,并根据语料的统计特征,使用逻辑回归对候选切分点进行分类。实验结果表明,该方法能够有效解决商品评论中用户省略标点情况下的句子切分问题。 展开更多
关键词 句子切分 标点省略 机器学习 上下文特征 n元文法 逻辑回归
下载PDF
一种新的潜在语义分析语言模型 被引量:3
8
作者 任纪生 王作英 《高技术通讯》 CAS CSCD 北大核心 2005年第8期1-5,共5页
提出了基于聚类的方法实现词的快速量化表示,并由此导出潜在语义分析语言模型预测置信度,同时运用新提出的几何加权静态插值方式同三元文法模型相结合,构建了一种新的潜在语义分析语言模型,并将其应用于汉语语音识别.实验表明其效率和... 提出了基于聚类的方法实现词的快速量化表示,并由此导出潜在语义分析语言模型预测置信度,同时运用新提出的几何加权静态插值方式同三元文法模型相结合,构建了一种新的潜在语义分析语言模型,并将其应用于汉语语音识别.实验表明其效率和性能均优于传统基于奇异值分解的潜在语义分析语言模型,相比于三元文法模型,识别错误率相对下降为3.6%~7.1%左右,并为有效量化表示词对进一步提高潜在语义分析语言模型性能提供了新的途径. 展开更多
关键词 语言模型 语音识别 n元文法 潜在语义分析 奇异值分解 汉语语音识别 模型性能 模型预测 插值方式 量化表
下载PDF
基于逻辑回归模型的中文垃圾短信过滤 被引量:2
9
作者 郑晓霞 刘超 邹钰 《黑龙江工程学院学报》 CAS 2010年第4期36-39,共4页
设计并实现中文垃圾短信过滤器,能够较好识别不断变化的垃圾短信。以逻辑回归模型为基础,提出字节级n元文法提取短信特征,并采用TONE(Train On or Near Error)方法训练过滤器。通过实验测试,证明应用该方法实现的垃圾短信过滤效果很好。
关键词 中文垃圾短信过滤 逻辑回归模型 n元文法 TOnE
下载PDF
信息检索中的中文分词问题研究 被引量:4
10
作者 吴凡 《情报杂志》 CSSCI 北大核心 2008年第7期41-43,共3页
分析了信息检索中的中文分词歧义问题,引入N元文法和平滑算法对切分歧义问题和数据稀疏问题进行处理解决,从而来提高信息检索速度和质量。
关键词 中文信息检索 分词 n元文法 平滑算法
下载PDF
潜在语义分析在连续语音识别中的应用
11
作者 欧建林 林茜 史晓东 《计算机工程与应用》 CSCD 北大核心 2009年第32期111-113,共3页
研究了潜在语义分析(LSA)理论及其在连续语音识别中应用的相关技术,在此基础上利用WSJ0文本语料库上构建LSA模型,并将其与3-gram模型进行插值组合,构建了包含语义信息的统计语言模型;同时为了进一步优化混合模型的性能,提出了基于密度... 研究了潜在语义分析(LSA)理论及其在连续语音识别中应用的相关技术,在此基础上利用WSJ0文本语料库上构建LSA模型,并将其与3-gram模型进行插值组合,构建了包含语义信息的统计语言模型;同时为了进一步优化混合模型的性能,提出了基于密度函数初始化质心的k-means聚类算法对LSA模型的向量空间进行聚类。WSJ0语料库上的连续语音识别实验结果表明:LSA+3-gram混合模型能够使识别的词错误率相比较于标准的3-gram下降13.3%。 展开更多
关键词 潜在语义分析 n元文法 K均值聚类 连续语音识别
下载PDF
军用文书自动生成中表层实现的概率模型
12
作者 郭忠伟 桑殿伟 +1 位作者 郑华利 李洪峰 《兵工自动化》 2010年第11期60-62,73,共4页
一种基于语料库的军用文书自动生成中表层实现的概率模型。运用最大熵模型,把N元文法语法模型获取的生成文本中词汇间的同现概率信息、句法依赖树中的句法信息和属性信息进行有机结合,生成文书文本。实验结果证明,该模型可以逐个词汇地... 一种基于语料库的军用文书自动生成中表层实现的概率模型。运用最大熵模型,把N元文法语法模型获取的生成文本中词汇间的同现概率信息、句法依赖树中的句法信息和属性信息进行有机结合,生成文书文本。实验结果证明,该模型可以逐个词汇地生成满足要求的文本。 展开更多
关键词 军用文书 表层实现 n元文法 最大熵模型
下载PDF
关于汉语音字转换中语言模型零概率的问题 被引量:4
13
作者 张瑞强 王作英 陆大 《电子学报》 EI CAS CSCD 北大核心 1998年第8期43-46,共4页
本文研究了音字转换中使用的语言模型问题,从语言模型复杂度的角度研究了三种解决零概率问题的方法的效率,back-off方法,删除插值和非线性插值方法.并且给出了这些方法下使得语言模型复杂度最小的参数的递推公式,通过实验验证了这... 本文研究了音字转换中使用的语言模型问题,从语言模型复杂度的角度研究了三种解决零概率问题的方法的效率,back-off方法,删除插值和非线性插值方法.并且给出了这些方法下使得语言模型复杂度最小的参数的递推公式,通过实验验证了这些递推公式的正确性. 展开更多
关键词 语音识别 语言模型 n元文法
下载PDF
利用FP-树构造多词Trigger对语言模型 被引量:2
14
作者 许永林 史晓东 蔡骏 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第B06期243-246,共4页
在语音识别系统中,Trigger模型作为语言模型的一种,用于描述长距离词与词之间的关系,然而以往的Trigger语言模型多是针对单个词的模型,本文借鉴数据挖掘中关联规则发现的Apriori算法,利用效率比较高的FP树算法产生多词Trigger对,由此构... 在语音识别系统中,Trigger模型作为语言模型的一种,用于描述长距离词与词之间的关系,然而以往的Trigger语言模型多是针对单个词的模型,本文借鉴数据挖掘中关联规则发现的Apriori算法,利用效率比较高的FP树算法产生多词Trigger对,由此构造多词Trigger对语言模型,这种模型能够更多地利用历史数据,弥补了传统N元文法语言模型描述距离小于N的缺点. 展开更多
关键词 TRIGGER 语言模型 FP-树 构造 Apriori算法 语音识别系统 关联规则发现 er模型 数据挖掘 效率比较 模型描述 n元文法 历史数据 长距离 树算法
下载PDF
基于聚类和分类的金庸与古龙小说风格分析 被引量:12
15
作者 肖天久 刘颖 《中文信息学报》 CSCD 北大核心 2015年第5期167-177,共11页
该文以金庸与古龙的小说作为语料,从计算风格学的角度考察二人的风格差异。对比了两人小说的文本从众性、句子破碎度,同时,使用文本聚类的方法对词和词类的N元文法,标点符号的N元文法以及多种特征的总体情况进行了考察,还使用主成分分... 该文以金庸与古龙的小说作为语料,从计算风格学的角度考察二人的风格差异。对比了两人小说的文本从众性、句子破碎度,同时,使用文本聚类的方法对词和词类的N元文法,标点符号的N元文法以及多种特征的总体情况进行了考察,还使用主成分分析和文本分类对八种特征从总体上进行了比较,结果证实金庸与古龙小说风格存在较大差异:金庸小说从众性大于古龙,较多使用俚语方言,口语性更强,同时在语法结构、短语结构、文本节奏以及文本可读性和语言变化程度上也有较大的差异。 展开更多
关键词 计算风格学 n元文法 聚类 分类 句子破碎度
下载PDF
基于共现分析的分类器链标签序列优化方法 被引量:3
16
作者 赖德迪 罗智徽 马应龙 《系统工程与电子技术》 EI CSCD 北大核心 2021年第9期2526-2534,共9页
针对分类器链模型采用随机生成方式确定标签序列会极大影响分类器链性能的问题。通过共现分析技术深入挖掘标签间的潜在关系,提出一种基于贪心算法和n-gram模型的两种标签序列优化策略以提升分类器链模型性能。基于贪心算法的策略通过... 针对分类器链模型采用随机生成方式确定标签序列会极大影响分类器链性能的问题。通过共现分析技术深入挖掘标签间的潜在关系,提出一种基于贪心算法和n-gram模型的两种标签序列优化策略以提升分类器链模型性能。基于贪心算法的策略通过计算和排序标签之间共现率来生成优化的分类器链标签序列,而基于n-gram模型的策略则通过最大化标签之间条件概率来生成优化的分类器链标签序列。最后通过多个多标签基准数据集进行实验验证,实验结果表明,与当前流行的各种分类器链模型相比,所提的两种策略很有竞争力,可以明显提升多标签分类效果。 展开更多
关键词 多标签分类 分类器链 共现分析 n元文法 相关性
下载PDF
基于统计与规则相结合的汉语计算语言模型及其在语音识别中的应用 被引量:2
17
作者 关毅 王晓龙 张凯 《高技术通讯》 EI CAS CSCD 1998年第4期16-20,共5页
把基于统计的语料概率统计方法与基于规则的自然语言理解方法结合起来,提出了一种新的汉语计算语言模型,并把该模型应用于语音识别后处理模块中,取得了较理想的结果。
关键词 语言模型 短语规则 n统计文法 语音识别
下载PDF
一种汉语语音网络搜索方法
18
作者 王贺 冯谱 《山东理工大学学报(自然科学版)》 CAS 2007年第2期64-67,共4页
语音的网络搜索,不同于传统文字输入的搜索方式,它可应用于特定的环境场合,而且汉语语音搜索将是未来网络技术发展的重要方向.本文将从汉语语言模型建立和语音网络搜索两个主要方面,给出一种适合汉语的网络搜索方法.
关键词 汉语语音 语言模型 隐含马尔可夫模型 n元文法 词组 词汇表
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部