期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于N-Gram模型的高速汉字编码识别系统 被引量:4
1
作者 李继锋 刘群 《计算机工程与应用》 CSCD 北大核心 2004年第3期39-41,177,共4页
该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字... 该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字的字频计算输入串的生成概率,可以高速、准确识别。 展开更多
关键词 编码识别 n元语法模型 一元语法模型 n—gram模型 自动识别文档 汉字编码
下载PDF
基于N-gram模型的中文分词算法的研究 被引量:4
2
作者 丁洁 赵景惠 《福建电脑》 2017年第5期110-110,116,共2页
本文对中文分词的定义和正向最大匹配法进行了分析和研究,本系统在传统机械分词的基础上加入了优化技术,基于N-gram模型的中文分词算法的效率和正确率都相对较高,最后对中文分词技术进行了一定的展望和提出了下一步的工作。
关键词 中文分词 正向最大匹配法 基于n—gram模型
下载PDF
基于N-gram语言模型的哈萨克文机构名识别 被引量:2
3
作者 冯鲸华 古丽拉.阿东别克 玛依来.哈帕尔 《计算机工程与应用》 CSCD 北大核心 2010年第31期135-138,共4页
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训... 针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的机构名进行识别,实验结果表明该方法可行。 展开更多
关键词 n—gram语言模型 哈萨克文机构名识别 实体名识别
下载PDF
基于语义扩展模型的中文网页关键词抽取 被引量:4
4
作者 汪洋 帅建梅 《计算机工程》 CAS CSCD 2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方... 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 展开更多
关键词 中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
下载PDF
基于混合语言模型的中文智能输入技术
5
作者 章森 刘磊 刁麓弘 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第9期997-1001,共5页
分析了中文智能输入技术的研究现状和存在的问题,提出了基于混合n-gram的中文智能输入技术,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,讨论了自动预测与系统学习功能的实现.测试结果表明拼音到汉字... 分析了中文智能输入技术的研究现状和存在的问题,提出了基于混合n-gram的中文智能输入技术,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,讨论了自动预测与系统学习功能的实现.测试结果表明拼音到汉字自动转换正确率达到了92.1%,基本实现了预期目标. 展开更多
关键词 中文智能输入 n—gram语言模型 MARKOV模型 字词网格 用户行为
下载PDF
基于音节首字母匹配的音译单元对齐方法 被引量:1
6
作者 赵明明 梁颖红 +1 位作者 周美玲 姚建民 《江南大学学报(自然科学版)》 CAS 2009年第6期639-642,共4页
音译涉及的两种语言采用不同的字母表和发音系统时(英语和汉语,英语和日语,英语和阿拉伯语等),机器音译就更复杂且更具有挑战性。音译单元对齐结果的好坏严重影响机器音译的准确率,为此研究了英汉机器音译中音译单元的对齐,提出了基于... 音译涉及的两种语言采用不同的字母表和发音系统时(英语和汉语,英语和日语,英语和阿拉伯语等),机器音译就更复杂且更具有挑战性。音译单元对齐结果的好坏严重影响机器音译的准确率,为此研究了英汉机器音译中音译单元的对齐,提出了基于音节首字母匹配的音译单元对齐方法,该方法在音译单元的对齐中有较好的表现。 展开更多
关键词 音译单元 机器音译 VITERBI算法 n—gram模型
下载PDF
一种抗噪音的中文网页分类方法 被引量:1
7
作者 王小冷 王斌 《中文信息学报》 CSCD 北大核心 2007年第4期48-54,共7页
网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索:把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网... 网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索:把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,在中文Web信息检索论坛提供的中文网页分类训练集——CCT2002-v1.1(Corp_1)和我们自己整理的中文网页集(Corp_2)进行了实验。验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBayes的分类性能远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感。然后通过对特征的分析,探讨了NGBayes抗噪音的原因。从而得出结论:NGBayes是一种抗噪音的中文网页分类方法。 展开更多
关键词 计算机应用 中文信息处理 n—gram模型 nBayes Knn
下载PDF
基于LSI理论的文本自动聚类研究 被引量:4
8
作者 常娥 《图书情报工作》 CSSCI 北大核心 2012年第11期89-92,共4页
结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类... 结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。 展开更多
关键词 文本聚类 LSI模型n—gram算法K-means算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部