期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于N元语法的汉语自动分词系统研究 被引量:2
1
作者 石佳 蔡皖东 《微电子学与计算机》 CSCD 北大核心 2009年第7期98-101,共4页
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文&qu... 提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用. 展开更多
关键词 一元语法 二元语法 中文分词 词性标注
下载PDF
便于快速信息融合的主题检测算法 被引量:1
2
作者 施侃晟 刘海涛 +2 位作者 白英彩 宋文涛 周书勇 《电子科技大学学报》 EI CAS CSCD 北大核心 2012年第6期890-892,共3页
物联网要求对海量信息源里的不同主题,自动地高性能地进行检测和融合。目前大多数公开报道的中文主题检测算法时间复杂度是非线性的,在海量多信息源的信息融合方面缺乏可行性。该文采用高效能的一元语法模型结合全文检索的方法降低主题... 物联网要求对海量信息源里的不同主题,自动地高性能地进行检测和融合。目前大多数公开报道的中文主题检测算法时间复杂度是非线性的,在海量多信息源的信息融合方面缺乏可行性。该文采用高效能的一元语法模型结合全文检索的方法降低主题间的比较次数,理论上将算法效率提升到线性。通过新华社实际数据的实验证实,算法的时间复杂度确实为线性的。另算法应用于两项云计算的实际产品中,也验证了算法适用于物联网环境下的高速信息融合。 展开更多
关键词 全文检索 主题检测 一元语法模型 向量空间模型
下载PDF
基于N-Gram模型的高速汉字编码识别系统 被引量:4
3
作者 李继锋 刘群 《计算机工程与应用》 CSCD 北大核心 2004年第3期39-41,177,共4页
该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字... 该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字的字频计算输入串的生成概率,可以高速、准确识别。 展开更多
关键词 编码识别 n元语法模型 一元语法模型 N—Gram模型 自动识别文档 汉字编码
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部