期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
利用汉字二元语法关系解决汉语自动分词中的交集型歧义 被引量:66
1
作者 孙茂松 黄昌宁 +2 位作者 邹嘉彦 陆方 沈达阳 《计算机研究与发展》 EI CSCD 北大核心 1997年第5期332-339,共8页
本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理... 本文提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法.汉字二元语法关系(bigram)为相关计算的基础,直接从生语料库中自动习得.初步的实验结果显示,可以正确处理90. 展开更多
关键词 汉语 自动分词 汉字二元语法 计算机语言学
下载PDF
一种基于单字统计二元文法的自组词音字转换算法 被引量:6
2
作者 赵以宝 孙圣和 《电子学报》 EI CAS CSCD 北大核心 1998年第10期55-59,共5页
音字转换在语音识别和汉字语句键盘输入方面都占有很重要的地位.现在比较流行的方法是基于大语料统计的Markov模型的音字转换方法其中基于单字N元文法的音字转换算法具有数据量少、算法简单的优点.但转换准确率却较低;而基于词N元文法... 音字转换在语音识别和汉字语句键盘输入方面都占有很重要的地位.现在比较流行的方法是基于大语料统计的Markov模型的音字转换方法其中基于单字N元文法的音字转换算法具有数据量少、算法简单的优点.但转换准确率却较低;而基于词N元文法的音字转换算法则正好相反本文在基于单字统计Bigram算法的基础上提出了一种自组词的音字转换方法,不仅具有单字Brgram方法的占空间少的优点.而且又可充分利用基于词Bigram算法的优点,实验表明该方法容易实现而且具有较高的转换准确率. 展开更多
关键词 音字转换 二元文法 自组词 语音识别
下载PDF
二元语法中文分词数据平滑算法性能研究 被引量:4
3
作者 刘丹 方卫国 周泓 《计算机工程与应用》 CSCD 北大核心 2009年第17期33-36,共4页
将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析各平滑算法的实际性能,结果表明,简单的加值平滑算法性能最优,封闭精度、召回率分别为99.68%、99.7%,... 将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析各平滑算法的实际性能,结果表明,简单的加值平滑算法性能最优,封闭精度、召回率分别为99.68%、99.7%,开放精度、召回率为98.64%、98.74%。 展开更多
关键词 数据平滑 中文分词 二元语法
下载PDF
基于LDA的弱监督文本分类方法 被引量:3
4
作者 张金瑞 柴玉梅 +1 位作者 昝红英 高明磊 《计算机工程与设计》 北大核心 2017年第1期86-91,共6页
针对传统的文本分类方法需要大量人工标注好的训练数据,且数据标注的好坏会影响结果等问题,通过对LDA及其相关模型的研究,提出一种基于LDA的弱监督文本分类算法。无需人工标注训练数据,在处理文本时,引入词向量,保持文本中的词序,加入... 针对传统的文本分类方法需要大量人工标注好的训练数据,且数据标注的好坏会影响结果等问题,通过对LDA及其相关模型的研究,提出一种基于LDA的弱监督文本分类算法。无需人工标注训练数据,在处理文本时,引入词向量,保持文本中的词序,加入二元语法。实验结果表明,该方法节省了人力、物力,取得了较优效果。 展开更多
关键词 文本分类 潜在狄利克雷分布 主题 词序 二元语法
下载PDF
现代汉语计算语言模型中语言单位的频度—频级关系 被引量:15
5
作者 关毅 王晓龙 张凯 《中文信息学报》 CSCD 北大核心 1999年第2期8-15,共8页
Zipf定律是一个反映英文单词词频分布情况的普适性统计规律。我们通过实验发现,在现代汉语的字、词、二元对等等语言单位上,其频度与频级的关系也近似地遵循Zipf定律,说明了Zipf定律对于汉语的不同层次的语言单位也是普... Zipf定律是一个反映英文单词词频分布情况的普适性统计规律。我们通过实验发现,在现代汉语的字、词、二元对等等语言单位上,其频度与频级的关系也近似地遵循Zipf定律,说明了Zipf定律对于汉语的不同层次的语言单位也是普遍适用的。本文通过实验证实了Zipf定律所反映的汉语语言单位频度—频级关系,并进而深入讨论了它对于汉语自然语言处理的各项技术。 展开更多
关键词 语言单位 汉语 计算语言模型 频度-频级关系
下载PDF
常用字“定型字义”和二字词“词义方程式” 被引量:1
6
作者 鲁川 王玉菊 《汉语学习》 CSSCI 北大核心 2006年第2期3-13,共11页
本文介绍两个汉语知识数据库:一是包括3500常用字的“定型字义数据库“,另一个是包括20000个常用二字词及其词义方程式的“词义数据库”。一个“词义方程式”中包含五个“词义因子”:前字字义、后字字义、词的结构意义、词的核心意义、... 本文介绍两个汉语知识数据库:一是包括3500常用字的“定型字义数据库“,另一个是包括20000个常用二字词及其词义方程式的“词义数据库”。一个“词义方程式”中包含五个“词义因子”:前字字义、后字字义、词的结构意义、词的核心意义、词的引申意义。“词义方程式”有助于在对外汉语词汇教学中把“二字词”先拆开解释,然后再合起来解释其整体,从而使汉语学习者真正透彻地理解词义。 展开更多
关键词 定型字义 二字词 词义方程式
下载PDF
基于词图的最大概率分词方法
7
作者 刘汉兴 朱梅阶 +1 位作者 刘财兴 林旭东 《计算机工程与设计》 CSCD 北大核心 2008年第24期6370-6372,共3页
中文分词的方法主要可分为基于规则和基于统计两大类:前者一般借助于词图的方法,将分词问题转化为最优路径问题,通常切分结果不惟一;后者利用统计模型对语料库进行统计,计算量较大,但准确率较高。对词图和N元语法进行了介绍,并结合两者... 中文分词的方法主要可分为基于规则和基于统计两大类:前者一般借助于词图的方法,将分词问题转化为最优路径问题,通常切分结果不惟一;后者利用统计模型对语料库进行统计,计算量较大,但准确率较高。对词图和N元语法进行了介绍,并结合两者实现了一种中文分词方法。该方法将词图中的最大概率路径作为中文句子分词的结果,其中涉及对语料库进行二元词频统计,设计了一个多级哈希结构的分词词典,实验数据表明该方法能有效地进行自动分词。 展开更多
关键词 中文分词 词图 二元语法 最大概率 最优路径
下载PDF
基于Bigram的特征词抽取及自动分类方法研究 被引量:5
8
作者 王笑旻 《计算机工程与应用》 CSCD 北大核心 2005年第22期177-179,210,共4页
用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基... 用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基于统计学习原理和结构风险最小原则的支持向量机算法对一些文本进行了分类,验证了由所提出的算法得到的特征词的有效性和可行性。 展开更多
关键词 自动文本分类 自动分词 互信息 Bigram
下载PDF
A NOVEL SPACE-COMPRESSED CHINESE WORD DIGRAM BASED ON BI-CHARACTER CO-ARTICULATION FREQUENCY 被引量:1
9
作者 Zhao Yibao Qiao Liyan Tan Jianxun Sun Shenghe(Automatic Test and Control Department, Harbin Institute of Technology, Harbin 150001) (Robot Research Institute, Harbin Institute of Technology, Harbin 150001) 《Journal of Electronics(China)》 2000年第2期178-184,共7页
Chinese Phonetic-Character Conversion(CPCC) is an important issue in Chinese speech recognition and Chinese sentence keyboard input system. The approaches based on large corpus statistic Markov language model (such as... Chinese Phonetic-Character Conversion(CPCC) is an important issue in Chinese speech recognition and Chinese sentence keyboard input system. The approaches based on large corpus statistic Markov language model (such as bigram, trigram) become more and more popular today. This paper presents an improved Chinese word bigram, space-compressed Chinese word bigram, which stores the bi-word co-articulation frequency in the form of the bi-character co-articulation frequency. The bi-word co-articulation frequency is estimated from the bi-character co-articulation frequency library. The CPCC experiment with the improved Chinese word bigram shows: it can reach a higher correct conversion ratio with less space occupation. 展开更多
关键词 CPCC MARKOV model Bigram WORD FREQUENCY ESTIMATE
下载PDF
面向高效越南语分词的有监督集成学习框架
10
作者 刘伍颖 王琳 《小型微型计算机系统》 CSCD 北大核心 2018年第6期1213-1217,共5页
在很多亚洲语言书面文本中,词与词之间没有明显的分隔符,因此这些文本的自动分词任务依然具有挑战性.相应的分词算法能够被广泛用于各种自然语言处理应用当中.本文针对越南语分词问题,提出了一套完整的有监督集成学习框架,并且实现了一... 在很多亚洲语言书面文本中,词与词之间没有明显的分隔符,因此这些文本的自动分词任务依然具有挑战性.相应的分词算法能够被广泛用于各种自然语言处理应用当中.本文针对越南语分词问题,提出了一套完整的有监督集成学习框架,并且实现了一种新的基于有监督集成学习的分词算法.在二元音节频率索引数据结构支持下,我们实现的分词算法能够综合多个基本分词器的优势,形成一个集成分词器.公开数据集上的越南语分词实验结果表明我们提出的框架在统计、计算和表示上具有良好的表现,算法最终能够达到最优的分词效果. 展开更多
关键词 有监督集成学习框架 越南语分词 多基本分词器 二元音节频率索引
下载PDF
基于二元背景模型的新词发现 被引量:10
11
作者 吴悦 燕鹏举 翟鲁峰 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第9期1317-1320,共4页
该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新... 该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新词特征,又可以成词。而且该方法充分利用现有背景生语料却无需分词等标注信息,不依赖词典、分词模型和规则,具有良好的扩展性。为了得到更好的发现效果,还讨论了各统计量阈值的选取策略和垃圾元素剔除策略。该方法在网络小说语料上验证了其有效性。 展开更多
关键词 新词发现 二元组 背景模型 似然比
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部