期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
结合主题依存特征和Bigram的汉语语言建模方法
1
作者 崔玉红 胡光锐 《上海交通大学学报》 EI CAS CSCD 北大核心 2002年第6期897-900,共4页
在 Bigram语言模型建模过程中 ,语言被看作符号集序列 ,没有考虑语言本身具有的语法和语义结构特征 .虽然在线的文本训练数据迅速增长 ,但语言模型的性能却很难再获得大幅度的提高 .基于统计方法语言建模的基本原理 ,提出了一种结合 Big... 在 Bigram语言模型建模过程中 ,语言被看作符号集序列 ,没有考虑语言本身具有的语法和语义结构特征 .虽然在线的文本训练数据迅速增长 ,但语言模型的性能却很难再获得大幅度的提高 .基于统计方法语言建模的基本原理 ,提出了一种结合 Bigram和主题依存特征的中文语言建模方法 .初步实验结果表明 ,该方法可有效地补充 Bigram模型提取特征的不足 。 展开更多
关键词 主题依存特征 汉语语言建模方法 统计语言模型 bigram模型 主题依存模型 分支度 自然语语处理
下载PDF
SVM+BiHMM:基于统计方法的元数据抽取混合模型 被引量:27
2
作者 张铭 银平 +1 位作者 邓志鸿 杨冬青 《软件学报》 EI CSCD 北大核心 2008年第2期358-368,共11页
提出了一种SVM+BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,... 提出了一种SVM+BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,修改了HMM发射概率计算模型.在SVM+BiHMM复合模型中,首先根据规则把论文粗分为论文头、正文以及引文部分,然后建立SVM模型把文本块划分为元数据子类,接着采用Sigmoid双弯曲函数把SVM分类结果用于拟合调整BiHMM模型的单词发射概率,最后用复合模型进行元数据抽取.SVM方法有效考虑了块间联系,BiHMM模型充分考虑了单词在状态内部的位置信息,二者的元数据抽取结果得到了很好的互补和修正,实验评测结果表明,SVM+BiHMM算法的抽取效果优于其他方法. 展开更多
关键词 元数据抽取 基于规则的信息抽取 支持向量机 隐马尔科夫模型 二元 HMM模型
下载PDF
基于隐马尔可夫模型(HMM)的词性标注的应用研究 被引量:13
3
作者 胡春静 韩兆强 《计算机工程与应用》 CSCD 北大核心 2002年第6期62-64,共3页
利用隐马尔可夫模型(HMM)对英语文本进行词性标注,首先介绍了对Viterbi算法的改进和基于HMM模型方法训练机器的步骤,然后通过一系列对比实验,得出两个结论:二元文法模型的“性能价格比”较三元文法模型更令人满意;词性标注集的个数对词... 利用隐马尔可夫模型(HMM)对英语文本进行词性标注,首先介绍了对Viterbi算法的改进和基于HMM模型方法训练机器的步骤,然后通过一系列对比实验,得出两个结论:二元文法模型的“性能价格比”较三元文法模型更令人满意;词性标注集的个数对词性标注的准确率有影响。最后利用上述结论进行了封闭式测试和开放式测试。 展开更多
关键词 隐马尔可夫模型 VITERBI算法 二元文法模型 词性标记 自然语言处理
下载PDF
一种新的自动文本分类的算法 被引量:1
4
作者 赵敏涯 沈洁 +1 位作者 陈志敏 林颖 《扬州大学学报(自然科学版)》 CAS CSCD 2006年第1期62-65,共4页
研究了统计语言模型中b igram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出了一种新的利用词对及词序信息来改善文本分类结果的方法.实验结果表明:该方法是可行且有效的.
关键词 统计语言模型 自动文本分类 平滑 bigram模型
下载PDF
基于GMBM-UBBM模型的语言辨识研究
5
作者 屈丹 王炳锡 《计算机工程与应用》 CSCD 北大核心 2004年第3期29-32,共4页
高斯混合模型(GMM)是进行说话人无关的语言辨识的一种有效方法,高斯混合二元模型(GMBM)是GMM模型的二元时序扩展,该文在GMBM和GMM-UBM模型的基础上提出了一种基于GMBM-UBBM模型的语言辨识系统,并利用OGI-TS电话语音库对算法的性能进行... 高斯混合模型(GMM)是进行说话人无关的语言辨识的一种有效方法,高斯混合二元模型(GMBM)是GMM模型的二元时序扩展,该文在GMBM和GMM-UBM模型的基础上提出了一种基于GMBM-UBBM模型的语言辨识系统,并利用OGI-TS电话语音库对算法的性能进行了测试,然后给出了实验结果。实验结果表明,该算法也是进行语言辨识的一种有效方法,与传统的GMM-UBM算法相比,该算法最多可以获得4.378%的相对改善率。 展开更多
关键词 高斯混合模型 高斯混合二元模型 全局背景模型 全局背景二元模型 贝叶斯自适应 语言辨识
下载PDF
概率与音系——兼述Goldsmith模式
6
作者 赵忠德 鲜明 《外语与外语教学》 CSSCI 北大核心 2007年第4期60-63,共4页
概率音系学通过研究语音的概率分布来研究音系学,是音系学的新流派。通过对单词部分的概率统计数据,我们可以推断出该单词的合格性。概率统计数据帮助语言学家预测和解释音系模式。Goldsmith提出的单构词成分模式和双构词成分模式,... 概率音系学通过研究语音的概率分布来研究音系学,是音系学的新流派。通过对单词部分的概率统计数据,我们可以推断出该单词的合格性。概率统计数据帮助语言学家预测和解释音系模式。Goldsmith提出的单构词成分模式和双构词成分模式,比较有效地解决了语音配列问题。概率的比较在科学推断和语言学习中起着十分重要的作用。 展开更多
关键词 音系学 概率 单构词成分模式 双构词成分模式 Goldsmith模式
下载PDF
结合语言模型的自动文本分类的应用研究
7
作者 赵敏涯 《计算机与现代化》 2010年第3期141-143,共3页
研究统计语言模型中bigram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出一种利用词对及词序信息来改善文本分类结果的方法。实验结果表明该方法是可行且有效的。
关键词 统计语言模型 文本分类 平滑 bigram
下载PDF
汉字层面的汉语语言统计模型
8
作者 王雪松 杜利民 《电子器件》 CAS 1997年第1期343-349,共7页
利用汉语语言的统计规律对汉语连续语音识别系统的声学到语音学的结果进行纠错及音字转换具有重要意义.本文介绍一个采用统计方法实现的字层面的三元语言模型.它较为充分地利用了前端声学匹配的结果,对于通常的汉语短语及句子的声学识... 利用汉语语言的统计规律对汉语连续语音识别系统的声学到语音学的结果进行纠错及音字转换具有重要意义.本文介绍一个采用统计方法实现的字层面的三元语言模型.它较为充分地利用了前端声学匹配的结果,对于通常的汉语短语及句子的声学识别结果,具有很高的纠错率及转换率. 展开更多
关键词 语言统计模型 语音识别
下载PDF
A NOVEL SPACE-COMPRESSED CHINESE WORD DIGRAM BASED ON BI-CHARACTER CO-ARTICULATION FREQUENCY 被引量:1
9
作者 Zhao Yibao Qiao Liyan Tan Jianxun Sun Shenghe(Automatic Test and Control Department, Harbin Institute of Technology, Harbin 150001) (Robot Research Institute, Harbin Institute of Technology, Harbin 150001) 《Journal of Electronics(China)》 2000年第2期178-184,共7页
Chinese Phonetic-Character Conversion(CPCC) is an important issue in Chinese speech recognition and Chinese sentence keyboard input system. The approaches based on large corpus statistic Markov language model (such as... Chinese Phonetic-Character Conversion(CPCC) is an important issue in Chinese speech recognition and Chinese sentence keyboard input system. The approaches based on large corpus statistic Markov language model (such as bigram, trigram) become more and more popular today. This paper presents an improved Chinese word bigram, space-compressed Chinese word bigram, which stores the bi-word co-articulation frequency in the form of the bi-character co-articulation frequency. The bi-word co-articulation frequency is estimated from the bi-character co-articulation frequency library. The CPCC experiment with the improved Chinese word bigram shows: it can reach a higher correct conversion ratio with less space occupation. 展开更多
关键词 CPCC MARKOV model bigram WORD FREQUENCY ESTIMATE
下载PDF
基于药物疗效日志的临床路径挖掘方法 被引量:2
10
作者 李睿易 鲁法明 +2 位作者 包云霞 曾庆田 朱冠烨 《计算机集成制造系统》 EI CSCD 北大核心 2019年第4期1017-1025,共9页
标准临床路径对于规范治疗流程、提高治疗效果具有重要作用,但当前的临床路径是面向同一病种的所有患者制定的,无法体现患者或者医疗部门的个性化信息。为了实现符合患者和医疗部门特点的个性化临床路径,从医疗信息化系统中记录的患者... 标准临床路径对于规范治疗流程、提高治疗效果具有重要作用,但当前的临床路径是面向同一病种的所有患者制定的,无法体现患者或者医疗部门的个性化信息。为了实现符合患者和医疗部门特点的个性化临床路径,从医疗信息化系统中记录的患者处方数据出发,进行药物治疗临床路径的挖掘。首先由处方数据结合DrugBank数据库生成患者的每日用药疗效文档;然后使用词对隐狄利克雷分布模型对这些药物疗效文档进行主题聚类,得到患者每日所用药物对应的疗效主题;最后以各个患者的药物疗效主题序列为输入,训练概率后缀树模型作为药物治疗的临床路径模型,该模型既可以辅助专家进行个性化临床路径的制定,也可以用于患者后续服用药物的推荐。以MIMIC-Ⅲ数据库中肺炎患者的处方数据为实例,对所提方法的可行性和有效性进行了验证。 展开更多
关键词 过程挖掘 词对隐狄利克雷分布模型 概率后缀树 临床路径
下载PDF
基于二元背景模型的新词发现 被引量:10
11
作者 吴悦 燕鹏举 翟鲁峰 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第9期1317-1320,共4页
该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新... 该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新词特征,又可以成词。而且该方法充分利用现有背景生语料却无需分词等标注信息,不依赖词典、分词模型和规则,具有良好的扩展性。为了得到更好的发现效果,还讨论了各统计量阈值的选取策略和垃圾元素剔除策略。该方法在网络小说语料上验证了其有效性。 展开更多
关键词 新词发现 二元组 背景模型 似然比
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部