-
题名基于层叠隐马模型的汉语词法分析
被引量:197
- 1
-
-
作者
刘群
张华平
俞鸿魁
程学旗
-
机构
中国科学院计算技术研究所
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第8期1421-1429,共9页
-
基金
国家"九七三"重点基础研究发展规划项目 (G19980 3 0 5 0 7 4
G19980 3 0 5 10 )
中国科学院计算技术研究所领域前沿青年基金项目( 2 0 0 2 6180 2 3 )
-
文摘
提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理 未登录词识别引入了角色HMM :Viterbi算法标注出全局最优的角色序列 ,然后在角色序列的基础上 ,识别出未登录词 ,并计算出真实的可信度 在切分排歧方面 ,提出了一种基于N 最短路径的策略 ,即 :在早期阶段召回N个最佳结果作为候选集 ,目的是覆盖尽可能多的歧义字段 ,最终的结果会在未登录词识别和词性标注之后 ,从N个最有潜力的候选结果中选优得到 不同层面的实验表明 ,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用 实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS ,该系统在 2 0 0 2年的“九七三”专家组评测中获得第 1名 ,在 2 0 0 3年汉语特别兴趣研究组 (ACLSpecialInterestGrouponChineseLanguageProcessing ,SIGHAN)组织的第 1届国际汉语分词大赛中综合得分获得两项第 1名、一项第 2名 这表明 :ICTCLAS是目前最好的汉语词法分析系统之一 。
-
关键词
汉语词法分析
分词
词性标注
未登录词识别
层叠隐马模型
ICTCLAS
-
Keywords
Chinese lexical analysis
word segmentation
POS tagging
unknown words recognition
cascaded hidden Markov model
ICTCLAS
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于小波域隐马模型的树木类图像分割算法
被引量:8
- 2
-
-
作者
李云峰
曹渝昆
朱庆生
汪成亮
-
机构
重庆大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2007年第8期233-235,共3页
-
基金
教育部博士点基金资助项目(20050611027)
重庆市科委自然科学基金计划资助项目(CSTC2006bb2229)
-
文摘
为了克服自然状态植物图像提取困难,尤其是树图像在自然生长状态下背景非常复杂(天空、建筑物、植物等)的问题。提出一种基于小波域隐马模型的树木类图像分割算法。该算法利用形态小波的优良特性,结合隐藏马尔可夫树模型,实现了基于图像纹理的树木类图像分割,并得到了较为理想的实验效果。
-
关键词
图像分割
小波
隐马模型
树木图像
-
Keywords
image segmentation
wavelets
HMM
tree image
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名隐马模型及其在基因识别中的应用
被引量:2
- 3
-
-
作者
曹胜玉
刘来福
-
机构
北京师范大学数学科学学院
-
出处
《数学的实践与认识》
CSCD
北大核心
2006年第9期212-218,共7页
-
文摘
生物信息学是一门新兴交叉学科,隐马模型是广泛用于该学科的数学模型.简要介绍了隐马模型的数学原理,并以大肠杆菌和人的基因识别为例说明了它在基因识别中的应用.
-
关键词
生物信息学
隐马模型
基因识别
-
Keywords
bioinformatics
hidden markov models
gene finding
-
分类号
Q811.4
[生物学—生物工程]
-
-
题名中医医案文献自动分词研究
被引量:9
- 4
-
-
作者
张帆
刘晓峰
孙燕
-
机构
北京中医药大学
-
出处
《中国中医药信息杂志》
CAS
CSCD
2015年第2期38-41,共4页
-
基金
北京中医药大学自主选题项目(2013-JYBZZ-JS-124)
-
文摘
目的研究适用于中医医案文献自动分词的方案。方法使用层叠隐马模型作为分词模型,建立相关中医领域词典及测试语料库,对语料库中古代医案文献和现代医案文献各300篇进行分词及评测。结果在未使用中医领域词典时,两类医案文献分词准确率均为75%左右;使用中医领域词典后,古代医案文献的分词准确率达到90.73%,现代医案文献的分词准确率达到95.66%。在未使用中医领域词典时,词性标注准确率古代医案文献为56.74%,现代医案文献为64.81%;使用中医领域词典后,现代医案文献为91.45%,明显高于古代医案文献的78.47%。结论现有分词方案初步解决了中医医案文献的分词问题,对现代医案文献的词性标注也基本正确,但古代医案文献的词性标注影响因素较多,还需进一步研究。
-
关键词
中医医案文献
自动分词
中医领域词典
层叠隐马模型
词性标注
-
Keywords
traditional Chinese medical record literature
automatic word segmentation
dictionary of traditional Chinese medicine
Hierarchical Hidden Markov Model
part-of-speechtagging
-
分类号
R2-05
[医药卫生—中医学]
-
-
题名基于HMM的齿肋赤藓VOZ转录因子的预测与分析
被引量:6
- 5
-
-
作者
高贝
李小双
张道远
-
机构
中国科学院干旱区生物地理与生物资源重点实验室
中国科学院大学
-
出处
《生物信息学》
2014年第2期77-83,共7页
-
基金
国家"973"项目(2014CB954203)
国家自然基金项目(U1170304)资助
-
文摘
VOZ(Vascular plant One Zinc finger protein)作为与植物的进化与发育密切相关的基因,在极端耐旱荒漠苔藓植物齿肋赤藓(Syntrichia caninervis)中对VOZ基因进行挖掘和分析有利于更好的揭示VOZ基因的进化关系,且可作为抗逆基因进行更为深入的分子生物学研究。在VOZ转录因子蛋白中VOZ-domain是一个保守的DNA结合结构功能域,利用VOZ-domain多序列联配构建隐马尔可夫模型序列谱能够很好的进行家族成员的识别和预测。利用拟南芥、小立碗藓和水稻等植物已知的转录因子序列信息构建HMM序列谱模型,对荒漠苔藓齿肋赤藓转录组进行比对搜索。最终得到一条新的齿肋赤藓VOZ转录因子ScVOZ1(NCBI/EBI检索号:HG764415),序列长度为1 495 bp,具有完整的VOZ-domain结构域。生物信息学分析表明其具有转录调控功能和核定位潜能。多序列比对、进化和保守基序分析表明,ScVOZ1蛋白序列与小立碗藓VOZ家族和拟南芥AtVOZ1相似度较高。本研究为进一步研究ScVOZ1基因的功能以及其进化起源奠定了基础。
-
关键词
齿肋赤藓
VOZ转录因子
隐马模型
生物信息学
-
Keywords
Syntrichia caninervis
VOZ transcription factor
HMM
Bioinformatics
-
分类号
Q811.4
[生物学—生物工程]
-
-
题名一种词法分析与字标注分词结合的方法
被引量:1
- 6
-
-
作者
黄小斌
余悦蒙
-
机构
厦门大学信息科学与技术学院
-
出处
《电脑知识与技术(过刊)》
2012年第3X期1814-1817,1820,共5页
-
文摘
提出了一种新的字位置信息标记,使用该标记可以实现字标注分词和词性分析的一体化。通过设计一套包含了词性信息的字位置信息标记,在训练前对训练语料进行改造,将训练语料转化成用新标记标注的语料,然后根据转化的结果进行训练,并用训练产生的隐马模型(HMM)对待分词字符串进行字标注,最后找出最大概率路径作为分词结果,该分词结果同时也包含了词法分析的结果。该文将隐马模型中的viterbi算法修改成N-viterbi算法,采用N-viterbi算法可以实现查找分词图中的前N条最大概率路径。实验表明,该模型可以较准确的完成分词操作,同时可以产生有一定引导作用的词法分析结果。
-
关键词
分词
词法分析
字标注
N-viterbi
隐马模型
一体化
-
Keywords
word segmentation
lexical analysis
word-position tagging
N-viterbi
Hidden Markov Model
integration
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于DSP的语音识别系统及其结构
被引量:3
- 7
-
-
作者
刘玺
雷勇
韦伟
-
机构
四川大学电气信息学院
-
出处
《机械工程与自动化》
2006年第3期22-24,共3页
-
文摘
介绍了一种基于TM S320C 54xxDSP的语音识别系统及语音端点检测的过程,以及隐尔马柯夫模型(HMM)运用到语音识别的基本原理。最后介绍了TM S320C 54xxDSP芯片的一些特点,同时也展现了语音识别技术在今后日常生活中的前景和用途。
-
关键词
语音端点检测
隐尔马柯夫模型(HMM)
语音识别系统
-
Keywords
speech state bit test
Hidden Markov Model (HMM)
speech recognition system
-
分类号
TN912.34
[电子电信—通信与信息系统]
-