-
题名基于统计方法的中文姓名识别
被引量:34
- 1
-
-
作者
黄德根
杨元生
王省
张艳丽
钟万勰
-
机构
大连理工大学计算机科学与工程系
大连理工大学工程力学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2001年第2期31-37,44,共8页
-
文摘
专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试 ,主要采用基于统计方法 ,进行中文姓名识别。本文建立了有监督学习机制 ,提出了句子切分结果可信度等概念 ,并在此基础上建立了较好的统计模型 ,系统闭式精确率和召回率分别达 95 .97%和 95 .5 2 % ,开式精确率和召回率分别达 92 .37%和 88.6 2 %
-
关键词
双词同现频度
单词频度
学习机制
中文姓名识别
自动分词
统计模型
召回率
可信度
-
Keywords
bi gram frequency
uni gram frequency
learning mechanism
chinese names identification
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名基于N元语法的汉语自动分词系统研究
被引量:2
- 2
-
-
作者
石佳
蔡皖东
-
机构
西北工业大学计算机学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2009年第7期98-101,共4页
-
文摘
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用.
-
关键词
一元语法
二元语法
中文分词
词性标注
-
Keywords
uni-gram
bi-gram
Chinese word segmentation
part of speech tagging
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于N-Gram模型的高速汉字编码识别系统
被引量:4
- 3
-
-
作者
李继锋
刘群
-
机构
中国科学院计算技术研究所软件研究室
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第3期39-41,177,共4页
-
基金
国家863高技术研究发展计划资助(编号:2002AA142110)
-
文摘
该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字的字频计算输入串的生成概率,可以高速、准确识别。
-
关键词
编码识别
n元语法模型
一元语法模型
N—Gram模型
自动识别文档
汉字编码
-
Keywords
Codeset Recognizing,N-Gram,uni-gram
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-