-
题名最大熵和条件随机场模型相融合的藏文人名识别
被引量:21
- 1
-
-
作者
加羊吉
李亚超
宗成庆
于洪志
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2014年第1期107-112,共6页
-
基金
国家自然基金重点项目(61032008)
西北民族大学中央高校基本科研业务费专项资金资助项目(ycx12003)
模式识别国家重点实验室开放课题(201001051)
-
文摘
藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相融合的藏文人名识别方法。实验表明,该方法可以获取较好的识别效果,在我们的测试集上F-测度值到达了93.08%。
-
关键词
藏文人名识别
最大熵
条件随机场
-
Keywords
Tibetan name identification
maximum entropy
conditional random fields
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于置信度的藏文人名识别的主动学习模型研究
被引量:4
- 2
-
-
作者
王志娟
刘飞飞
赵小兵
宋伟
-
机构
中央民族大学信息工程学院
国家语言资源监测与研究少数民族语言中心
好未来教育科技集团
-
出处
《中文信息学报》
CSCD
北大核心
2019年第8期53-59,共7页
-
基金
国家自然科学基金(61331013,61501529)
-
文摘
训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示:选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约10MB的语料,该主动学习方法降低了约66%的语料标注规模。
-
关键词
藏文人名识别
主动学习
置信度
-
Keywords
Tibetan person name recognition
active learning
confidence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名CRF与规则相结合的藏文人名识别方法
被引量:1
- 3
-
-
作者
加羊吉
李亚超
于洪志
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《西北民族大学学报(自然科学版)》
2016年第3期41-45,共5页
-
基金
国家社科青年基金项目(15CYY043)
国家自然基金地区基金项目(61363057)
-
文摘
文章就藏文人名本身的特性分析了人名识别的难点,提出了CRF与规则相结合的藏文人名识别方法.该方法首先以CRF作为机器学习模型,充分利用藏文人名的各类特征,然后针对人名不能全面召回的问题,利用规则方法进行后处理,最终建立了一种优势互补的识别模型.实验结果表明,该文提出的方法具有较好的性能,F-值可达91.55.
-
关键词
藏文人名识别
命名实体
CRF模型
规则
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名统计与规则相结合的藏文人名自动识别研究
被引量:9
- 4
-
-
作者
窦嵘
加羊吉
黄伟
-
机构
甘肃同元信息系统技术有限责任公司
西北民族大学中国民族语言文字信息技术重点实验室
周口师范学院计算机科学技术系
-
出处
《长春工程学院学报(自然科学版)》
2010年第2期113-115,共3页
-
基金
国家自然科学基金(60970071)
-
文摘
提出了一种基于统计与规则相结合的藏文人名自动识别方法。该方法充分挖掘了人名与上下文信息的关联程度,引入互信息对关联程度进行了定量的描述。根据大规模语料(30.2 M文本语料)的统计数据所建立的规则极大地提高了识别算法的准确率;在处理汉族音译人名情况时,采用姓氏驱动的方法,很好地解决了藏文文本中汉族人名的识别问题。实验结果表明,该方法具有较高的准确率和召回率。
-
关键词
藏文人名识别
互信息
格助词
人名词典
-
Keywords
Tibetan names recognition
mutual information
case-auxiliary word
name lexicon
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-