期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
最大熵和条件随机场模型相融合的藏文人名识别 被引量:21
1
作者 加羊吉 李亚超 +1 位作者 宗成庆 于洪志 《中文信息学报》 CSCD 北大核心 2014年第1期107-112,共6页
藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相... 藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相融合的藏文人名识别方法。实验表明,该方法可以获取较好的识别效果,在我们的测试集上F-测度值到达了93.08%。 展开更多
关键词 藏文人名识别 最大熵 条件随机场
下载PDF
基于置信度的藏文人名识别的主动学习模型研究 被引量:4
2
作者 王志娟 刘飞飞 +1 位作者 赵小兵 宋伟 《中文信息学报》 CSCD 北大核心 2019年第8期53-59,共7页
训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并... 训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示:选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约10MB的语料,该主动学习方法降低了约66%的语料标注规模。 展开更多
关键词 藏文人名识别 主动学习 置信度
下载PDF
CRF与规则相结合的藏文人名识别方法 被引量:1
3
作者 加羊吉 李亚超 于洪志 《西北民族大学学报(自然科学版)》 2016年第3期41-45,共5页
文章就藏文人名本身的特性分析了人名识别的难点,提出了CRF与规则相结合的藏文人名识别方法.该方法首先以CRF作为机器学习模型,充分利用藏文人名的各类特征,然后针对人名不能全面召回的问题,利用规则方法进行后处理,最终建立了一种优势... 文章就藏文人名本身的特性分析了人名识别的难点,提出了CRF与规则相结合的藏文人名识别方法.该方法首先以CRF作为机器学习模型,充分利用藏文人名的各类特征,然后针对人名不能全面召回的问题,利用规则方法进行后处理,最终建立了一种优势互补的识别模型.实验结果表明,该文提出的方法具有较好的性能,F-值可达91.55. 展开更多
关键词 藏文人名识别 命名实体 CRF模型 规则
下载PDF
统计与规则相结合的藏文人名自动识别研究 被引量:9
4
作者 窦嵘 加羊吉 黄伟 《长春工程学院学报(自然科学版)》 2010年第2期113-115,共3页
提出了一种基于统计与规则相结合的藏文人名自动识别方法。该方法充分挖掘了人名与上下文信息的关联程度,引入互信息对关联程度进行了定量的描述。根据大规模语料(30.2 M文本语料)的统计数据所建立的规则极大地提高了识别算法的准确率;... 提出了一种基于统计与规则相结合的藏文人名自动识别方法。该方法充分挖掘了人名与上下文信息的关联程度,引入互信息对关联程度进行了定量的描述。根据大规模语料(30.2 M文本语料)的统计数据所建立的规则极大地提高了识别算法的准确率;在处理汉族音译人名情况时,采用姓氏驱动的方法,很好地解决了藏文文本中汉族人名的识别问题。实验结果表明,该方法具有较高的准确率和召回率。 展开更多
关键词 藏文人名识别 互信息 格助词 人名词典
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部