期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
字典与统计相结合的中文分词方法 被引量:42
1
作者 翟凤文 赫枫龄 左万利 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速... 提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. 展开更多
关键词 中文分词 基于字典的分词 基于统计的分词 交集型分词歧义
下载PDF
一种基于可信度的人名识别方法 被引量:20
2
作者 罗智勇 宋柔 《中文信息学报》 CSCD 北大核心 2005年第3期67-72,86,共7页
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了... 专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。 展开更多
关键词 计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度
下载PDF
中文分词模型的领域适应性方法 被引量:59
3
作者 韩冬煦 常宝宝 《计算机学报》 EI CSCD 北大核心 2015年第2期272-281,共10页
字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力... 字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性. 展开更多
关键词 卡方统计量 边界熵 领域适应性 自举算法 中文分词 社会计算 社交网络
下载PDF
可扩展统计分词系统的构造
4
作者 金华兴 戴新宇 陈家骏 《计算机工程与应用》 CSCD 北大核心 2005年第23期176-178,共3页
论文从实用的角度出发,在自行开发的一套分词系统的基础上,简要说明了一个分词系统的各个组成部分以及各部分的处理方法,并提出了一个可扩展分词系统的框架。这个框架具有很好的适应性和灵活性,能够适用于各种不同的统计方法或者规则统... 论文从实用的角度出发,在自行开发的一套分词系统的基础上,简要说明了一个分词系统的各个组成部分以及各部分的处理方法,并提出了一个可扩展分词系统的框架。这个框架具有很好的适应性和灵活性,能够适用于各种不同的统计方法或者规则统计相结合的方法。该框架也可包容各种未登录词识别的方法。可以作为进一步研究和开发分词系统的一个基础平台,也可以为构造一个分词系统作指导。 展开更多
关键词 分词 统计方法 可扩展 框架
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部