-
题名字典与统计相结合的中文分词方法
被引量:42
- 1
-
-
作者
翟凤文
赫枫龄
左万利
-
机构
吉林大学软件学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第9期1766-1771,共6页
-
基金
国家自然科学基金项目(60373099)资助.
-
文摘
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%.
-
关键词
中文分词
基于字典的分词
基于统计的分词
交集型分词歧义
-
Keywords
chinese word segmentation
chinese word segmentation based on dictionary
chinese word segmentation based on statistical method
crossing ambiguities in chinese word segmentation
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于可信度的人名识别方法
被引量:20
- 2
-
-
作者
罗智勇
宋柔
-
机构
北京工业大学
北京语言大学语言信息处理研究所
-
出处
《中文信息学报》
CSCD
北大核心
2005年第3期67-72,86,共7页
-
基金
国家自然科学基金资助项目 (6 0 2 72 0 5 5 )
国家 86 3计划资助项目 (2 0 0 1AA114 111)
教育部科学技术研究重点资助项目 (0 0 12 8)
-
文摘
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。
-
关键词
计算机应用
中文信息处理
自动分词
人名识别
统计方法
可信度
-
Keywords
computer application
chinese information processing
word segmentation
recognition of person-names
statistical method
reliability
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名中文分词模型的领域适应性方法
被引量:59
- 3
-
-
作者
韩冬煦
常宝宝
-
机构
北京大学信息科学技术学院计算语言学研究所计算语言学教育部重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2015年第2期272-281,共10页
-
基金
国家自然科学基金(60975054
61273318)
国家社会科学基金(06BYY048)资助~~
-
文摘
字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性.
-
关键词
卡方统计量
边界熵
领域适应性
自举算法
中文分词
社会计算
社交网络
-
Keywords
chi-square statistics
boundary entropy
domain adaptability
bootstrapping method
chinese word segmentation (CWS)
social computing
social networks
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名可扩展统计分词系统的构造
- 4
-
-
作者
金华兴
戴新宇
陈家骏
-
机构
南京大学计算机软件新技术国家重点实验室计算机科学与技术系
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第23期176-178,共3页
-
基金
国家863高技术研究发展计划项目"面向奥运的多语言信息服务系统"(编号:2002AA117010-04)资助
-
文摘
论文从实用的角度出发,在自行开发的一套分词系统的基础上,简要说明了一个分词系统的各个组成部分以及各部分的处理方法,并提出了一个可扩展分词系统的框架。这个框架具有很好的适应性和灵活性,能够适用于各种不同的统计方法或者规则统计相结合的方法。该框架也可包容各种未登录词识别的方法。可以作为进一步研究和开发分词系统的一个基础平台,也可以为构造一个分词系统作指导。
-
关键词
分词
统计方法
可扩展
框架
-
Keywords
chinese word segmentation,statistical method,extensible,framework
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-