-
题名基于汉语二字应成词的歧义字段切分方法
被引量:8
- 1
-
-
作者
郑德权
于凤
王开涛
赵铁军
-
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨商业大学计算中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第1期17-18,26,共3页
-
基金
国家863高技术研究发展计划(编号:2001AA114101)
-
文摘
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。
-
关键词
汉语二字应成词
歧义字段切分方法
中文信息处理
t-信息差
自动分词
汉语文本
-
Keywords
interact information,difference of t-information,two Chinese characters used as a word,word automatic segmentation,ambiguity word
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语自动分词中的歧义处理
被引量:3
- 2
-
-
作者
张辉丽
孟昭鹏
王慧芝
-
机构
天津大学计算机科学与技术系
-
出处
《微计算机应用》
2006年第6期685-688,共4页
-
文摘
歧义处理是影响分词系统切分精度的重要因素,是自动分词系统设计中的一个核心问题。本文介绍了一种新的分词算法,利用汉语句内相邻字之间的互信息及t-信息差这两个统计量,解决汉语自动分词中的歧义字段的切分问题。试验结果表明,该方法可以有效地提高歧义处理的正确率。
-
关键词
分词
互信息
t-信息差
歧义字段
-
Keywords
word segmentation, interact information, difference of t-information, ambiguity word
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-