-
题名基于汉语二字应成词的歧义字段切分方法
被引量:8
- 1
-
-
作者
郑德权
于凤
王开涛
赵铁军
-
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨商业大学计算中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第1期17-18,26,共3页
-
基金
国家863高技术研究发展计划(编号:2001AA114101)
-
文摘
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。
-
关键词
汉语二字应成词
歧义字段切分方法
中文信息处理
t-信息差
自动分词
汉语文本
-
Keywords
interact information,difference of t-information,two Chinese characters used as a word,word automatic segmentation,ambiguity word
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于知识图谱的自然语言中歧义字段切分系统设计
- 2
-
-
作者
杨凡
任丹
-
机构
湖北文理学院计算机工程学院
-
出处
《现代电子技术》
北大核心
2020年第1期44-47,52,共5页
-
基金
国家语委科研项目(YB135-109)
-
文摘
传统自然语言中歧义字段切分系统设计对于歧义字段的分辨能力较差,切分效率差,准确度低。针对上述问题,设计一种基于知识图谱的自然语言中歧义字段切分系统。系统硬件设计了三个模块:采集及分词知识提取模块负责对自然语言中的字段进行收集与信息提取,辨别歧义字段;算法与测试模块处理负责检测所捕捉字段的歧义字段信息,提高系统精准度;分词识别模块负责对歧义字段进行系统切分。软件设计了系统的各项功能,包括系统分词精度提升功能、速度提升功能、完备性增强功能、可维护性以及系统可移植性增强功能,综合整理各结构的性能,进一步提高整体系统切分能力,以实现对歧义字段的切分目的。为检测系统工作效果,与传统系统进行实验对比,结果表明,基于知识图谱的自然语言中歧义字段切分系统设计的切分效果优于传统系统设计。
-
关键词
知识图谱
自然语言
歧义字段切分
系统设计
信息提取
效果检测
-
Keywords
knowledge map
natural language
ambiguity field segmentation
system design
information extraction
effect detection
-
分类号
TN02-34
[电子电信—物理电子学]
-
-
题名高频最大交集型歧义切分字段在汉语自动分词中的作用
被引量:51
- 3
-
-
作者
孙茂松
左正平
邹嘉彦
-
机构
清华大学智能技术与系统国家重点实验室
香港城市大学语言资讯科学研究中心
-
出处
《中文信息学报》
CSCD
北大核心
1999年第1期27-34,共8页
-
基金
国家自然科学基金
-
文摘
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。
-
关键词
中文信息处理
汉语自动分词
歧义切分字段
-
Keywords
Chinese information processing Chinese word segmentation maximal crossing ambiguities with high frequency memory based disambiguation strategy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语交集型歧义切分字段关于专业领域的统计特性
被引量:3
- 4
-
-
作者
乔维
孙茂松
-
机构
清华信息科学与技术国家实验室(筹)
-
出处
《中文信息学报》
CSCD
北大核心
2008年第4期10-18,共9页
-
基金
国家自然科学基金资助项目(60573187)
国家863计划资助项目(2007AA01Z148)
-
文摘
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。
-
关键词
计算机应用
中文信息处理
汉语自动分词
专业领域语料库
交集型歧义切分字段
伪歧义
真歧义
-
Keywords
computer application
Chinese information processing
Chinese word segmentation
domain-specific corpus
overlapping ambiguity
pseudo ambiguity
true ambiguity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名歧义切分与专有名词识别软件
被引量:4
- 5
-
-
作者
刘开瑛
-
机构
山西大学
-
出处
《语言文字应用》
CSSCI
北大核心
2001年第3期9-15,共7页
-
-
关键词
中文文本自动切词
中文信息处理
理论意义
应用价值
歧义字段切分
专有名词识别
识别软件
汉语
-
分类号
H08
[语言文字—语言学]
-
-
题名利用上下文信息解决汉语自动分词中的组合型歧义
被引量:24
- 6
-
-
作者
肖云
孙茂松
邹嘉彦
-
机构
清华大学智能技术与系统国家重点实验室
香港城市大学语言资讯科学研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2001年第19期87-89,106,共4页
-
基金
国家重点基础研究发展规划项目资助课题(课题编号:G1998030507)
-
文摘
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。
-
关键词
自然语言处理
中文计算
汉语自动分词
组合型歧义切分字段
中文信息处理
-
Keywords
natural language processing,Chinese computing,Chinese word segmentation,Combinatorial ambiguity
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文信息处理中自动分词方法的研究
- 7
-
-
作者
叶西切忠
安见才让
-
机构
青海民族大学计算机学院
-
出处
《科技信息》
2011年第31期236-236,256,共2页
-
文摘
藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。
-
关键词
藏文分词
歧义字段切分
未登录词识别
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-