期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
32
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于改进BP网络的中文歧义字段分词方法研究
被引量:
12
1
作者
张利
张立勇
+2 位作者
张晓淼
耿铁锁
岳宗阁
《大连理工大学学报》
EI
CAS
CSCD
北大核心
2007年第1期131-135,共5页
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特...
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则.训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度.
展开更多
关键词
文本挖掘
歧义字段
自然语言处理
神经网络
下载PDF
职称材料
基于汉语二字应成词的歧义字段切分方法
被引量:
8
2
作者
郑德权
于凤
+1 位作者
王开涛
赵铁军
《计算机工程与应用》
CSCD
北大核心
2003年第1期17-18,26,共3页
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确...
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。
展开更多
关键词
汉语二字应成词
歧义字段
切分方法
中文信息处理
t-信息差
自动分词
汉语文本
下载PDF
职称材料
基于语料库的高频最大交集型歧义字段考察
被引量:
6
3
作者
李斌
陈小荷
+1 位作者
方芳
徐艳华
《中文信息学报》
CSCD
北大核心
2006年第1期1-6,共6页
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上...
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。
展开更多
关键词
计算机应用
中文信息处理
最大交集型
歧义字段
全切分
强势切分
下载PDF
职称材料
关于歧义字段切分的思考与实验
被引量:
14
4
作者
刘挺
王开铸
《中文信息学报》
CSCD
北大核心
1998年第2期63-64,共2页
关于歧义字段切分的思考与实验刘挺王开铸哈尔滨工业大学计算机系哈尔滨工业大学319信箱150001通常认为:如果一个字段存在不同的切分形式,则称该字段为歧义字段。假设A,B,C分别代表一个或多个字组成的字串,在字段AB...
关于歧义字段切分的思考与实验刘挺王开铸哈尔滨工业大学计算机系哈尔滨工业大学319信箱150001通常认为:如果一个字段存在不同的切分形式,则称该字段为歧义字段。假设A,B,C分别代表一个或多个字组成的字串,在字段ABC中如果A,AB,BC,C都是词,...
展开更多
关键词
歧义字段
切分
组合型
交集型
下载PDF
职称材料
HENU汉语自动分词系统中歧义字段消除算法
被引量:
5
5
作者
郑逢斌
付征叶
+1 位作者
乔保军
毋琳
《河南大学学报(自然科学版)》
CAS
2004年第4期49-52,共4页
先用基于词典的最大匹配法匹配出最长词和次长词,再用检测跨越的方法发现切分歧义,判断出切分歧义是交集型切分歧义还是组合型切分歧义,根据切分歧义类型的不同分别进行切分歧义的消除.交集型切分歧义的消除方法主要是混合使用基于规则...
先用基于词典的最大匹配法匹配出最长词和次长词,再用检测跨越的方法发现切分歧义,判断出切分歧义是交集型切分歧义还是组合型切分歧义,根据切分歧义类型的不同分别进行切分歧义的消除.交集型切分歧义的消除方法主要是混合使用基于规则的方法和基于统计的方法,组合型歧义的消除方法主要是使用基于规则的方法,找到正确的切分位置.
展开更多
关键词
自然语言处理
自动分词
歧义字段
下载PDF
职称材料
一种改进的上下文相关的歧义字段切分算法
被引量:
6
6
作者
张培颖
李村合
《计算机系统应用》
2006年第5期46-48,14,共4页
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分是中文自动分词研究中的一个“拦路虎”。在分析基于规则和基于上下文的歧义字段切分策硌基础上,提出了一种改进的上下文相关歧义字段切分算法,并根...
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分是中文自动分词研究中的一个“拦路虎”。在分析基于规则和基于上下文的歧义字段切分策硌基础上,提出了一种改进的上下文相关歧义字段切分算法,并根据汉语中特殊的语法现象,给出了切分算法的辅助策略来对待切分字符串进行预处理,不仅提高了分词的精度,还加快了分词的速度。
展开更多
关键词
自动分词
歧义字段
交集型
歧义
组合型
歧义
下载PDF
职称材料
歧义字段的归类及切分算法
被引量:
2
7
作者
王彩荣
王凯丽
黄玉基
《微处理机》
2005年第3期33-35,39,共4页
在汉语自动分词系统中,歧义字段的切分直接影响着分词的精度。本文深入地分析了歧义字段产生的根源,据此给出了歧义字段的详细分类和消除每一类歧义字段的有效方法。并在对歧义字段进行统计分析的基础上提出了切分精度的级别划分。
关键词
自动分词
切分
歧义字段
下载PDF
职称材料
基于知识库的交集型歧义字段切分系统
被引量:
1
8
作者
张培颖
李村合
《计算机系统应用》
2006年第8期42-43,41,共3页
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集...
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集合称为知识库或规则库。本文通过建立交集型歧义字段切分知识库,并采用知识学习的方法来丰富系统的知识,充分利用了知识库中积累的词的二元语法关系、语素构词、句法关系以及上下文等信息,提高了交集型歧义字段的切分精度。
展开更多
关键词
知识库
规则库
交集型
歧义字段
知识学习
下载PDF
职称材料
中文分词中歧义字段处理的研究
被引量:
3
9
作者
方玉萍
万荣
方达
《电子世界》
2019年第12期54-55,共2页
歧义字段是中文分词中的难点,它往往会消弱分词的精准率和召回率。而遗传算法是基于“优胜劣汰”的方式寻优的,用来处理歧义字段在中文分词系统正符合其思路。实验结果得出,在分词中的召回率和综合率都高出传统的歧义消除方法。中文分...
歧义字段是中文分词中的难点,它往往会消弱分词的精准率和召回率。而遗传算法是基于“优胜劣汰”的方式寻优的,用来处理歧义字段在中文分词系统正符合其思路。实验结果得出,在分词中的召回率和综合率都高出传统的歧义消除方法。中文分词指的是将一个中文串切分成一个个单独的词,而分词就是按照某种规则或方法重新组合成词的过程。
展开更多
关键词
中文分词系统
歧义字段
遗传算法
歧义
消除
召回率
寻优
下载PDF
职称材料
基于知识图谱的自然语言中歧义字段切分系统设计
10
作者
杨凡
任丹
《现代电子技术》
北大核心
2020年第1期44-47,52,共5页
传统自然语言中歧义字段切分系统设计对于歧义字段的分辨能力较差,切分效率差,准确度低。针对上述问题,设计一种基于知识图谱的自然语言中歧义字段切分系统。系统硬件设计了三个模块:采集及分词知识提取模块负责对自然语言中的字段进行...
传统自然语言中歧义字段切分系统设计对于歧义字段的分辨能力较差,切分效率差,准确度低。针对上述问题,设计一种基于知识图谱的自然语言中歧义字段切分系统。系统硬件设计了三个模块:采集及分词知识提取模块负责对自然语言中的字段进行收集与信息提取,辨别歧义字段;算法与测试模块处理负责检测所捕捉字段的歧义字段信息,提高系统精准度;分词识别模块负责对歧义字段进行系统切分。软件设计了系统的各项功能,包括系统分词精度提升功能、速度提升功能、完备性增强功能、可维护性以及系统可移植性增强功能,综合整理各结构的性能,进一步提高整体系统切分能力,以实现对歧义字段的切分目的。为检测系统工作效果,与传统系统进行实验对比,结果表明,基于知识图谱的自然语言中歧义字段切分系统设计的切分效果优于传统系统设计。
展开更多
关键词
知识图谱
自然语言
歧义字段
切分
系统设计
信息提取
效果检测
下载PDF
职称材料
中文文本歧义字段切分技术
被引量:
8
11
作者
温锁林
《语文研究》
CSSCI
北大核心
2001年第3期36-40,共5页
中文文本的自动分词是中文信息处理的瓶颈技术,这一技术中的核心是歧义字段切分问题,它是影响分词系统切分精度的重要因素,也是自动分词系统设计中的一个最困难的问题。当前,国内对歧义字段切分提出了多种方法,取得了一定的成效。...
中文文本的自动分词是中文信息处理的瓶颈技术,这一技术中的核心是歧义字段切分问题,它是影响分词系统切分精度的重要因素,也是自动分词系统设计中的一个最困难的问题。当前,国内对歧义字段切分提出了多种方法,取得了一定的成效。但根据权威方面的资料,汉语书面语自动分词软件的歧义字段切分正确率很低,离实际需要的差距还是很大。文章展示了真实文本中获取的翔实语言材料和具体处理难点,在此基础上,全面展示在处理这一技术难题时所采用的技术路线以及取得的阶段性成果。
展开更多
关键词
自动分词
歧义字段
交集型
歧义字段
多义型
歧义字段
原文传递
高频最大交集型歧义切分字段在汉语自动分词中的作用
被引量:
51
12
作者
孙茂松
左正平
邹嘉彦
《中文信息学报》
CSCD
北大核心
1999年第1期27-34,共8页
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强...
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。
展开更多
关键词
中文信息处理
汉语自动分词
歧义
切分
字段
下载PDF
职称材料
汉语交集型歧义切分字段关于专业领域的统计特性
被引量:
3
13
作者
乔维
孙茂松
《中文信息学报》
CSCD
北大核心
2008年第4期10-18,共9页
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉...
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。
展开更多
关键词
计算机应用
中文信息处理
汉语自动分词
专业领域语料库
交集型
歧义
切分
字段
伪
歧义
真
歧义
下载PDF
职称材料
组合歧义消歧方法的深入研究
14
作者
冯素琴
刘丽萍
《忻州师范学院学报》
2003年第5期42-44,共3页
文章对组合歧义消歧方法进行了深入的分析与研究,先概述了组合歧义的分布和特点,然后对现有的方法进行了分析,最后借鉴各种方法,提出决策表加学习的消歧算法。
关键词
组合形
歧义字段
自动分词系统
歧义
消除
交集形
歧义字段
汉语
决策表
下载PDF
职称材料
汉语文本中交集型切分歧义的分类处理
被引量:
3
15
作者
李凯
左万利
吕巍
《小型微型计算机系统》
CSCD
北大核心
2004年第8期1486-1490,共5页
自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准...
自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准确性 .该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中 .实验效果表明 。
展开更多
关键词
自动分词
交集型
歧义字段
宏结构
类别
下载PDF
职称材料
基于关联规则的交集型歧义消解算法
被引量:
3
16
作者
袁鼎荣
钟宁
《郑州大学学报(理学版)》
CAS
北大核心
2010年第1期67-69,共3页
以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消...
以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消解上具有一定的发展潜力.
展开更多
关键词
交集型
歧义字段
关联规则
歧义
消解
下载PDF
职称材料
书面汉语自动分词及歧义分析
被引量:
10
17
作者
郑延斌
《河南师范大学学报(自然科学版)》
CAS
CSCD
1997年第4期90-93,共4页
歧义现象是自动分词过程中不可避免的现象,本文通过对自动分词过程的分析,总结出书面汉语自动分词中歧义产生的根源,提出处理这些歧义字段的方法.
关键词
分词
切分
歧义字段
汉语
自动分词
计算机
下载PDF
职称材料
汉语自动分词中的歧义问题
被引量:
8
18
作者
侯敏
孙建军
《语言文字应用》
CSSCI
1996年第1期68-72,共5页
汉语自动分词中的歧义问题侯敏,孙建军引言随着中文信息处理研究的不断深入,出现了多种多样的自动分词方法。评定一种切分方法或一个分词系统的标准不外两条:一是速度,二是精度,而第二条尤为重要。要想提高切分精度,除了要建立一...
汉语自动分词中的歧义问题侯敏,孙建军引言随着中文信息处理研究的不断深入,出现了多种多样的自动分词方法。评定一种切分方法或一个分词系统的标准不外两条:一是速度,二是精度,而第二条尤为重要。要想提高切分精度,除了要建立一部(或几部)较完备的词典外,最重要...
展开更多
关键词
汉语自动分词
歧义字段
确定法
歧义
切分
歧义
现象
句子
歧义
组合型
集字
交集型
形容词
下载PDF
职称材料
一种有效解决汉语歧义切分的方法
被引量:
1
19
作者
朱鉴
张建
李淼
《计算机工程与应用》
CSCD
北大核心
2007年第11期175-177,共3页
提出了一种通过有向图和统计加规则的多层过滤方法来有效解决汉语分词过程中的交集型歧义切分问题,该方法大大提高了切分的正确率。经过65000字的开放语料测试,统计了其对交集型歧义字段的切分结果,发现该方法对交集型歧义字段的切分正...
提出了一种通过有向图和统计加规则的多层过滤方法来有效解决汉语分词过程中的交集型歧义切分问题,该方法大大提高了切分的正确率。经过65000字的开放语料测试,统计了其对交集型歧义字段的切分结果,发现该方法对交集型歧义字段的切分正确率为98.43%,以上数据表明该方法在解决汉语交集型歧义字段的问题时是行之有效的。
展开更多
关键词
有向图
统计模型
规则库
歧义字段
汉字切分
下载PDF
职称材料
歧义切分与专有名词识别软件
被引量:
4
20
作者
刘开瑛
《语言文字应用》
CSSCI
北大核心
2001年第3期9-15,共7页
关键词
中文文本自动切词
中文信息处理
理论意义
应用价值
歧义字段
切分
专有名词识别
识别软件
汉语
下载PDF
职称材料
题名
基于改进BP网络的中文歧义字段分词方法研究
被引量:
12
1
作者
张利
张立勇
张晓淼
耿铁锁
岳宗阁
机构
大连理工大学电子与信息工程学院
大连理工大学国有资产处
大连理工大学附属医院
出处
《大连理工大学学报》
EI
CAS
CSCD
北大核心
2007年第1期131-135,共5页
基金
国家自然科学基金资助项目(60573172)
文摘
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则.训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度.
关键词
文本挖掘
歧义字段
自然语言处理
神经网络
Keywords
text mining
ambiguous words
natural language processing
neural network
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于汉语二字应成词的歧义字段切分方法
被引量:
8
2
作者
郑德权
于凤
王开涛
赵铁军
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨商业大学计算中心
出处
《计算机工程与应用》
CSCD
北大核心
2003年第1期17-18,26,共3页
基金
国家863高技术研究发展计划(编号:2001AA114101)
文摘
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。
关键词
汉语二字应成词
歧义字段
切分方法
中文信息处理
t-信息差
自动分词
汉语文本
Keywords
interact information,difference of t-information,two Chinese characters used as a word,word automatic segmentation,ambiguity word
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语料库的高频最大交集型歧义字段考察
被引量:
6
3
作者
李斌
陈小荷
方芳
徐艳华
机构
南京师范大学文学院
出处
《中文信息学报》
CSCD
北大核心
2006年第1期1-6,共6页
基金
南京师范大学211资助项目(1240702504)
文摘
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。
关键词
计算机应用
中文信息处理
最大交集型
歧义字段
全切分
强势切分
Keywords
computer application
Chinese information processing
maximal overlapping ambiguity siring
word omni-segmentation
biased segmentation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
关于歧义字段切分的思考与实验
被引量:
14
4
作者
刘挺
王开铸
机构
哈尔滨工业大学计算机系
出处
《中文信息学报》
CSCD
北大核心
1998年第2期63-64,共2页
文摘
关于歧义字段切分的思考与实验刘挺王开铸哈尔滨工业大学计算机系哈尔滨工业大学319信箱150001通常认为:如果一个字段存在不同的切分形式,则称该字段为歧义字段。假设A,B,C分别代表一个或多个字组成的字串,在字段ABC中如果A,AB,BC,C都是词,...
关键词
歧义字段
切分
组合型
交集型
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
HENU汉语自动分词系统中歧义字段消除算法
被引量:
5
5
作者
郑逢斌
付征叶
乔保军
毋琳
机构
河南大学计算机与信息工程学院
河南大学生命科学学院
出处
《河南大学学报(自然科学版)》
CAS
2004年第4期49-52,共4页
基金
河南省科技厅科技攻关项目(0424220146)
文摘
先用基于词典的最大匹配法匹配出最长词和次长词,再用检测跨越的方法发现切分歧义,判断出切分歧义是交集型切分歧义还是组合型切分歧义,根据切分歧义类型的不同分别进行切分歧义的消除.交集型切分歧义的消除方法主要是混合使用基于规则的方法和基于统计的方法,组合型歧义的消除方法主要是使用基于规则的方法,找到正确的切分位置.
关键词
自然语言处理
自动分词
歧义字段
Keywords
natural language processing
automatic segmentation
ambiguous phrase
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种改进的上下文相关的歧义字段切分算法
被引量:
6
6
作者
张培颖
李村合
机构
中国石油大学(华东)计算机与通信工程学院
出处
《计算机系统应用》
2006年第5期46-48,14,共4页
文摘
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分是中文自动分词研究中的一个“拦路虎”。在分析基于规则和基于上下文的歧义字段切分策硌基础上,提出了一种改进的上下文相关歧义字段切分算法,并根据汉语中特殊的语法现象,给出了切分算法的辅助策略来对待切分字符串进行预处理,不仅提高了分词的精度,还加快了分词的速度。
关键词
自动分词
歧义字段
交集型
歧义
组合型
歧义
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
歧义字段的归类及切分算法
被引量:
2
7
作者
王彩荣
王凯丽
黄玉基
机构
沈阳师范大学信息技术学院
东北大学信息学院
出处
《微处理机》
2005年第3期33-35,39,共4页
文摘
在汉语自动分词系统中,歧义字段的切分直接影响着分词的精度。本文深入地分析了歧义字段产生的根源,据此给出了歧义字段的详细分类和消除每一类歧义字段的有效方法。并在对歧义字段进行统计分析的基础上提出了切分精度的级别划分。
关键词
自动分词
切分
歧义字段
Keywords
Automatic words segmentation
Segment
Different meanings field
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于知识库的交集型歧义字段切分系统
被引量:
1
8
作者
张培颖
李村合
机构
中国石油大学计算机与通信工程学院
出处
《计算机系统应用》
2006年第8期42-43,41,共3页
文摘
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集合称为知识库或规则库。本文通过建立交集型歧义字段切分知识库,并采用知识学习的方法来丰富系统的知识,充分利用了知识库中积累的词的二元语法关系、语素构词、句法关系以及上下文等信息,提高了交集型歧义字段的切分精度。
关键词
知识库
规则库
交集型
歧义字段
知识学习
分类号
TP182 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
中文分词中歧义字段处理的研究
被引量:
3
9
作者
方玉萍
万荣
方达
机构
云南师范大学职业技术教育学院
云南师范大学宣传部
出处
《电子世界》
2019年第12期54-55,共2页
基金
云南省教育科学规划教师教育专项课题(立项编号:GJZ1418)
文摘
歧义字段是中文分词中的难点,它往往会消弱分词的精准率和召回率。而遗传算法是基于“优胜劣汰”的方式寻优的,用来处理歧义字段在中文分词系统正符合其思路。实验结果得出,在分词中的召回率和综合率都高出传统的歧义消除方法。中文分词指的是将一个中文串切分成一个个单独的词,而分词就是按照某种规则或方法重新组合成词的过程。
关键词
中文分词系统
歧义字段
遗传算法
歧义
消除
召回率
寻优
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于知识图谱的自然语言中歧义字段切分系统设计
10
作者
杨凡
任丹
机构
湖北文理学院计算机工程学院
出处
《现代电子技术》
北大核心
2020年第1期44-47,52,共5页
基金
国家语委科研项目(YB135-109)
文摘
传统自然语言中歧义字段切分系统设计对于歧义字段的分辨能力较差,切分效率差,准确度低。针对上述问题,设计一种基于知识图谱的自然语言中歧义字段切分系统。系统硬件设计了三个模块:采集及分词知识提取模块负责对自然语言中的字段进行收集与信息提取,辨别歧义字段;算法与测试模块处理负责检测所捕捉字段的歧义字段信息,提高系统精准度;分词识别模块负责对歧义字段进行系统切分。软件设计了系统的各项功能,包括系统分词精度提升功能、速度提升功能、完备性增强功能、可维护性以及系统可移植性增强功能,综合整理各结构的性能,进一步提高整体系统切分能力,以实现对歧义字段的切分目的。为检测系统工作效果,与传统系统进行实验对比,结果表明,基于知识图谱的自然语言中歧义字段切分系统设计的切分效果优于传统系统设计。
关键词
知识图谱
自然语言
歧义字段
切分
系统设计
信息提取
效果检测
Keywords
knowledge map
natural language
ambiguity field segmentation
system design
information extraction
effect detection
分类号
TN02-34 [电子电信—物理电子学]
下载PDF
职称材料
题名
中文文本歧义字段切分技术
被引量:
8
11
作者
温锁林
机构
山西大学中文系
出处
《语文研究》
CSSCI
北大核心
2001年第3期36-40,共5页
文摘
中文文本的自动分词是中文信息处理的瓶颈技术,这一技术中的核心是歧义字段切分问题,它是影响分词系统切分精度的重要因素,也是自动分词系统设计中的一个最困难的问题。当前,国内对歧义字段切分提出了多种方法,取得了一定的成效。但根据权威方面的资料,汉语书面语自动分词软件的歧义字段切分正确率很低,离实际需要的差距还是很大。文章展示了真实文本中获取的翔实语言材料和具体处理难点,在此基础上,全面展示在处理这一技术难题时所采用的技术路线以及取得的阶段性成果。
关键词
自动分词
歧义字段
交集型
歧义字段
多义型
歧义字段
分类号
H13 [语言文字—汉语]
原文传递
题名
高频最大交集型歧义切分字段在汉语自动分词中的作用
被引量:
51
12
作者
孙茂松
左正平
邹嘉彦
机构
清华大学智能技术与系统国家重点实验室
香港城市大学语言资讯科学研究中心
出处
《中文信息学报》
CSCD
北大核心
1999年第1期27-34,共8页
基金
国家自然科学基金
文摘
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。
关键词
中文信息处理
汉语自动分词
歧义
切分
字段
Keywords
Chinese information processing Chinese word segmentation maximal crossing ambiguities with high frequency memory based disambiguation strategy
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语交集型歧义切分字段关于专业领域的统计特性
被引量:
3
13
作者
乔维
孙茂松
机构
清华信息科学与技术国家实验室(筹)
出处
《中文信息学报》
CSCD
北大核心
2008年第4期10-18,共9页
基金
国家自然科学基金资助项目(60573187)
国家863计划资助项目(2007AA01Z148)
文摘
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。
关键词
计算机应用
中文信息处理
汉语自动分词
专业领域语料库
交集型
歧义
切分
字段
伪
歧义
真
歧义
Keywords
computer application
Chinese information processing
Chinese word segmentation
domain-specific corpus
overlapping ambiguity
pseudo ambiguity
true ambiguity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
组合歧义消歧方法的深入研究
14
作者
冯素琴
刘丽萍
机构
忻州师范学院
原平市技术监督局
出处
《忻州师范学院学报》
2003年第5期42-44,共3页
文摘
文章对组合歧义消歧方法进行了深入的分析与研究,先概述了组合歧义的分布和特点,然后对现有的方法进行了分析,最后借鉴各种方法,提出决策表加学习的消歧算法。
关键词
组合形
歧义字段
自动分词系统
歧义
消除
交集形
歧义字段
汉语
决策表
Keywords
natural language processing
combinational ambiguity
algorithm
分类号
H13 [语言文字—汉语]
下载PDF
职称材料
题名
汉语文本中交集型切分歧义的分类处理
被引量:
3
15
作者
李凯
左万利
吕巍
机构
吉林大学计算机科学与技术学院
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第8期1486-1490,共5页
基金
国家自然科学基金 (69673 0 15
60 3 73 0 99)资助
吉林省科技发展计划项目 (合同号 :2 0 0 0 0111)资助
文摘
自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准确性 .该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中 .实验效果表明 。
关键词
自动分词
交集型
歧义字段
宏结构
类别
Keywords
chinese information processing
cross ambiguity segmentation
macro structure
category
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于关联规则的交集型歧义消解算法
被引量:
3
16
作者
袁鼎荣
钟宁
机构
北京工业大学国际WIC研究院
广西师范大学计算机科学与信息工程学院
出处
《郑州大学学报(理学版)》
CAS
北大核心
2010年第1期67-69,共3页
基金
国家自然科学基金重大研究计划培育项目
编号90718020
+3 种基金
国家973计划前期研究专项课题
编号2008CB317108
澳大利亚ARC项目
编号DP0667060
文摘
以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消解上具有一定的发展潜力.
关键词
交集型
歧义字段
关联规则
歧义
消解
Keywords
overlapping ambiguity word segment
association rule
disambiguating
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
书面汉语自动分词及歧义分析
被引量:
10
17
作者
郑延斌
机构
河南师范大学计算机系
出处
《河南师范大学学报(自然科学版)》
CAS
CSCD
1997年第4期90-93,共4页
文摘
歧义现象是自动分词过程中不可避免的现象,本文通过对自动分词过程的分析,总结出书面汉语自动分词中歧义产生的根源,提出处理这些歧义字段的方法.
关键词
分词
切分
歧义字段
汉语
自动分词
计算机
Keywords
segmentation
ambiguous phrases
knowledge
dictionary
rule
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语自动分词中的歧义问题
被引量:
8
18
作者
侯敏
孙建军
机构
黑龙江大学中文系
黑龙江大学计算机系
出处
《语言文字应用》
CSSCI
1996年第1期68-72,共5页
文摘
汉语自动分词中的歧义问题侯敏,孙建军引言随着中文信息处理研究的不断深入,出现了多种多样的自动分词方法。评定一种切分方法或一个分词系统的标准不外两条:一是速度,二是精度,而第二条尤为重要。要想提高切分精度,除了要建立一部(或几部)较完备的词典外,最重要...
关键词
汉语自动分词
歧义字段
确定法
歧义
切分
歧义
现象
句子
歧义
组合型
集字
交集型
形容词
分类号
H087 [语言文字—语言学]
下载PDF
职称材料
题名
一种有效解决汉语歧义切分的方法
被引量:
1
19
作者
朱鉴
张建
李淼
机构
中国科学院合肥智能机械研究所
出处
《计算机工程与应用》
CSCD
北大核心
2007年第11期175-177,共3页
基金
中国科学院知识创新工程重要方向项目(No.KGCX2-SW-511)。
文摘
提出了一种通过有向图和统计加规则的多层过滤方法来有效解决汉语分词过程中的交集型歧义切分问题,该方法大大提高了切分的正确率。经过65000字的开放语料测试,统计了其对交集型歧义字段的切分结果,发现该方法对交集型歧义字段的切分正确率为98.43%,以上数据表明该方法在解决汉语交集型歧义字段的问题时是行之有效的。
关键词
有向图
统计模型
规则库
歧义字段
汉字切分
Keywords
directed graph
statistical model
rule library
ambiguous phrase
Chinese word segmentation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
歧义切分与专有名词识别软件
被引量:
4
20
作者
刘开瑛
机构
山西大学
出处
《语言文字应用》
CSSCI
北大核心
2001年第3期9-15,共7页
关键词
中文文本自动切词
中文信息处理
理论意义
应用价值
歧义字段
切分
专有名词识别
识别软件
汉语
分类号
H08 [语言文字—语言学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于改进BP网络的中文歧义字段分词方法研究
张利
张立勇
张晓淼
耿铁锁
岳宗阁
《大连理工大学学报》
EI
CAS
CSCD
北大核心
2007
12
下载PDF
职称材料
2
基于汉语二字应成词的歧义字段切分方法
郑德权
于凤
王开涛
赵铁军
《计算机工程与应用》
CSCD
北大核心
2003
8
下载PDF
职称材料
3
基于语料库的高频最大交集型歧义字段考察
李斌
陈小荷
方芳
徐艳华
《中文信息学报》
CSCD
北大核心
2006
6
下载PDF
职称材料
4
关于歧义字段切分的思考与实验
刘挺
王开铸
《中文信息学报》
CSCD
北大核心
1998
14
下载PDF
职称材料
5
HENU汉语自动分词系统中歧义字段消除算法
郑逢斌
付征叶
乔保军
毋琳
《河南大学学报(自然科学版)》
CAS
2004
5
下载PDF
职称材料
6
一种改进的上下文相关的歧义字段切分算法
张培颖
李村合
《计算机系统应用》
2006
6
下载PDF
职称材料
7
歧义字段的归类及切分算法
王彩荣
王凯丽
黄玉基
《微处理机》
2005
2
下载PDF
职称材料
8
基于知识库的交集型歧义字段切分系统
张培颖
李村合
《计算机系统应用》
2006
1
下载PDF
职称材料
9
中文分词中歧义字段处理的研究
方玉萍
万荣
方达
《电子世界》
2019
3
下载PDF
职称材料
10
基于知识图谱的自然语言中歧义字段切分系统设计
杨凡
任丹
《现代电子技术》
北大核心
2020
0
下载PDF
职称材料
11
中文文本歧义字段切分技术
温锁林
《语文研究》
CSSCI
北大核心
2001
8
原文传递
12
高频最大交集型歧义切分字段在汉语自动分词中的作用
孙茂松
左正平
邹嘉彦
《中文信息学报》
CSCD
北大核心
1999
51
下载PDF
职称材料
13
汉语交集型歧义切分字段关于专业领域的统计特性
乔维
孙茂松
《中文信息学报》
CSCD
北大核心
2008
3
下载PDF
职称材料
14
组合歧义消歧方法的深入研究
冯素琴
刘丽萍
《忻州师范学院学报》
2003
0
下载PDF
职称材料
15
汉语文本中交集型切分歧义的分类处理
李凯
左万利
吕巍
《小型微型计算机系统》
CSCD
北大核心
2004
3
下载PDF
职称材料
16
基于关联规则的交集型歧义消解算法
袁鼎荣
钟宁
《郑州大学学报(理学版)》
CAS
北大核心
2010
3
下载PDF
职称材料
17
书面汉语自动分词及歧义分析
郑延斌
《河南师范大学学报(自然科学版)》
CAS
CSCD
1997
10
下载PDF
职称材料
18
汉语自动分词中的歧义问题
侯敏
孙建军
《语言文字应用》
CSSCI
1996
8
下载PDF
职称材料
19
一种有效解决汉语歧义切分的方法
朱鉴
张建
李淼
《计算机工程与应用》
CSCD
北大核心
2007
1
下载PDF
职称材料
20
歧义切分与专有名词识别软件
刘开瑛
《语言文字应用》
CSSCI
北大核心
2001
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部