期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于改进BP网络的中文歧义字段分词方法研究 被引量:12
1
作者 张利 张立勇 +2 位作者 张晓淼 耿铁锁 岳宗阁 《大连理工大学学报》 EI CAS CSCD 北大核心 2007年第1期131-135,共5页
文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特... 文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题.针对汉语书写时按句连写,词间无间隙,歧义字段分词困难的特点,对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码使用的词性代码库.以此为基础,通过对具有特殊语法规则的歧义字段中的字、词进行代码设定,转化为神经网络能够接受的输入向量表示形式,然后对样本进行训练,通过改进BP神经网络的自学习来掌握这些语法规则.训练结果表明:算法在歧义字段分词上达到了93.13%的训练精度和92.50%的测试精度. 展开更多
关键词 文本挖掘 歧义字段 自然语言处理 神经网络
下载PDF
基于汉语二字应成词的歧义字段切分方法 被引量:8
2
作者 郑德权 于凤 +1 位作者 王开涛 赵铁军 《计算机工程与应用》 CSCD 北大核心 2003年第1期17-18,26,共3页
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确... 文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。 展开更多
关键词 汉语二字应成词 歧义字段切分方法 中文信息处理 t-信息差 自动分词 汉语文本
下载PDF
基于语料库的高频最大交集型歧义字段考察 被引量:6
3
作者 李斌 陈小荷 +1 位作者 方芳 徐艳华 《中文信息学报》 CSCD 北大核心 2006年第1期1-6,共6页
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上... 交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。 展开更多
关键词 计算机应用 中文信息处理 最大交集型歧义字段 全切分 强势切分
下载PDF
关于歧义字段切分的思考与实验 被引量:14
4
作者 刘挺 王开铸 《中文信息学报》 CSCD 北大核心 1998年第2期63-64,共2页
关于歧义字段切分的思考与实验刘挺王开铸哈尔滨工业大学计算机系哈尔滨工业大学319信箱150001通常认为:如果一个字段存在不同的切分形式,则称该字段为歧义字段。假设A,B,C分别代表一个或多个字组成的字串,在字段AB... 关于歧义字段切分的思考与实验刘挺王开铸哈尔滨工业大学计算机系哈尔滨工业大学319信箱150001通常认为:如果一个字段存在不同的切分形式,则称该字段为歧义字段。假设A,B,C分别代表一个或多个字组成的字串,在字段ABC中如果A,AB,BC,C都是词,... 展开更多
关键词 歧义字段 切分 组合型 交集型
下载PDF
HENU汉语自动分词系统中歧义字段消除算法 被引量:5
5
作者 郑逢斌 付征叶 +1 位作者 乔保军 毋琳 《河南大学学报(自然科学版)》 CAS 2004年第4期49-52,共4页
先用基于词典的最大匹配法匹配出最长词和次长词,再用检测跨越的方法发现切分歧义,判断出切分歧义是交集型切分歧义还是组合型切分歧义,根据切分歧义类型的不同分别进行切分歧义的消除.交集型切分歧义的消除方法主要是混合使用基于规则... 先用基于词典的最大匹配法匹配出最长词和次长词,再用检测跨越的方法发现切分歧义,判断出切分歧义是交集型切分歧义还是组合型切分歧义,根据切分歧义类型的不同分别进行切分歧义的消除.交集型切分歧义的消除方法主要是混合使用基于规则的方法和基于统计的方法,组合型歧义的消除方法主要是使用基于规则的方法,找到正确的切分位置. 展开更多
关键词 自然语言处理 自动分词 歧义字段
下载PDF
一种改进的上下文相关的歧义字段切分算法 被引量:6
6
作者 张培颖 李村合 《计算机系统应用》 2006年第5期46-48,14,共4页
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分是中文自动分词研究中的一个“拦路虎”。在分析基于规则和基于上下文的歧义字段切分策硌基础上,提出了一种改进的上下文相关歧义字段切分算法,并根... 无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分是中文自动分词研究中的一个“拦路虎”。在分析基于规则和基于上下文的歧义字段切分策硌基础上,提出了一种改进的上下文相关歧义字段切分算法,并根据汉语中特殊的语法现象,给出了切分算法的辅助策略来对待切分字符串进行预处理,不仅提高了分词的精度,还加快了分词的速度。 展开更多
关键词 自动分词 歧义字段 交集型歧义 组合型歧义
下载PDF
歧义字段的归类及切分算法 被引量:2
7
作者 王彩荣 王凯丽 黄玉基 《微处理机》 2005年第3期33-35,39,共4页
在汉语自动分词系统中,歧义字段的切分直接影响着分词的精度。本文深入地分析了歧义字段产生的根源,据此给出了歧义字段的详细分类和消除每一类歧义字段的有效方法。并在对歧义字段进行统计分析的基础上提出了切分精度的级别划分。
关键词 自动分词 切分 歧义字段
下载PDF
基于知识库的交集型歧义字段切分系统 被引量:1
8
作者 张培颖 李村合 《计算机系统应用》 2006年第8期42-43,41,共3页
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集... 无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集合称为知识库或规则库。本文通过建立交集型歧义字段切分知识库,并采用知识学习的方法来丰富系统的知识,充分利用了知识库中积累的词的二元语法关系、语素构词、句法关系以及上下文等信息,提高了交集型歧义字段的切分精度。 展开更多
关键词 知识库 规则库 交集型歧义字段 知识学习
下载PDF
中文分词中歧义字段处理的研究 被引量:3
9
作者 方玉萍 万荣 方达 《电子世界》 2019年第12期54-55,共2页
歧义字段是中文分词中的难点,它往往会消弱分词的精准率和召回率。而遗传算法是基于“优胜劣汰”的方式寻优的,用来处理歧义字段在中文分词系统正符合其思路。实验结果得出,在分词中的召回率和综合率都高出传统的歧义消除方法。中文分... 歧义字段是中文分词中的难点,它往往会消弱分词的精准率和召回率。而遗传算法是基于“优胜劣汰”的方式寻优的,用来处理歧义字段在中文分词系统正符合其思路。实验结果得出,在分词中的召回率和综合率都高出传统的歧义消除方法。中文分词指的是将一个中文串切分成一个个单独的词,而分词就是按照某种规则或方法重新组合成词的过程。 展开更多
关键词 中文分词系统 歧义字段 遗传算法 歧义消除 召回率 寻优
下载PDF
基于知识图谱的自然语言中歧义字段切分系统设计
10
作者 杨凡 任丹 《现代电子技术》 北大核心 2020年第1期44-47,52,共5页
传统自然语言中歧义字段切分系统设计对于歧义字段的分辨能力较差,切分效率差,准确度低。针对上述问题,设计一种基于知识图谱的自然语言中歧义字段切分系统。系统硬件设计了三个模块:采集及分词知识提取模块负责对自然语言中的字段进行... 传统自然语言中歧义字段切分系统设计对于歧义字段的分辨能力较差,切分效率差,准确度低。针对上述问题,设计一种基于知识图谱的自然语言中歧义字段切分系统。系统硬件设计了三个模块:采集及分词知识提取模块负责对自然语言中的字段进行收集与信息提取,辨别歧义字段;算法与测试模块处理负责检测所捕捉字段的歧义字段信息,提高系统精准度;分词识别模块负责对歧义字段进行系统切分。软件设计了系统的各项功能,包括系统分词精度提升功能、速度提升功能、完备性增强功能、可维护性以及系统可移植性增强功能,综合整理各结构的性能,进一步提高整体系统切分能力,以实现对歧义字段的切分目的。为检测系统工作效果,与传统系统进行实验对比,结果表明,基于知识图谱的自然语言中歧义字段切分系统设计的切分效果优于传统系统设计。 展开更多
关键词 知识图谱 自然语言 歧义字段切分 系统设计 信息提取 效果检测
下载PDF
中文文本歧义字段切分技术 被引量:8
11
作者 温锁林 《语文研究》 CSSCI 北大核心 2001年第3期36-40,共5页
中文文本的自动分词是中文信息处理的瓶颈技术,这一技术中的核心是歧义字段切分问题,它是影响分词系统切分精度的重要因素,也是自动分词系统设计中的一个最困难的问题。当前,国内对歧义字段切分提出了多种方法,取得了一定的成效。... 中文文本的自动分词是中文信息处理的瓶颈技术,这一技术中的核心是歧义字段切分问题,它是影响分词系统切分精度的重要因素,也是自动分词系统设计中的一个最困难的问题。当前,国内对歧义字段切分提出了多种方法,取得了一定的成效。但根据权威方面的资料,汉语书面语自动分词软件的歧义字段切分正确率很低,离实际需要的差距还是很大。文章展示了真实文本中获取的翔实语言材料和具体处理难点,在此基础上,全面展示在处理这一技术难题时所采用的技术路线以及取得的阶段性成果。 展开更多
关键词 自动分词 歧义字段 交集型歧义字段 多义型歧义字段
原文传递
高频最大交集型歧义切分字段在汉语自动分词中的作用 被引量:51
12
作者 孙茂松 左正平 邹嘉彦 《中文信息学报》 CSCD 北大核心 1999年第1期27-34,共8页
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强... 交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。 展开更多
关键词 中文信息处理 汉语自动分词 歧义切分字段
下载PDF
汉语交集型歧义切分字段关于专业领域的统计特性 被引量:3
13
作者 乔维 孙茂松 《中文信息学报》 CSCD 北大核心 2008年第4期10-18,共9页
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉... 交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。 展开更多
关键词 计算机应用 中文信息处理 汉语自动分词 专业领域语料库 交集型歧义切分字段 歧义 歧义
下载PDF
组合歧义消歧方法的深入研究
14
作者 冯素琴 刘丽萍 《忻州师范学院学报》 2003年第5期42-44,共3页
文章对组合歧义消歧方法进行了深入的分析与研究,先概述了组合歧义的分布和特点,然后对现有的方法进行了分析,最后借鉴各种方法,提出决策表加学习的消歧算法。
关键词 组合形歧义字段 自动分词系统 歧义消除 交集形歧义字段 汉语 决策表
下载PDF
汉语文本中交集型切分歧义的分类处理 被引量:3
15
作者 李凯 左万利 吕巍 《小型微型计算机系统》 CSCD 北大核心 2004年第8期1486-1490,共5页
自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准... 自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准确性 .该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中 .实验效果表明 。 展开更多
关键词 自动分词 交集型歧义字段 宏结构 类别
下载PDF
基于关联规则的交集型歧义消解算法 被引量:3
16
作者 袁鼎荣 钟宁 《郑州大学学报(理学版)》 CAS 北大核心 2010年第1期67-69,共3页
以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消... 以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消解上具有一定的发展潜力. 展开更多
关键词 交集型歧义字段 关联规则 歧义消解
下载PDF
书面汉语自动分词及歧义分析 被引量:10
17
作者 郑延斌 《河南师范大学学报(自然科学版)》 CAS CSCD 1997年第4期90-93,共4页
歧义现象是自动分词过程中不可避免的现象,本文通过对自动分词过程的分析,总结出书面汉语自动分词中歧义产生的根源,提出处理这些歧义字段的方法.
关键词 分词 切分 歧义字段 汉语 自动分词 计算机
下载PDF
汉语自动分词中的歧义问题 被引量:8
18
作者 侯敏 孙建军 《语言文字应用》 CSSCI 1996年第1期68-72,共5页
汉语自动分词中的歧义问题侯敏,孙建军引言随着中文信息处理研究的不断深入,出现了多种多样的自动分词方法。评定一种切分方法或一个分词系统的标准不外两条:一是速度,二是精度,而第二条尤为重要。要想提高切分精度,除了要建立一... 汉语自动分词中的歧义问题侯敏,孙建军引言随着中文信息处理研究的不断深入,出现了多种多样的自动分词方法。评定一种切分方法或一个分词系统的标准不外两条:一是速度,二是精度,而第二条尤为重要。要想提高切分精度,除了要建立一部(或几部)较完备的词典外,最重要... 展开更多
关键词 汉语自动分词 歧义字段 确定法 歧义切分 歧义现象 句子歧义 组合型 集字 交集型 形容词
下载PDF
一种有效解决汉语歧义切分的方法 被引量:1
19
作者 朱鉴 张建 李淼 《计算机工程与应用》 CSCD 北大核心 2007年第11期175-177,共3页
提出了一种通过有向图和统计加规则的多层过滤方法来有效解决汉语分词过程中的交集型歧义切分问题,该方法大大提高了切分的正确率。经过65000字的开放语料测试,统计了其对交集型歧义字段的切分结果,发现该方法对交集型歧义字段的切分正... 提出了一种通过有向图和统计加规则的多层过滤方法来有效解决汉语分词过程中的交集型歧义切分问题,该方法大大提高了切分的正确率。经过65000字的开放语料测试,统计了其对交集型歧义字段的切分结果,发现该方法对交集型歧义字段的切分正确率为98.43%,以上数据表明该方法在解决汉语交集型歧义字段的问题时是行之有效的。 展开更多
关键词 有向图 统计模型 规则库 歧义字段 汉字切分
下载PDF
歧义切分与专有名词识别软件 被引量:4
20
作者 刘开瑛 《语言文字应用》 CSSCI 北大核心 2001年第3期9-15,共7页
关键词 中文文本自动切词 中文信息处理 理论意义 应用价值 歧义字段切分 专有名词识别 识别软件 汉语
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部