期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
基于SVM和k-NN结合的汉语交集型歧义切分方法 被引量:19
1
作者 李蓉 刘少辉 +1 位作者 叶世伟 史忠植 《中文信息学报》 CSCD 北大核心 2001年第6期13-18,共6页
本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义... 本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义字段中挑选出一些高频伪歧义字段 ,人工将其正确切分并代入SVM训练。对于待识别歧义字段通过使用SVM和k NN相结合的分类算法即可得到切分结果。实验结果显示使用此方法可以正确处理 91 .6%的交集歧义字段 ,而且该算法具有一定的稳定性。 展开更多
关键词 支持向量 类代表点 交集型歧义 汉语自动分词 歧义切分 SVM K-近邻 分类方法
下载PDF
高频最大交集型歧义切分字段在汉语自动分词中的作用 被引量:51
2
作者 孙茂松 左正平 邹嘉彦 《中文信息学报》 CSCD 北大核心 1999年第1期27-34,共8页
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强... 交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。 展开更多
关键词 中文信息处理 汉语自动分词 歧义切分字段
下载PDF
现代汉语通用分词系统中歧义切分的实用技术 被引量:19
3
作者 罗智勇 宋柔 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1122-1128,共7页
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(... 歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%· 展开更多
关键词 中文信息处理 通用分词系统 歧义切分
下载PDF
一种基于多元信息库的自适应汉语歧义切分方法 被引量:1
4
作者 朱巧明 温滔 +1 位作者 李培蜂 钱培德 《小型微型计算机系统》 CSCD 北大核心 2006年第8期1597-1600,共4页
在分析目前分词方法的基础上提出了一种通过建立多元信息库、采用改进型的粗分算法以找出所有可能存在歧义的句子、借助于人工干预建立错误切分歧异词库等,实现汉语歧异切分的方法,通过修改、插入多元信息库中的信息量,进一步设计了一... 在分析目前分词方法的基础上提出了一种通过建立多元信息库、采用改进型的粗分算法以找出所有可能存在歧义的句子、借助于人工干预建立错误切分歧异词库等,实现汉语歧异切分的方法,通过修改、插入多元信息库中的信息量,进一步设计了一个具有自适应能力的歧义切分方法,并通过实验证明该方法能够有效改进汉语分词中错误歧义切分的结果. 展开更多
关键词 多元信息库 歧义切分 自适应
下载PDF
利用分词属性解决歧义切分 被引量:4
5
作者 亢临生 张永奎 《电脑开发与应用》 1994年第4期2-5,共4页
介绍一种基于词的切分属性的分词算法。这种方法在最大匹配法基础上,根据大量的真实语料中出现的语言现象,把汉语中的词按其在分词意义下的特性进行分类,对每一类词确定一组规则,同时利用词的自然属性进行歧义难点处理,使分词算法... 介绍一种基于词的切分属性的分词算法。这种方法在最大匹配法基础上,根据大量的真实语料中出现的语言现象,把汉语中的词按其在分词意义下的特性进行分类,对每一类词确定一组规则,同时利用词的自然属性进行歧义难点处理,使分词算法更接近于实用的目的。 展开更多
关键词 分词算法 自然属性 歧义切分 自动分词 汉语处理
下载PDF
汉语交集型歧义切分字段关于专业领域的统计特性 被引量:3
6
作者 乔维 孙茂松 《中文信息学报》 CSCD 北大核心 2008年第4期10-18,共9页
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉... 交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。 展开更多
关键词 计算机应用 中文信息处理 汉语自动分词 专业领域语料库 交集型歧义切分字段 歧义 歧义
下载PDF
神经网络技术在汉语歧义切分中的应用 被引量:5
7
作者 牛耘 朱献有 《情报学报》 CSSCI 北大核心 1999年第3期213-218,共6页
针对目前汉语自动分词系统中切分歧义的难点,本文提出利用神经网络模式识别的方法帮助消歧。介绍了所建立的实验系统,并进行了实验分析。
关键词 切分歧义 神经网络 模式识别 汉语自动分词
下载PDF
歧义切分与专有名词识别软件 被引量:4
8
作者 刘开瑛 《语言文字应用》 CSSCI 北大核心 2001年第3期9-15,共7页
关键词 中文文本自动切词 中文信息处理 理论意义 应用价值 歧义字段切分 专有名词识别 识别软件 汉语
下载PDF
歧义切分与专有名词识别软件研究 被引量:1
9
作者 刘开英 郑家恒 《语言文字应用》 CSSCI 北大核心 2000年第1期10-13,共4页
关键词 汉语 信息处理 歧义切分 专有名词 识别软件
全文增补中
基于汉语二字应成词的歧义字段切分方法 被引量:8
10
作者 郑德权 于凤 +1 位作者 王开涛 赵铁军 《计算机工程与应用》 CSCD 北大核心 2003年第1期17-18,26,共3页
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确... 文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。 展开更多
关键词 汉语二字应成词 歧义字段切分方法 中文信息处理 t-信息差 自动分词 汉语文本
下载PDF
一种面向网络答疑的汉语切分歧义消除算法 被引量:4
11
作者 张素娟 郑庆华 +1 位作者 胡云华 孙霞 《计算机工程与应用》 CSCD 北大核心 2004年第25期55-58,共4页
针对网络答疑的特点,该文提出了一种汉语歧义消除算法,采用回溯机制及歧义消除评优算法相结合的方法消除汉语切分歧义。首先利用回溯机制发现句子的切分歧义字段,产生含有多种可能切分结果的候选集;然后针对网络答疑特点提出了评优算法... 针对网络答疑的特点,该文提出了一种汉语歧义消除算法,采用回溯机制及歧义消除评优算法相结合的方法消除汉语切分歧义。首先利用回溯机制发现句子的切分歧义字段,产生含有多种可能切分结果的候选集;然后针对网络答疑特点提出了评优算法,利用该算法计算候选结果的评价值,对其进行排序,选取分词最佳结果,从而消除歧义,提高分词的准确率。该算法已经在基于Web的自然语言答疑系统WebAnswerSystem中实现并得到了实际应用。实验结果表明,算法具有较高的准确率和召回率,对自然语言网络答疑中进行切分歧义消除是行之有效的。 展开更多
关键词 网络答疑 切分歧义 回溯机制 评优算法
下载PDF
音节切分歧义方法研究 被引量:1
12
作者 刘政怡 吴建国 刘慧婷 《计算机技术与发展》 2008年第8期35-38,共4页
音节切分是整句拼音转换的基础,由于拼音的特殊性,存在歧义切分的可能。如果采用最少分词算法只能得到一种切分结果,不能保证整句拼音转换的正确性。提出一种音节切分算法,通过插入音素节点不断构造合法音节节点,进而生成状态空间,遍历... 音节切分是整句拼音转换的基础,由于拼音的特殊性,存在歧义切分的可能。如果采用最少分词算法只能得到一种切分结果,不能保证整句拼音转换的正确性。提出一种音节切分算法,通过插入音素节点不断构造合法音节节点,进而生成状态空间,遍历算法遍历状态空间可获得所有的切分可能,而当用户进行删除操作时,只需删除部分相关节点。整个状态空间随用户的操作进行局部调整,分布均匀。该算法有利于存在歧义切分问题的整句拼音转换,可从保留下来的所有切分可能中选出一个全局最优的语句候选,保证整句转换的正确性。 展开更多
关键词 音节切分 切分算法 切分歧义 整句输入 状态空间
下载PDF
基于二元关系分词模型解决歧义词切分 被引量:2
13
作者 万仲保 张赢 《微计算机信息》 2009年第21期168-169,155,共3页
歧义词的切分是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的正确率。对此,本文简要介绍了汉语分词的概况,并具体分析了当前中文分词技术存在的障碍和介绍了中文分词中的歧义词切分问题,最后在此基础上提出... 歧义词的切分是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的正确率。对此,本文简要介绍了汉语分词的概况,并具体分析了当前中文分词技术存在的障碍和介绍了中文分词中的歧义词切分问题,最后在此基础上提出了一种基于多元关系模型的能够有效解决歧义切分的中文分词系统模型并简要分析了这种模型未来的优化方向。 展开更多
关键词 汉语分词 歧义切分 二元关系模型
下载PDF
不同水平留学生汉语交集型与组合型切分歧义识别实验研究
14
作者 杨万兵 杨峥琳 《语言科学》 CSSCI 北大核心 2016年第3期280-290,共11页
通过对初、中级水平留学生汉语交集型与组合型切分歧义识别实验研究发现:两种类型切分歧义识别的汉语水平和链长主效应都十分显著,初级识别错误率、修改率均高于中级。对于交集型切分歧义而言,链长越长,识别错误率越低;组合型链长1、2... 通过对初、中级水平留学生汉语交集型与组合型切分歧义识别实验研究发现:两种类型切分歧义识别的汉语水平和链长主效应都十分显著,初级识别错误率、修改率均高于中级。对于交集型切分歧义而言,链长越长,识别错误率越低;组合型链长1、2识别错误率无显著差异,但链长为3时识别错误率显著提高;链长为1时,初级与中级识别错误率相当,链长为2、3时,初级识别错误率高于中级。文章从两类切分歧义特点、汉语水平与链长、动态语境与修改意识等方面分析了造成这些差异的原因,并提出了相应的教学建议。 展开更多
关键词 交集型切分歧义 组合型切分歧义 链长 词语识别 动态语境
下载PDF
汉语自动分词系统中切分歧义与未登录词的处理策略 被引量:3
15
作者 韩维良 《青海师范大学学报(自然科学版)》 2004年第2期31-34,共4页
本文主要综述了汉语自动分词系统中,切分歧义与未登录词的表现形式以及相应的处理策略,指出在没有完全突破现行机器翻译理论的前提下,增强机器翻译系统中切分歧义与未登录词的处理能力,是提高系统准确率的一种有效措施。
关键词 机器翻译 自动分词 切分歧义 未登录诃 策略
下载PDF
MFC编程技术在汉语切分歧义研究中的应用
16
作者 韦向峰 谭露 张全 《微计算机应用》 2007年第5期486-491,共6页
应用MFC编程技术设计实现了汉语语料实时分析工具软件。该工具软件能够识别出汉字字串中的切分歧义,以直观便捷的图形表示方式为研究者表明切分歧义的位置与类型。阐述该工具软件使用的多文档界面、窗口分割、树视图控制、图形绘制等MF... 应用MFC编程技术设计实现了汉语语料实时分析工具软件。该工具软件能够识别出汉字字串中的切分歧义,以直观便捷的图形表示方式为研究者表明切分歧义的位置与类型。阐述该工具软件使用的多文档界面、窗口分割、树视图控制、图形绘制等MFC编程技术,探讨了在实现该工具软件中涉及的一个中文信息处理关键技术:切分歧义的识别。 展开更多
关键词 MFC 多文档界面 窗口分割 图形绘制 切分歧义
下载PDF
汉语自动分词中切分歧义及处理技术 被引量:1
17
作者 王中立 《许昌学院学报》 CAS 2006年第2期118-121,共4页
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法.
关键词 自动分词 切分 切分歧义
下载PDF
词边界信息对读者阅读汉语切分歧义的影响
18
作者 宋悦 《开封文化艺术职业学院学报》 2022年第11期34-36,共3页
读者在阅读汉语切分歧义句时,由于汉语文本中词边界信息不明确,可能会出现回读或猜词试错的情况,导致阅读效率降低。通过实验讨论了有无词边界信息对读者阅读汉语切分歧义的影响。在实验中只讨论了一种词边界形式,即词间空格。通过实验... 读者在阅读汉语切分歧义句时,由于汉语文本中词边界信息不明确,可能会出现回读或猜词试错的情况,导致阅读效率降低。通过实验讨论了有无词边界信息对读者阅读汉语切分歧义的影响。在实验中只讨论了一种词边界形式,即词间空格。通过实验得到以下结论:一是读者阅读汉语切分歧义句时,词边界信息有助于提高阅读效率;二是当词边界信息只出现在句中的切分歧义处时,积极作用最明显;三是读者在阅读同音字叠加的特殊歧义句时,无论句中有无词边界信息,都会出现停顿和反复回读的情况。 展开更多
关键词 词边界信息 汉语切分歧义 词间空格 阅读影响
下载PDF
基于知识图谱的自然语言中歧义字段切分系统设计
19
作者 杨凡 任丹 《现代电子技术》 北大核心 2020年第1期44-47,52,共5页
传统自然语言中歧义字段切分系统设计对于歧义字段的分辨能力较差,切分效率差,准确度低。针对上述问题,设计一种基于知识图谱的自然语言中歧义字段切分系统。系统硬件设计了三个模块:采集及分词知识提取模块负责对自然语言中的字段进行... 传统自然语言中歧义字段切分系统设计对于歧义字段的分辨能力较差,切分效率差,准确度低。针对上述问题,设计一种基于知识图谱的自然语言中歧义字段切分系统。系统硬件设计了三个模块:采集及分词知识提取模块负责对自然语言中的字段进行收集与信息提取,辨别歧义字段;算法与测试模块处理负责检测所捕捉字段的歧义字段信息,提高系统精准度;分词识别模块负责对歧义字段进行系统切分。软件设计了系统的各项功能,包括系统分词精度提升功能、速度提升功能、完备性增强功能、可维护性以及系统可移植性增强功能,综合整理各结构的性能,进一步提高整体系统切分能力,以实现对歧义字段的切分目的。为检测系统工作效果,与传统系统进行实验对比,结果表明,基于知识图谱的自然语言中歧义字段切分系统设计的切分效果优于传统系统设计。 展开更多
关键词 知识图谱 自然语言 歧义字段切分 系统设计 信息提取 效果检测
下载PDF
利用上下文信息解决汉语自动分词中的组合型歧义 被引量:24
20
作者 肖云 孙茂松 邹嘉彦 《计算机工程与应用》 CSCD 北大核心 2001年第19期87-89,106,共4页
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分... 组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。 展开更多
关键词 自然语言处理 中文计算 汉语自动分词 组合型歧义切分字段 中文信息处理
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部