期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于SVM和k-NN结合的汉语交集型歧义切分方法 被引量:19
1
作者 李蓉 刘少辉 +1 位作者 叶世伟 史忠植 《中文信息学报》 CSCD 北大核心 2001年第6期13-18,共6页
本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义... 本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义字段中挑选出一些高频伪歧义字段 ,人工将其正确切分并代入SVM训练。对于待识别歧义字段通过使用SVM和k NN相结合的分类算法即可得到切分结果。实验结果显示使用此方法可以正确处理 91 .6%的交集歧义字段 ,而且该算法具有一定的稳定性。 展开更多
关键词 支持向量 类代表点 交集型歧义 汉语自动分词 歧义切分 SVM K-近邻 分类方法
下载PDF
基于统计规则的交集型歧义处理方法 被引量:9
2
作者 翟凤文 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2006年第2期223-228,共6页
中文分词是中文信息处理的基础,歧义问题是中文分词的一个难点,而交集型歧义问题占歧义问题的90%以上,因此对交集型歧义问题的研究是中文分词研究的一个重点.通过反复的实验和对实验结果的分析,提出了5条规则,并根据这5条规则给出了一... 中文分词是中文信息处理的基础,歧义问题是中文分词的一个难点,而交集型歧义问题占歧义问题的90%以上,因此对交集型歧义问题的研究是中文分词研究的一个重点.通过反复的实验和对实验结果的分析,提出了5条规则,并根据这5条规则给出了一种针对交集型歧义字段切分的算法,实验结果表明,基于该算法实现的分词系统DSfenci,对于交集型歧义消解的准确率高于95.22%. 展开更多
关键词 交集型歧义 规则 统计
下载PDF
基于语料库的高频最大交集型歧义字段考察 被引量:6
3
作者 李斌 陈小荷 +1 位作者 方芳 徐艳华 《中文信息学报》 CSCD 北大核心 2006年第1期1-6,共6页
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上... 交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。 展开更多
关键词 计算机应用 中文信息处理 最大交集型歧义字段 全切分 强势切分
下载PDF
融合字特征的平滑最大熵模型消解交集型歧义 被引量:3
4
作者 任惠 林鸿飞 杨志豪 《中文信息学报》 CSCD 北大核心 2010年第4期18-24,共7页
交集型歧义的切分问题是分词阶段需要解决难点之一。该文将交集型歧义的消解问题转化为分类问题,并利用融合丰富字特征的最大熵模型解决该问题,为了克服最大熵建模时的数据稀疏问题,该文引入了不等式平滑技术和高斯平滑技术。我们在第... 交集型歧义的切分问题是分词阶段需要解决难点之一。该文将交集型歧义的消解问题转化为分类问题,并利用融合丰富字特征的最大熵模型解决该问题,为了克服最大熵建模时的数据稀疏问题,该文引入了不等式平滑技术和高斯平滑技术。我们在第二届国际分词竞赛的四个数据集上比较了高斯平滑技术、不等式平滑技术和频度折扣平滑技术,测试结果表明:不等式平滑技术和高斯平滑技术比频度折扣技术有显著提高,而它们之间不分伯仲,但是不等式平滑技术能使特征选择无缝嵌入到参数估计过程中,显著压缩模型规模。该方法在四个测试集上最终获得了96.27%、96.83%、96.56%、96.52%的消歧正确率,对比实验表明:丰富的特征使消歧性能分别提高了5.87%、5.64%、5.00%、5.00%,平滑技术使消歧性能分别提高了0.99%、0.93%、1.02%、1.37%,不等式平滑使分类模型分别压缩了38.7、19.9、44.6、9.7。 展开更多
关键词 计算机应用 中文信息处理 分词 交集型歧义 融合丰富字特征 最大熵模 平滑技术
下载PDF
一种消除中文分词中交集型歧义的方法 被引量:4
5
作者 魏博诚 王爱平 +1 位作者 沙先军 王永 《计算机技术与发展》 2011年第5期60-63,共4页
切分速度和精度是中文分词系统的两个主要性能指标。针对传统的中文分词中出现的分词速度慢和分词精度不高的问题,采用了双层hash结构的词典机制来提升分词的速度,对于匹配结果中出现的交集型歧义字段,通过互信息的方法来消除,以提高分... 切分速度和精度是中文分词系统的两个主要性能指标。针对传统的中文分词中出现的分词速度慢和分词精度不高的问题,采用了双层hash结构的词典机制来提升分词的速度,对于匹配结果中出现的交集型歧义字段,通过互信息的方法来消除,以提高分词精度。并对该分词系统进行了实现。通过与传统的中文分词系统的分词速度以及分词效果的对比,发现该系统在分词速度和精度上都有所进步,从而取得较好的分词效果。 展开更多
关键词 中文分词 互信息 交集型歧义
下载PDF
一种快速的交集型歧义检测方法 被引量:3
6
作者 刘健 张维明 《计算机应用研究》 CSCD 北大核心 2008年第11期3259-3261,共3页
中文分词中,交集型歧义检测方法采用的双向最大匹配法与全切分方法存在着各自的弊病,无法满足大规模数据的精确处理。为此,提出了一种快速的交集型歧义检测方法,引入次长词进行检测,能高效准确地检测出中文文本中的交集型歧义。经实验验... 中文分词中,交集型歧义检测方法采用的双向最大匹配法与全切分方法存在着各自的弊病,无法满足大规模数据的精确处理。为此,提出了一种快速的交集型歧义检测方法,引入次长词进行检测,能高效准确地检测出中文文本中的交集型歧义。经实验验证,该方法在精度与速度两方面均能满足大规模语料的处理。 展开更多
关键词 中文分词 交集型歧义 最长交集字段
下载PDF
基于关联规则的交集型歧义消解算法 被引量:3
7
作者 袁鼎荣 钟宁 《郑州大学学报(理学版)》 CAS 北大核心 2010年第1期67-69,共3页
以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消... 以交集型歧义字段为研究对象,考察包含交集型歧义字段的句子及其所在的文档,挖掘歧义字段从前切分或从后切分所得结果在文档中的支持度.根据支持度构造切分方式的判别因子,获取交集型歧义字段的切分方式.实验证实该方法可行,并在歧义消解上具有一定的发展潜力. 展开更多
关键词 交集型歧义字段 关联规则 歧义消解
下载PDF
藏文分词中交集型歧义字段的切分方法研究 被引量:2
8
作者 普布旦增 欧珠 《西藏大学学报(社会科学版)》 CSSCI 2010年第S1期196-197,共2页
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧... 藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,文章提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。 展开更多
关键词 藏文分词 交集型歧义 最大概率
下载PDF
一种消除中文匹配中交集型歧义的方法 被引量:2
9
作者 杨芳 杨振山 《计算机辅助工程》 2005年第2期36-38,共3页
讨论一种消除中文匹配过程中所产生的交集型歧义的方法。该方法通过词典切分方法对中文文本进行切分,找出文本中的词语,作为理解中文的前提。对于匹配结果中出现的交集型歧义,通过计算匹配词语与其交集词语各自字符之间的互信息值来消除... 讨论一种消除中文匹配过程中所产生的交集型歧义的方法。该方法通过词典切分方法对中文文本进行切分,找出文本中的词语,作为理解中文的前提。对于匹配结果中出现的交集型歧义,通过计算匹配词语与其交集词语各自字符之间的互信息值来消除,互信息值较大的词说明该字符组合的可能性比较大。最后给出一个实际的消除歧义的例子,说明该方法的实用性。 展开更多
关键词 中文匹配 交集型歧义 互信息值
下载PDF
基于知识库的交集型歧义字段切分系统 被引量:1
10
作者 张培颖 李村合 《计算机系统应用》 2006年第8期42-43,41,共3页
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集... 无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集合称为知识库或规则库。本文通过建立交集型歧义字段切分知识库,并采用知识学习的方法来丰富系统的知识,充分利用了知识库中积累的词的二元语法关系、语素构词、句法关系以及上下文等信息,提高了交集型歧义字段的切分精度。 展开更多
关键词 知识库 规则库 交集型歧义字段 知识学习
下载PDF
基于词典和语素的交集型歧义消除模型 被引量:1
11
作者 李春雨 王勇 《微型机与应用》 2013年第4期12-14,18,共4页
提出了一种消除中文分词中交集型歧义的模型。首先通过正向最大匹配法和逆向最大匹配法对中文文本信息进行分词,然后使用不单独成词语素表对分词结果进行分析对比消歧,得到符合汉语语境的结果。整个过程分为歧义识别、歧义分析、歧义消... 提出了一种消除中文分词中交集型歧义的模型。首先通过正向最大匹配法和逆向最大匹配法对中文文本信息进行分词,然后使用不单独成词语素表对分词结果进行分析对比消歧,得到符合汉语语境的结果。整个过程分为歧义识别、歧义分析、歧义消除三个阶段。实验结果表明,该模型可以有效降低由交集型歧义引起的中文文本切分错误率。 展开更多
关键词 自然语言处理 分词 交集型歧义
下载PDF
基于混合模型的交集型歧义消歧策略 被引量:2
12
作者 李天侠 戴新宇 陈家骏 《计算机工程与应用》 CSCD 北大核心 2008年第21期5-8,共4页
针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习思想,获取交集型歧义消歧规则库,同时,利用统计工具,构建N-Gram统计语言模型;然后,采用正向/逆... 针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习思想,获取交集型歧义消歧规则库,同时,利用统计工具,构建N-Gram统计语言模型;然后,采用正向/逆向最大匹配方法和消歧规则库探测发现交集型歧义字段;最后,通过消歧规则库和评分函数进行交集型歧义的消歧处理。这种基于混合模型的方法可以探测到更多的交集型歧义字段,并且结合了规则方法和统计方法在处理交集型歧义上的优势。实验表明,这种方法提高了交集型歧义处理的精度,为解决交集型歧义提供了一种新的思路。 展开更多
关键词 交集型歧义 消歧规则 统计语言模 评分函数 全切分
下载PDF
汉语交集型歧义切分字段关于专业领域的统计特性 被引量:3
13
作者 乔维 孙茂松 《中文信息学报》 CSCD 北大核心 2008年第4期10-18,共9页
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉... 交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。 展开更多
关键词 计算机应用 中文信息处理 汉语自动分词 专业领域语料库 交集型歧义切分字段 歧义 歧义
下载PDF
一种基于无监督学习的交集型歧义处理改进方法 被引量:1
14
作者 黄鹏 张姝 +1 位作者 陈玉华 文斌 《云南师范大学学报(自然科学版)》 2015年第6期45-49,共5页
歧义处理是中文分词的难点之一,其中交集型歧义占该类问题的主要部分,而无监督学习可以利用互联网上的无标注语料库来处理该问题.文章将比较卡方统计量、t-测试差在歧义处理中的效果,通过对其研究提出一种改善歧义处理性能的方法.实验... 歧义处理是中文分词的难点之一,其中交集型歧义占该类问题的主要部分,而无监督学习可以利用互联网上的无标注语料库来处理该问题.文章将比较卡方统计量、t-测试差在歧义处理中的效果,通过对其研究提出一种改善歧义处理性能的方法.实验结果表明,所提出的方法能有效进行分词,并提高了交集型歧义消解的性能. 展开更多
关键词 分词 无监督学习 交集型歧义
下载PDF
藏文分词中交集型歧义字段的切分方法研究
15
作者 普布旦增欧珠 《西藏科技》 2012年第3期75-76,共2页
藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧... 藏文自动分词是藏文信息处理中一项不可缺少的基础性工作,是藏文搜索引擎、语法信息词典建设、机器翻译、语音合成、文本自动分类、自动摘要、自动校对等等研究的基础工作。藏文自动分词中歧义消除也是关键技术,本文提出了藏文交集型歧义的切分方法即双向扫描识别和最大概率分词算法进行处理的方法。 展开更多
关键词 藏文分词 交集型歧义 最大概率
下载PDF
基于CFRs模型的交集型歧义消解研究
16
作者 尤慧丽 《电脑知识与技术》 2018年第6X期263-264,268,共3页
中文自动分词是中文信息处理的基础,交集型歧义字段的消解又是中文自动分词中的重点。本文将CRFs模型用于交集型歧义字段的歧义消解中。该算法将交集型歧义字段的消解任务由二值分类的问题转化为序列标注的问题,这样不仅能处理任意链长... 中文自动分词是中文信息处理的基础,交集型歧义字段的消解又是中文自动分词中的重点。本文将CRFs模型用于交集型歧义字段的歧义消解中。该算法将交集型歧义字段的消解任务由二值分类的问题转化为序列标注的问题,这样不仅能处理任意链长的交集型歧义字串,而且能够充分利用上下文环境的信息,在不同的上下文环境中对真歧义字串进行正确的切分。 展开更多
关键词 中文自动分词 交集型歧义 CRFs模 序列标注
下载PDF
汉语文本中交集型切分歧义的分类处理 被引量:3
17
作者 李凯 左万利 吕巍 《小型微型计算机系统》 CSCD 北大核心 2004年第8期1486-1490,共5页
自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准... 自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准确性 .该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中 .实验效果表明 。 展开更多
关键词 自动分词 交集型歧义字段 宏结构 类别
下载PDF
基于最大熵模型的交集型切分歧义消解 被引量:6
18
作者 张锋 樊孝忠 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第7期590-593,共4页
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过... 利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月《人民日报》中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%. 展开更多
关键词 中文信息处理 汉语自动分词 交集型歧义 最大熵模
下载PDF
用基于词的二元模型消解交集型分词歧义 被引量:7
19
作者 陈小荷 《南京师大学报(社会科学版)》 CSSCI 北大核心 2004年第6期109-113,共5页
解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明... 解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明显的提高。 展开更多
关键词 中文信息处理 基于词的二元模 交集分词歧义
下载PDF
不同水平留学生汉语交集型与组合型切分歧义识别实验研究
20
作者 杨万兵 杨峥琳 《语言科学》 CSSCI 北大核心 2016年第3期280-290,共11页
通过对初、中级水平留学生汉语交集型与组合型切分歧义识别实验研究发现:两种类型切分歧义识别的汉语水平和链长主效应都十分显著,初级识别错误率、修改率均高于中级。对于交集型切分歧义而言,链长越长,识别错误率越低;组合型链长1、2... 通过对初、中级水平留学生汉语交集型与组合型切分歧义识别实验研究发现:两种类型切分歧义识别的汉语水平和链长主效应都十分显著,初级识别错误率、修改率均高于中级。对于交集型切分歧义而言,链长越长,识别错误率越低;组合型链长1、2识别错误率无显著差异,但链长为3时识别错误率显著提高;链长为1时,初级与中级识别错误率相当,链长为2、3时,初级识别错误率高于中级。文章从两类切分歧义特点、汉语水平与链长、动态语境与修改意识等方面分析了造成这些差异的原因,并提出了相应的教学建议。 展开更多
关键词 交集切分歧义 组合切分歧义 链长 词语识别 动态语境
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部