期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于支持向量机的汉语歧义切分算法 被引量:2
1
作者 李蓉 《计算机仿真》 CSCD 北大核心 2009年第7期354-357,共4页
针对于解决交集型伪歧义字段的切分,提出了一种应用支持向量机的汉语歧义切分方法。歧义切分问题可看为一个模式分类问题,为提高字段处理能力,应用支持向量机方法建立分类模型。先对歧义字段进行特征提取,采用互信息来表示歧义字段。求... 针对于解决交集型伪歧义字段的切分,提出了一种应用支持向量机的汉语歧义切分方法。歧义切分问题可看为一个模式分类问题,为提高字段处理能力,应用支持向量机方法建立分类模型。先对歧义字段进行特征提取,采用互信息来表示歧义字段。求解过程是一个有教师学习过程,从歧义字段中挑选出一些高频伪歧义字段,人工将其正确切分作为训练样本并代入SVM训练得到一个分类模型。在分类阶段将SVM和KNN相结合构造一个新的分类器,对于待识别歧义字段代入分类器即可得到切分结果。实验证明不仅具有一定的识别准确率,而且可以提高歧义切分速度。 展开更多
关键词 支持向量机 核函数 伪歧义 特征提取
下载PDF
汉语交集型歧义切分字段关于专业领域的统计特性 被引量:3
2
作者 乔维 孙茂松 《中文信息学报》 CSCD 北大核心 2008年第4期10-18,共9页
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉... 交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。 展开更多
关键词 计算机应用 中文信息处理 汉语自动分词 专业领域语料库 交集型歧义切分字段 伪歧义 歧义
下载PDF
汉语分词中一种逐词匹配算法的研究 被引量:6
3
作者 邓曙光 曾朝晖 《湖南城市学院学报(自然科学版)》 CAS 2005年第1期76-78,共3页
提出了一种改进的逐词匹配算法.该算法通过对非歧义字段切分,对人名地名进行判别,以及对伪歧义字段进行处理,使交集型歧义字段切分正确率有了大幅度提高.在5万汉字语料开放测试中,交集型歧义字段切分正确率可达98%以上.
关键词 汉语分词 歧义 伪歧义字段 运词匹配算法
下载PDF
面向信息检索的排除词识别研究
4
作者 章成志 苏新宁 《现代图书情报技术》 CSSCI 北大核心 2007年第2期44-48,共5页
针对信息检索中存在的词语排除关系问题,给出排除词的定义并说明排除词在信息检索中的作用。指出排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的,描述排除词的识别方法,并给出识别的结果,并在实际的信息检索平台上对排除... 针对信息检索中存在的词语排除关系问题,给出排除词的定义并说明排除词在信息检索中的作用。指出排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的,描述排除词的识别方法,并给出识别的结果,并在实际的信息检索平台上对排除词词库进行应用测评。 展开更多
关键词 信息检索 中文信息处理 交集型歧义 除词识别 伪歧义
下载PDF
基于超图的翻译模型融合的研究
5
作者 刘宇鹏 李生 赵铁军 《软件学报》 EI CSCD 北大核心 2012年第9期2347-2357,共11页
当前,系统融合是在机器翻译的后处理上进行.提出了在解码过程中来融合翻译模型,融合了主流两个翻译系统的翻译模型(层次化的基于短语的文法Hiero和括号转录文法BTG).并从理论和实践的角度探索了现在主流的两种解码方法.同时,所提出的解... 当前,系统融合是在机器翻译的后处理上进行.提出了在解码过程中来融合翻译模型,融合了主流两个翻译系统的翻译模型(层次化的基于短语的文法Hiero和括号转录文法BTG).并从理论和实践的角度探索了现在主流的两种解码方法.同时,所提出的解码方法解决了伪歧义或一致性问题.在实验结果上得出:多文法模型融合的标志性要好于成员翻译模型;新的解码方法标志性好于传统解码方法(Viterbi解码). 展开更多
关键词 超图 推导 规则 翻译模型融合 伪歧义 一致性翻译
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部