-
题名基于支持向量机的汉语歧义切分算法
被引量:2
- 1
-
-
作者
李蓉
-
机构
北京物资学院信息学院
-
出处
《计算机仿真》
CSCD
北大核心
2009年第7期354-357,共4页
-
基金
高等学校人才强教计划资助项目(PHR200906210)
北京市教育委员会科研基地建设项目(WYJD200902)
+1 种基金
北京市教育委员会科技计划项目(KM200810037001)
国家自然科学基金重点项目(10673017)
-
文摘
针对于解决交集型伪歧义字段的切分,提出了一种应用支持向量机的汉语歧义切分方法。歧义切分问题可看为一个模式分类问题,为提高字段处理能力,应用支持向量机方法建立分类模型。先对歧义字段进行特征提取,采用互信息来表示歧义字段。求解过程是一个有教师学习过程,从歧义字段中挑选出一些高频伪歧义字段,人工将其正确切分作为训练样本并代入SVM训练得到一个分类模型。在分类阶段将SVM和KNN相结合构造一个新的分类器,对于待识别歧义字段代入分类器即可得到切分结果。实验证明不仅具有一定的识别准确率,而且可以提高歧义切分速度。
-
关键词
支持向量机
核函数
伪歧义
特征提取
-
Keywords
Support vector machine
Kernel function
False ambiguities
Feature extraction
-
分类号
O234
[理学—运筹学与控制论]
-
-
题名汉语交集型歧义切分字段关于专业领域的统计特性
被引量:3
- 2
-
-
作者
乔维
孙茂松
-
机构
清华信息科学与技术国家实验室(筹)
-
出处
《中文信息学报》
CSCD
北大核心
2008年第4期10-18,共9页
-
基金
国家自然科学基金资助项目(60573187)
国家863计划资助项目(2007AA01Z148)
-
文摘
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。
-
关键词
计算机应用
中文信息处理
汉语自动分词
专业领域语料库
交集型歧义切分字段
伪歧义
真歧义
-
Keywords
computer application
Chinese information processing
Chinese word segmentation
domain-specific corpus
overlapping ambiguity
pseudo ambiguity
true ambiguity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语分词中一种逐词匹配算法的研究
被引量:6
- 3
-
-
作者
邓曙光
曾朝晖
-
机构
湖南城市学院
-
出处
《湖南城市学院学报(自然科学版)》
CAS
2005年第1期76-78,共3页
-
基金
湖南省普通高校青年骨干教师资助计划(教育厅2003[165号]).
-
文摘
提出了一种改进的逐词匹配算法.该算法通过对非歧义字段切分,对人名地名进行判别,以及对伪歧义字段进行处理,使交集型歧义字段切分正确率有了大幅度提高.在5万汉字语料开放测试中,交集型歧义字段切分正确率可达98%以上.
-
关键词
汉语分词
歧义词
伪歧义字段
运词匹配算法
-
Keywords
Chinese word segmentation
ambiguous phrase
false ambiguous phrase
word matching algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向信息检索的排除词识别研究
- 4
-
-
作者
章成志
苏新宁
-
机构
南京大学信息管理系
-
出处
《现代图书情报技术》
CSSCI
北大核心
2007年第2期44-48,共5页
-
文摘
针对信息检索中存在的词语排除关系问题,给出排除词的定义并说明排除词在信息检索中的作用。指出排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的,描述排除词的识别方法,并给出识别的结果,并在实际的信息检索平台上对排除词词库进行应用测评。
-
关键词
信息检索
中文信息处理
交集型歧义
除词识别
伪歧义
-
Keywords
Information retrieval Chinese information processing Overlapping ambiguity Mutually exclu- sive words recognition Pseudo -ambiguity
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于超图的翻译模型融合的研究
- 5
-
-
作者
刘宇鹏
李生
赵铁军
-
机构
哈尔滨工业大学计算机科学与技术系
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第9期2347-2357,共11页
-
基金
国家自然科学基金(60736014)
国家高技术研究发展计划(863)(2006AA010108)
黑龙江省教育厅科学技术研究项目(12521073)
-
文摘
当前,系统融合是在机器翻译的后处理上进行.提出了在解码过程中来融合翻译模型,融合了主流两个翻译系统的翻译模型(层次化的基于短语的文法Hiero和括号转录文法BTG).并从理论和实践的角度探索了现在主流的两种解码方法.同时,所提出的解码方法解决了伪歧义或一致性问题.在实验结果上得出:多文法模型融合的标志性要好于成员翻译模型;新的解码方法标志性好于传统解码方法(Viterbi解码).
-
关键词
超图
推导
规则
翻译模型融合
伪歧义
一致性翻译
-
Keywords
hypergraph
derivation
rule
translation model combination
spurious ambiguity
consensus translation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-