期刊文献+
共找到93篇文章
< 1 2 5 >
每页显示 20 50 100
Effective Analysis of Chinese Word-Segmentation Accuracy
1
作者 MA Weiyin 《现代电子技术》 2007年第4期108-110,共3页
Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidate... Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidates are invalid.These false unknown word candidates deteriorate the overall segmentation accuracy,as it will affect the segmentation accuracy of known words.In this paper,we propose several methods for reducing the difficulties and improving the accuracy of the word-segmentation of written Chinese,such as full segmentation of a sentence,processing the duplicative word,idioms and statistical identification for unknown words.A simulation shows the feasibility of our proposed methods in improving the accuracy of word-segmentation of Chinese. 展开更多
关键词 中文信息处理 汉字处理 自动分割 效率分析
下载PDF
Feature study for improving Chinese overlapping ambiguity resolution based on SVM 被引量:1
2
作者 熊英 朱杰 《Journal of Southeast University(English Edition)》 EI CAS 2007年第2期179-184,共6页
In order to improve Chinese overlapping ambiguity resolution based on a support vector machine, statistical features are studied for representing the feature vectors. First, four statistical parameters-mutual informat... In order to improve Chinese overlapping ambiguity resolution based on a support vector machine, statistical features are studied for representing the feature vectors. First, four statistical parameters-mutual information, accessor variety, two-character word frequency and single-character word frequency are used to describe the feature vectors respectively. Then other parameters are tried to add as complementary features to the parameters which obtain the best results for further improving the classification performance. Experimental results show that features represented by mutual information, single-character word frequency and accessor variety can obtain an optimum result of 94. 39%. Compared with a commonly used word probability model, the accuracy has been improved by 6. 62%. Such comparative results confirm that the classification performance can be improved by feature selection and representation. 展开更多
关键词 support vector machine chinese overlapping ambiguity chinese word segmentation word probability model
下载PDF
一种规则与统计相结合的汉语分词方法 被引量:35
3
作者 赵伟 戴新宇 +1 位作者 尹存燕 陈家骏 《计算机应用研究》 CSCD 北大核心 2004年第3期23-25,共3页
汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。
关键词 中文信息处理 分词 语料库 交集型歧义
下载PDF
字典与统计相结合的中文分词方法 被引量:42
4
作者 翟凤文 赫枫龄 左万利 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速... 提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. 展开更多
关键词 中文分词 基于字典的分词 基于统计的分词 交集型分词歧义
下载PDF
汉语自动分词研究及其在信息检索中的应用 被引量:18
5
作者 曹倩 丁艳 +1 位作者 王超 潘金贵 《计算机应用研究》 CSCD 北大核心 2004年第5期71-74,91,共5页
汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。
关键词 汉语分词 分词模型 歧义分析 中文信息检索
下载PDF
基于两字词簇的汉语快速自动分词算法 被引量:18
6
作者 郭祥昊 钟义信 杨丽 《情报学报》 CSSCI 北大核心 1998年第5期352-357,共6页
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提... 本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快。 展开更多
关键词 自然语言处理 汉语 分词算法 自分分词 两字词族
下载PDF
基于SVM和k-NN结合的汉语交集型歧义切分方法 被引量:19
7
作者 李蓉 刘少辉 +1 位作者 叶世伟 史忠植 《中文信息学报》 CSCD 北大核心 2001年第6期13-18,共6页
本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义... 本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义字段中挑选出一些高频伪歧义字段 ,人工将其正确切分并代入SVM训练。对于待识别歧义字段通过使用SVM和k NN相结合的分类算法即可得到切分结果。实验结果显示使用此方法可以正确处理 91 .6%的交集歧义字段 ,而且该算法具有一定的稳定性。 展开更多
关键词 支持向量 类代表点 交集型歧义 汉语自动分词 歧义切分 SVM K-近邻 分类方法
下载PDF
利用上下文信息解决汉语自动分词中的组合型歧义 被引量:24
8
作者 肖云 孙茂松 邹嘉彦 《计算机工程与应用》 CSCD 北大核心 2001年第19期87-89,106,共4页
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分... 组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。 展开更多
关键词 自然语言处理 中文计算 汉语自动分词 组合型歧义切分字段 中文信息处理
下载PDF
基于语境信息的组合型分词歧义消解方法 被引量:10
9
作者 曲维光 吉根林 +1 位作者 穗志方 周俊生 《计算机工程》 CAS CSCD 北大核心 2006年第17期74-76,共3页
提出了相对词频的概念,据此建立了语境计算模型,利用歧义字段前后语境信息对组合型分词歧义进行消解。对高频出现的5个组合型分词歧义进行实验,平均准确率达到95%以上,证明该方法对于消解组合型分词歧义具有良好效果。
关键词 中文自动分词 组合型歧义 相对词频 语境计算模型
下载PDF
基于条件随机场的中文领域分词研究 被引量:14
10
作者 朱艳辉 刘璟 +2 位作者 徐叶强 田海龙 马进 《计算机工程与应用》 CSCD 北大核心 2016年第15期97-100,共4页
针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确... 针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果 F值分别提升了7.6%和8.7%。 展开更多
关键词 中文分词 条件随机场 领域自适应 歧义消解 领域分词 逆向最大匹配算法
下载PDF
基于字典和统计的分词方法 被引量:13
11
作者 陈平 刘晓霞 李亚军 《计算机工程与应用》 CSCD 北大核心 2008年第10期144-146,共3页
提出了一种基于字典与统计相结合的中文分词方法,该方法利用改进的字典结构能够快速切分,在其基础上进一步利用统计的方法处理所产生未登录词,并且能解决大部分交集歧义问题。
关键词 基于字典的分词 基于统计的分词 交叉歧义 未登录词
下载PDF
MIS智能接口中汉语分词系统的设计与应用 被引量:5
12
作者 谈文蓉 杨宪泽 +1 位作者 谈进 刘莉 《计算机科学》 CSCD 北大核心 2006年第7期204-206,共3页
提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法... 提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法的设计。实验表明,该系统具有较高的切分正确率与效率。 展开更多
关键词 MIS 自动分词 切分歧义 交集型歧义 组合型歧义
下载PDF
交集型歧义字段切分方法研究 被引量:22
13
作者 闫引堂 周晓强 《情报学报》 CSSCI 北大核心 2000年第6期637-643,共7页
本文通过动态建立独立成词能力频次库的方法以及基于词语 /词性搭配的规则库 ,对交集型歧义字段进行处理 ,大大提高了切分正确率。在 4万语料的开放测试中 ,交集型歧义字段的切分正确率可达 98%以上。
关键词 汉语 自动分词 汉字切分 交集型 歧义 独立成词能力频次
下载PDF
一种基于语境的中文分词方法研究 被引量:8
14
作者 张茂元 卢正鼎 邹春燕 《小型微型计算机系统》 CSCD 北大核心 2005年第1期129-133,共5页
汉语不同于英语 ,词之间没有间隔标记 .而汉语分词是文本分析的第一步 ,且存在歧义切分 ,因此分词问题成为汉语分析的首要难题 .通过中文切分过程的本质分析 ,推导并提出基于马尔可夫链的语境中文切分理论 ,进而提出一种语境中文分词方... 汉语不同于英语 ,词之间没有间隔标记 .而汉语分词是文本分析的第一步 ,且存在歧义切分 ,因此分词问题成为汉语分析的首要难题 .通过中文切分过程的本质分析 ,推导并提出基于马尔可夫链的语境中文切分理论 ,进而提出一种语境中文分词方法 .该方法建立在词法和句法基础上 ,从语境角度分析歧义字段 ,提高分词准确率 . 展开更多
关键词 语境 中文分词 马尔可夫链 歧义切分
下载PDF
基于词典和词频的中文分词方法 被引量:19
15
作者 张恒 杨文昭 +3 位作者 屈景辉 卢虹冰 张亮 赵飞 《微计算机信息》 北大核心 2008年第3期239-240,232,共3页
汉语分词是中文信息处理的前提和基础。由于中文句子中,词与词之间没有明显的分隔标志,且存在多音多义词,因此不可避免的存在切分歧义。汉语分词已成为中文信息处理的"瓶颈"。本文通过使用带有词频的词典,采用逐词分解实现了... 汉语分词是中文信息处理的前提和基础。由于中文句子中,词与词之间没有明显的分隔标志,且存在多音多义词,因此不可避免的存在切分歧义。汉语分词已成为中文信息处理的"瓶颈"。本文通过使用带有词频的词典,采用逐词分解实现了中文自动分词,并使用词频计算、歧义消除等方法提高了分词的准确率。 展开更多
关键词 中文分词 歧义消除 词频
下载PDF
基于规则挖掘和Nave Bayes方法的组合型歧义字段切分 被引量:5
16
作者 张严虎 潘璐璐 +2 位作者 彭子平 张靖波 于中华 《计算机应用》 CSCD 北大核心 2008年第7期1686-1688,1704,共4页
组合型歧义字段切分是中文自动分词的难点之一。在对现有方法进行深入分析的基础上,提出了一种新的切分算法。该算法自动从训练语料中挖掘词语搭配规则和语法规则,基于这些规则和Nave Bayes模型综合决策进行组合型歧义字段切分。充分... 组合型歧义字段切分是中文自动分词的难点之一。在对现有方法进行深入分析的基础上,提出了一种新的切分算法。该算法自动从训练语料中挖掘词语搭配规则和语法规则,基于这些规则和Nave Bayes模型综合决策进行组合型歧义字段切分。充分的实验表明,相对于文献中的研究结果,该算法对组合型歧义字段切分的准确率提高了大约8%。 展开更多
关键词 中文分词 组合型歧义 词语搭配规则 语法规则
下载PDF
基于汉语二字应成词的歧义字段切分方法 被引量:8
17
作者 郑德权 于凤 +1 位作者 王开涛 赵铁军 《计算机工程与应用》 CSCD 北大核心 2003年第1期17-18,26,共3页
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确... 文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。 展开更多
关键词 汉语二字应成词 歧义字段切分方法 中文信息处理 t-信息差 自动分词 汉语文本
下载PDF
回溯正向匹配中文分词算法 被引量:16
18
作者 张劲松 袁健 《计算机工程与应用》 CSCD 北大核心 2009年第22期132-134,共3页
在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹... 在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹配来有效发现歧义字段;利用长词优先兼顾2词簇的方式对交集型歧义字段进行切分。最后对该算法进行的定性分析说明了该方法的先进性,从随机抽取大量语料实验结果上证明了该方法的有效性。 展开更多
关键词 中文分词 最大匹配法 回溯匹配 交集型歧义
下载PDF
基于CRF模型的组合型歧义消解研究 被引量:8
19
作者 丁德鑫 曲维光 +1 位作者 徐涛 董宇 《南京师范大学学报(工程技术版)》 CAS 2008年第4期73-76,94,共5页
组合型歧义切分是汉语自动分词的难点之一.为此,利用CRF(条件随机场)模型,以歧义字段的上下文的词和词性建立特征模板,进行歧义消解研究.以1998年半年《人民日报》为语料,对常用的10个组合歧义字段进行消歧,平均消歧正确率达到96.35%,... 组合型歧义切分是汉语自动分词的难点之一.为此,利用CRF(条件随机场)模型,以歧义字段的上下文的词和词性建立特征模板,进行歧义消解研究.以1998年半年《人民日报》为语料,对常用的10个组合歧义字段进行消歧,平均消歧正确率达到96.35%,取得了良好的效果.实验表明,利用该模型能有效提高消歧正确率. 展开更多
关键词 中文自动分词 组合歧义 CRF
下载PDF
高频最大交集型歧义切分字段在汉语自动分词中的作用 被引量:51
20
作者 孙茂松 左正平 邹嘉彦 《中文信息学报》 CSCD 北大核心 1999年第1期27-34,共8页
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强... 交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。 展开更多
关键词 中文信息处理 汉语自动分词 歧义切分字段
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部