期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
一种基于EM非监督训练的自组织分词歧义解决方案 被引量:14
1
作者 王伟 钟义信 +1 位作者 孙建 杨力 《中文信息学报》 CSCD 北大核心 2001年第2期38-44,共7页
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次... 本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 ) 展开更多
关键词 EM算法 分词歧义 非监督训练 分词语言模型 歧义消除 汉语处理 训练算法 分词算法
下载PDF
基于无监督学习的专业领域分词歧义消解方法 被引量:7
2
作者 修驰 宋柔 《计算机应用》 CSCD 北大核心 2013年第3期780-783,共4页
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵... 中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。 展开更多
关键词 专业领域分词 分词歧义 字符串频次 互信息 边界熵
下载PDF
用基于词的二元模型消解交集型分词歧义 被引量:7
3
作者 陈小荷 《南京师大学报(社会科学版)》 CSSCI 北大核心 2004年第6期109-113,共5页
解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明... 解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明显的提高。 展开更多
关键词 中文信息处理 基于词的二元模型 交集型分词歧义
下载PDF
汉语自动分词歧义处理研究
4
作者 余希田 李丹亚 胡铁军 《医学信息学杂志》 CAS 2007年第6期541-544,556,共5页
汉语自动分词是中文信息自动处理的前提。就汉语自动分词的研究意义和难点、现有分词方法的分类以及分词系统等方面进行论述,重点探讨了分词歧义的产生、分类及消除,最后指出现有分词方法存在的问题并提出建议。
关键词 汉语分词 分词方法 分词歧义 歧义消除 综述
下载PDF
二次分词歧义的解决方法
5
作者 杨子臣 《经济研究导刊》 2010年第20期158-159,共2页
在自然语言处理系统的应用过程中,很多系统允许用户自由挂接一部或多部领域词典。挂接领域词典的方法不同,在分词中引起二次分词歧义的比率是不同的,因此,通过实验,比较了两种挂接领域词典方法在分词中引起二次分词歧义现象的不同。
关键词 二次分词歧义 分词 组合歧义 交集歧义
下载PDF
消解中文三字长交集型分词歧义的算法 被引量:22
6
作者 孙茂松 左正平 黄昌宁 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 1999年第5期101-103,共3页
汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了... 汉语自动分词在中文信息处理现实应用中占据着十分重要的位置。三字长交集型分词歧义是分词歧义的主要类型之一,在真实文本中的出现频率相当高。提出了一种针对这种分词歧义的消解算法,回避了训练代价比较高昂的词性信息而仅仅利用了词的概率信息及某些具有特定性质的常用字集合。从一个60万字的汉语语料库中抽取出全部不同的三字长交集型分词歧义共5367个作为测试样本。实验结果表明,该算法的消解正确率达到了92.07%,基本可以满足实用型中文信息处理系统的需要。 展开更多
关键词 中文信息处理 交集型分词歧义 消解算法
原文传递
面向新时代的人民日报语料中文分词歧义分析 被引量:3
7
作者 彭秋茹 王东波 黄水清 《情报科学》 CSSCI 北大核心 2021年第11期103-109,共7页
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报... 【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词歧义的问题,但缺少与旧语料的对比分析。 展开更多
关键词 中文分词 分词歧义 新时代人民日报分词语料 切分变异 中文信息处理
原文传递
字典与统计相结合的中文分词方法 被引量:42
8
作者 翟凤文 赫枫龄 左万利 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速... 提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. 展开更多
关键词 中文分词 基于字典的分词 基于统计的分词 交集型分词歧义
下载PDF
分词规范亟需补充的三方面内容 被引量:2
9
作者 李玉梅 陈晓 +3 位作者 姜自霞 易江燕 靳光瑾 黄昌宁 《中文信息学报》 CSCD 北大核心 2007年第5期3-7,共5页
本文认为,为提高语料库的分词标注质量应在分词规范中补充三个内容:①命名实体(人名、地名、机构名)标注细则;②表义字串(日期、时间、百分数等)标注细则;③歧义字串的消解细则。因为一方面命名实体和表义字串已被不少分词语料库视为分... 本文认为,为提高语料库的分词标注质量应在分词规范中补充三个内容:①命名实体(人名、地名、机构名)标注细则;②表义字串(日期、时间、百分数等)标注细则;③歧义字串的消解细则。因为一方面命名实体和表义字串已被不少分词语料库视为分词单位,另一方面在以往的分词规范中几乎从不谈及歧义消解问题。其实人们对歧义字串的语感往往是不同的。因此有必要在规范中对典型的歧义字串予以说明。实践表明,在规范中交待清楚以上三方面内容,就可以在很大程度上避免标注的错误和不一致性。 展开更多
关键词 计算机应用 中文信息处理 语料库 分词规范 分词歧义消解
下载PDF
基于“固结词串”实例的中文分词研究 被引量:5
10
作者 修驰 宋柔 《中文信息学报》 CSCD 北大核心 2012年第3期59-64,共6页
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基... 近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。 展开更多
关键词 中文分词 CRF 固结词串 分词歧义 机器学习
下载PDF
汉语分词新思路及对字处理软件影响研究 被引量:1
11
作者 陈海东 《微计算机信息》 2010年第21期197-198,120,共3页
中文分词是计算机翻译和搜索引擎技术等的一个瓶颈,目前国内外对汉语分词的研究仍远不如人意,本文对汉语分词歧义做了探讨和分析,提出了一个新颖的思路来解决分词问题,并且提出了独特的歧义区搜索算法,最后对中文字处理软件的改进做了... 中文分词是计算机翻译和搜索引擎技术等的一个瓶颈,目前国内外对汉语分词的研究仍远不如人意,本文对汉语分词歧义做了探讨和分析,提出了一个新颖的思路来解决分词问题,并且提出了独特的歧义区搜索算法,最后对中文字处理软件的改进做了探讨。 展开更多
关键词 词对齐 分词歧义 分词标点 歧义区搜索算法
下载PDF
基于Hash结构词典的逆向回溯中文分词技术研究 被引量:5
12
作者 梁桢 李禹生 《计算机工程与设计》 CSCD 北大核心 2010年第23期5158-5160,F0003,共4页
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一... 为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。 展开更多
关键词 中文分词 哈希结构 尾字词典 逆向最大匹配算法 分词歧义 逆向回溯算法
下载PDF
基于受限领域的中文分词系统
13
作者 王娟 曹庆花 +1 位作者 黄精籼 胡忠胜 《信息系统工程》 2011年第11期106-106,137,共2页
针对受限领域的特点及现有分词面临的困难,比较现有分词的方法,选择并改进了最大分词算法,设计了一个基于受限领域的中文分词系统,在一定程度上比较好地解决了未登录词和分词歧义的问题。
关键词 受限领域 分词系统 未登录词 分词歧义
下载PDF
论汉语语法改革及其对中文信息处理的促进作用
14
作者 陈海东 《微计算机信息》 2010年第24期212-214,共3页
本文引用各种例子,对汉语分词歧义类型进行分析,论述了汉语行文语法改革的必要性和改革方法,然后对汉语语法改革后的中文信息处理如字处理软件、汉语分词、计算机翻译等做了探讨。
关键词 分词歧义 词对齐 汉语语法改革 分词标点
下载PDF
Feature study for improving Chinese overlapping ambiguity resolution based on SVM 被引量:1
15
作者 熊英 朱杰 《Journal of Southeast University(English Edition)》 EI CAS 2007年第2期179-184,共6页
In order to improve Chinese overlapping ambiguity resolution based on a support vector machine, statistical features are studied for representing the feature vectors. First, four statistical parameters-mutual informat... In order to improve Chinese overlapping ambiguity resolution based on a support vector machine, statistical features are studied for representing the feature vectors. First, four statistical parameters-mutual information, accessor variety, two-character word frequency and single-character word frequency are used to describe the feature vectors respectively. Then other parameters are tried to add as complementary features to the parameters which obtain the best results for further improving the classification performance. Experimental results show that features represented by mutual information, single-character word frequency and accessor variety can obtain an optimum result of 94. 39%. Compared with a commonly used word probability model, the accuracy has been improved by 6. 62%. Such comparative results confirm that the classification performance can be improved by feature selection and representation. 展开更多
关键词 support vector machine Chinese overlapping ambiguity Chinese word segmentation word probability model
下载PDF
Song Ci Style Automatic Identification
16
作者 郑旭玲 周昌乐 曾华琳 《Journal of Donghua University(English Edition)》 EI CAS 2010年第2期181-184,共4页
To identify Song Ci style automatically,we put forward a novel stylistic text categorization approach based on words and their semantic in this paper. And a modified special word segmentation method,a new semantic rel... To identify Song Ci style automatically,we put forward a novel stylistic text categorization approach based on words and their semantic in this paper. And a modified special word segmentation method,a new semantic relativity computing method based on HowNet along with the corresponding word sense disambiguation method are proposed to extract words and semantic features from Song Ci. Experiments are carried out and the results show that these methods are effective. 展开更多
关键词 stylistic text categorization word sense disambiguation (WSD) word segmentation HOWNET Song Ci
下载PDF
基于N-gram的双向匹配中文分词方法 被引量:12
17
作者 凤丽洲 杨贵军 +1 位作者 徐雪 徐玉慧 《数理统计与管理》 CSSCI 北大核心 2020年第4期633-643,共11页
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型... 针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择。此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标Pn,有效规避了词条长度对分词准确率评价的影响。最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、Pn和F1值。 展开更多
关键词 N-GRAM模型 分词歧义 评测指标 双向匹配
原文传递
经济学等知识文本的深度表示学习 被引量:2
18
作者 程兵 邢玲 闫强 《计量经济学报》 2022年第1期58-80,共23页
本文首先介绍了表示学习的数学原理,分布式的表示使得语言的表达更加丰富和有效,特别是针对巨量的文本大数据,以著名的预训练BERT模型为例,它的12组高维(768维)实数表示向量表达了文本中的语法和语义信息,也可以通过一个解码器将向量中... 本文首先介绍了表示学习的数学原理,分布式的表示使得语言的表达更加丰富和有效,特别是针对巨量的文本大数据,以著名的预训练BERT模型为例,它的12组高维(768维)实数表示向量表达了文本中的语法和语义信息,也可以通过一个解码器将向量中隐含表达的信息重构出来.本文的主要贡献是两个方面,第一方面是使用统计方法评估BERT模型的表示能力;第二方面是利用BERT模型来处理中文句子分词的歧义模糊困难问题.在第一方面:我们的发现:一是BERT模型的表示能力的确很充足,即使是针对数十万的文本数据,也可以获得较好的向量表示效果,这说明了BERT模型已经预留了充足的表示向量空间来包含各种复杂的语言结构,我们发现BERT模型的不同层深度的表示向量表示了语言知识的不同层次信息,其中第1层表示了单字和单词的信息,而深度越深,表示向量则越接近表示文本的整体语言知识(从中文的词组,再到句子段落,直到文档以及文档之间的主题语言信息);二是发现语义相近的句子在BERT向量空间也是处于相近的空间领域,这说明整个BERT向量表示空间是自适应地将相似的语言组织安排在相近的子空间中.在第二方面,我们巧妙地利用了这个BERT模型的MASK机制,该机制允许模型的输入句子中将部分的词随意隐藏掉,但模型依然能够自适应地预测被隐藏部分的表示向量,通过比较正确分词以及错误分词masked后的句子表示向量,我们能够正确地识别出来哪一种分词方法是正确的,平均准确率达到66.875%. 展开更多
关键词 深度学习 表示学习 分布式表示 BERT模型 PCA主成分 语言相似性 分词歧义识别
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部