期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于碎片分词的未登录词识别方法 被引量:2
1
作者 周蕾 《常熟理工学院学报》 2007年第2期77-81,共5页
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片... 提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。 展开更多
关键词 未登录词识别 碎片分词 贪心算法
下载PDF
改进的正向最大匹配分词算法 被引量:11
2
作者 张彩琴 袁健 《计算机工程与设计》 CSCD 北大核心 2010年第11期2595-2597,2633,共4页
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模... 为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。 展开更多
关键词 正向最大匹配算法 交集型歧义 预处理 互信息 分词碎片
下载PDF
藏文自动分词中未登录词处理方法研究 被引量:5
3
作者 羊毛卓玛 高定国 《计算机工程》 CAS CSCD 2012年第17期46-48,共3页
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎... 藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎片切分现象,使用分词碎片整合方法,将多次出现的词条碎片整合为一个切分单位输出。实验结果表明,2种方法能提高藏文自动分词的识别正确率。 展开更多
关键词 藏文信息处理 词缀归并 未登录词 分词碎片整合
下载PDF
分词语料库中的并列式四字格识别 被引量:1
4
作者 徐润华 陈小荷 李斌 《计算机工程与应用》 CSCD 北大核心 2010年第4期139-141,共3页
并列式四字格是一种特殊却数量众多的四字格。介绍了在有词性标注语料库中基于条件随机场模型的四字格抽取工作,并在此基础上分析了并列式四字格的结构特点,提出了一种基于分词语料库环境的并列式四字格识别方法。通过不同语料库间的对... 并列式四字格是一种特殊却数量众多的四字格。介绍了在有词性标注语料库中基于条件随机场模型的四字格抽取工作,并在此基础上分析了并列式四字格的结构特点,提出了一种基于分词语料库环境的并列式四字格识别方法。通过不同语料库间的对比实验,结果表明该识别方法具有比较好的精确度和一定的适应性。 展开更多
关键词 四字格 条件随机场模型 分词碎片 并列式四字格
下载PDF
Internet中的新词识别 被引量:7
5
作者 李钝 曹元大 万月亮 《北京邮电大学学报》 EI CAS CSCD 北大核心 2008年第1期26-29,共4页
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘... 针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了"长词中包含短词"的问题,提高了新词识别的准确率. 展开更多
关键词 新词识别 关联规则 时间函数 分词碎片
下载PDF
基于重复字串的微博新词非监督自动抽取 被引量:4
6
作者 孙晓 李承程 +1 位作者 叶嘉麒 任福继 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第6期674-678,724,共6页
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验... 文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验结果证明,该方法有效地保证了较高的准确率和召回率,同时保证了新词的抽取速度。 展开更多
关键词 自然语言处理 中文分词 重复字串 分词碎片
下载PDF
一种基于独立性统计的子串归并算法 被引量:1
7
作者 周浪 冯冲 +1 位作者 黄河燕 王平尧 《计算机工程与应用》 CSCD 北大核心 2010年第24期129-131,共3页
现行的子串归并算法都是采用一对一的方式针对同频子串提出的。但是在使用词法分析工具对文本进行切分时,不可避免地会产生很多的分词碎片,这直接导致了很多无意义子串的产生。通过分析这些无意义子串和众多父串之间的这种一对多关系,... 现行的子串归并算法都是采用一对一的方式针对同频子串提出的。但是在使用词法分析工具对文本进行切分时,不可避免地会产生很多的分词碎片,这直接导致了很多无意义子串的产生。通过分析这些无意义子串和众多父串之间的这种一对多关系,提出了一种基于独立性统计的子串归并算法。最后将该子串归并算法应用在中文术语抽取系统中,使得系统的准确率从91.3%提升到了93.32%。 展开更多
关键词 子串归并 独立性统计 分词碎片
下载PDF
基于构词模式的未登录描述词自动识别的研究
8
作者 王玉凡 赵占坤 韩晓霞 《计算机光盘软件与应用》 2014年第1期143-143,145,共2页
本论文基于要实现二维图像空间关系特征与描述词对齐这一目的,研究如何将描述句中的"分词碎片"自动识别为描述词,增强对齐后语料的丰富性。本文采用模式识别的思想,总结"分词碎片"的词性构成描述词的构成模式,对碎... 本论文基于要实现二维图像空间关系特征与描述词对齐这一目的,研究如何将描述句中的"分词碎片"自动识别为描述词,增强对齐后语料的丰富性。本文采用模式识别的思想,总结"分词碎片"的词性构成描述词的构成模式,对碎片中可能成为的描述词进行识别。 展开更多
关键词 对齐 未登录词识别 构词模式 词性 分词碎片
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部