期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于碎片分词的未登录词识别方法
被引量:
2
1
作者
周蕾
《常熟理工学院学报》
2007年第2期77-81,共5页
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片...
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。
展开更多
关键词
未登录词识别
碎片
分词
贪心算法
下载PDF
职称材料
改进的正向最大匹配分词算法
被引量:
11
2
作者
张彩琴
袁健
《计算机工程与设计》
CSCD
北大核心
2010年第11期2595-2597,2633,共4页
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模...
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。
展开更多
关键词
正向最大匹配算法
交集型歧义
预处理
互信息
分词碎片
下载PDF
职称材料
藏文自动分词中未登录词处理方法研究
被引量:
5
3
作者
羊毛卓玛
高定国
《计算机工程》
CAS
CSCD
2012年第17期46-48,共3页
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎...
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎片切分现象,使用分词碎片整合方法,将多次出现的词条碎片整合为一个切分单位输出。实验结果表明,2种方法能提高藏文自动分词的识别正确率。
展开更多
关键词
藏文信息处理
词缀归并
未登录词
分词碎片
整合
下载PDF
职称材料
分词语料库中的并列式四字格识别
被引量:
1
4
作者
徐润华
陈小荷
李斌
《计算机工程与应用》
CSCD
北大核心
2010年第4期139-141,共3页
并列式四字格是一种特殊却数量众多的四字格。介绍了在有词性标注语料库中基于条件随机场模型的四字格抽取工作,并在此基础上分析了并列式四字格的结构特点,提出了一种基于分词语料库环境的并列式四字格识别方法。通过不同语料库间的对...
并列式四字格是一种特殊却数量众多的四字格。介绍了在有词性标注语料库中基于条件随机场模型的四字格抽取工作,并在此基础上分析了并列式四字格的结构特点,提出了一种基于分词语料库环境的并列式四字格识别方法。通过不同语料库间的对比实验,结果表明该识别方法具有比较好的精确度和一定的适应性。
展开更多
关键词
四字格
条件随机场模型
分词碎片
并列式四字格
下载PDF
职称材料
Internet中的新词识别
被引量:
7
5
作者
李钝
曹元大
万月亮
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2008年第1期26-29,共4页
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘...
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了"长词中包含短词"的问题,提高了新词识别的准确率.
展开更多
关键词
新词识别
关联规则
时间函数
分词碎片
下载PDF
职称材料
基于重复字串的微博新词非监督自动抽取
被引量:
4
6
作者
孙晓
李承程
+1 位作者
叶嘉麒
任福继
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第6期674-678,724,共6页
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验...
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验结果证明,该方法有效地保证了较高的准确率和召回率,同时保证了新词的抽取速度。
展开更多
关键词
自然语言处理
中文
分词
重复字串
分词碎片
下载PDF
职称材料
一种基于独立性统计的子串归并算法
被引量:
1
7
作者
周浪
冯冲
+1 位作者
黄河燕
王平尧
《计算机工程与应用》
CSCD
北大核心
2010年第24期129-131,共3页
现行的子串归并算法都是采用一对一的方式针对同频子串提出的。但是在使用词法分析工具对文本进行切分时,不可避免地会产生很多的分词碎片,这直接导致了很多无意义子串的产生。通过分析这些无意义子串和众多父串之间的这种一对多关系,...
现行的子串归并算法都是采用一对一的方式针对同频子串提出的。但是在使用词法分析工具对文本进行切分时,不可避免地会产生很多的分词碎片,这直接导致了很多无意义子串的产生。通过分析这些无意义子串和众多父串之间的这种一对多关系,提出了一种基于独立性统计的子串归并算法。最后将该子串归并算法应用在中文术语抽取系统中,使得系统的准确率从91.3%提升到了93.32%。
展开更多
关键词
子串归并
独立性统计
分词碎片
下载PDF
职称材料
基于构词模式的未登录描述词自动识别的研究
8
作者
王玉凡
赵占坤
韩晓霞
《计算机光盘软件与应用》
2014年第1期143-143,145,共2页
本论文基于要实现二维图像空间关系特征与描述词对齐这一目的,研究如何将描述句中的"分词碎片"自动识别为描述词,增强对齐后语料的丰富性。本文采用模式识别的思想,总结"分词碎片"的词性构成描述词的构成模式,对碎...
本论文基于要实现二维图像空间关系特征与描述词对齐这一目的,研究如何将描述句中的"分词碎片"自动识别为描述词,增强对齐后语料的丰富性。本文采用模式识别的思想,总结"分词碎片"的词性构成描述词的构成模式,对碎片中可能成为的描述词进行识别。
展开更多
关键词
对齐
未登录词识别
构词模式
词性
分词碎片
下载PDF
职称材料
题名
基于碎片分词的未登录词识别方法
被引量:
2
1
作者
周蕾
机构
常熟理工学院计算机科学与工程系
出处
《常熟理工学院学报》
2007年第2期77-81,共5页
基金
江苏省自然科学基金(BK2003030)
江苏省教育厅自然科学基金(04KKB320134)资助项目
文摘
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。
关键词
未登录词识别
碎片
分词
贪心算法
Keywords
unknown Chinese words recognition
fragments segmentation
greedy algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
改进的正向最大匹配分词算法
被引量:
11
2
作者
张彩琴
袁健
机构
上海理工大学光电信息与计算机工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2010年第11期2595-2597,2633,共4页
文摘
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理。通过对随机抽取的语料进行测试,结果表明该方法是有效的。
关键词
正向最大匹配算法
交集型歧义
预处理
互信息
分词碎片
Keywords
maximum matching method
crossing ambiguity
pretreatment
mutual information
word fragments
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
藏文自动分词中未登录词处理方法研究
被引量:
5
3
作者
羊毛卓玛
高定国
机构
西藏大学工学院
青海师范大学民族师范学院
出处
《计算机工程》
CAS
CSCD
2012年第17期46-48,共3页
基金
国家自然科学基金资助项目"基于虚词的藏文基本句型的格式化研究"(6106315)
文摘
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎片切分现象,使用分词碎片整合方法,将多次出现的词条碎片整合为一个切分单位输出。实验结果表明,2种方法能提高藏文自动分词的识别正确率。
关键词
藏文信息处理
词缀归并
未登录词
分词碎片
整合
Keywords
Tibetan information processing
affix merging
unknown word
word segmentation fragment integration
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
分词语料库中的并列式四字格识别
被引量:
1
4
作者
徐润华
陈小荷
李斌
机构
南京师范大学文学院
出处
《计算机工程与应用》
CSCD
北大核心
2010年第4期139-141,共3页
基金
国家社会科学基金 No.07BYY050
国家重点基础研究发展规划(973) No.2004CB318102~~
文摘
并列式四字格是一种特殊却数量众多的四字格。介绍了在有词性标注语料库中基于条件随机场模型的四字格抽取工作,并在此基础上分析了并列式四字格的结构特点,提出了一种基于分词语料库环境的并列式四字格识别方法。通过不同语料库间的对比实验,结果表明该识别方法具有比较好的精确度和一定的适应性。
关键词
四字格
条件随机场模型
分词碎片
并列式四字格
Keywords
four-character idioms
conditional random fields
segmented fragments
parallel four-character idioms
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Internet中的新词识别
被引量:
7
5
作者
李钝
曹元大
万月亮
机构
郑州大学信息工程学院
北京理工大学计算机科学技术学院
出处
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2008年第1期26-29,共4页
文摘
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了"长词中包含短词"的问题,提高了新词识别的准确率.
关键词
新词识别
关联规则
时间函数
分词碎片
Keywords
new words identification
association rules
timeliness function
segmentation fragment
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于重复字串的微博新词非监督自动抽取
被引量:
4
6
作者
孙晓
李承程
叶嘉麒
任福继
机构
合肥工业大学计算机与信息学院
情感计算与先进智能机器安徽省重点实验室
出处
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第6期674-678,724,共6页
基金
国家自然科学基金资助项目(61203315)
国家高技术研究发展计划(863计划)资助项目(2012AA011103)
安徽省科技攻关计划资助项目(1206c0805039)
文摘
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验结果证明,该方法有效地保证了较高的准确率和召回率,同时保证了新词的抽取速度。
关键词
自然语言处理
中文
分词
重复字串
分词碎片
Keywords
natural language processing
Chinese word segmentation
repeated string
sub-word fragment
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于独立性统计的子串归并算法
被引量:
1
7
作者
周浪
冯冲
黄河燕
王平尧
机构
南京理工大学计算机科学与技术学院
中国科学院计算机语言信息工程研究中心
宁波职业技术学院计算机系
出处
《计算机工程与应用》
CSCD
北大核心
2010年第24期129-131,共3页
基金
国家高技术研究发展计划(863)(No.2006AA01Z152
No.2006AA010109)
+1 种基金
国家自然科学基金(No.60672149)
宁波科技局重点科技项目(No.2007A310001)~~
文摘
现行的子串归并算法都是采用一对一的方式针对同频子串提出的。但是在使用词法分析工具对文本进行切分时,不可避免地会产生很多的分词碎片,这直接导致了很多无意义子串的产生。通过分析这些无意义子串和众多父串之间的这种一对多关系,提出了一种基于独立性统计的子串归并算法。最后将该子串归并算法应用在中文术语抽取系统中,使得系统的准确率从91.3%提升到了93.32%。
关键词
子串归并
独立性统计
分词碎片
Keywords
substring reduction
independence statistic
segmentation fragment
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于构词模式的未登录描述词自动识别的研究
8
作者
王玉凡
赵占坤
韩晓霞
机构
河北软件职业技术学院
出处
《计算机光盘软件与应用》
2014年第1期143-143,145,共2页
基金
河北省保定市科学技术研究与发展计划(13ZG030)
文摘
本论文基于要实现二维图像空间关系特征与描述词对齐这一目的,研究如何将描述句中的"分词碎片"自动识别为描述词,增强对齐后语料的丰富性。本文采用模式识别的思想,总结"分词碎片"的词性构成描述词的构成模式,对碎片中可能成为的描述词进行识别。
关键词
对齐
未登录词识别
构词模式
词性
分词碎片
分类号
G353.1 [文化科学—情报学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于碎片分词的未登录词识别方法
周蕾
《常熟理工学院学报》
2007
2
下载PDF
职称材料
2
改进的正向最大匹配分词算法
张彩琴
袁健
《计算机工程与设计》
CSCD
北大核心
2010
11
下载PDF
职称材料
3
藏文自动分词中未登录词处理方法研究
羊毛卓玛
高定国
《计算机工程》
CAS
CSCD
2012
5
下载PDF
职称材料
4
分词语料库中的并列式四字格识别
徐润华
陈小荷
李斌
《计算机工程与应用》
CSCD
北大核心
2010
1
下载PDF
职称材料
5
Internet中的新词识别
李钝
曹元大
万月亮
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2008
7
下载PDF
职称材料
6
基于重复字串的微博新词非监督自动抽取
孙晓
李承程
叶嘉麒
任福继
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014
4
下载PDF
职称材料
7
一种基于独立性统计的子串归并算法
周浪
冯冲
黄河燕
王平尧
《计算机工程与应用》
CSCD
北大核心
2010
1
下载PDF
职称材料
8
基于构词模式的未登录描述词自动识别的研究
王玉凡
赵占坤
韩晓霞
《计算机光盘软件与应用》
2014
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部