期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向非均匀分布数据的代价敏感标记分布学习
1
作者 樊俊 张恒汝 +1 位作者 余一帆 闵帆 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第5期40-50,共11页
标记歧义近年来在机器学习和数据挖掘领域备受关注.标记分布学习(LDL)通过为样本分配概率标记来解决标记歧义问题.现有的LDL方法主要是为处理训练数据均匀分布的情况而设计的.然而,在实际应用中,训练数据往往呈现非均匀分布.因此,提出... 标记歧义近年来在机器学习和数据挖掘领域备受关注.标记分布学习(LDL)通过为样本分配概率标记来解决标记歧义问题.现有的LDL方法主要是为处理训练数据均匀分布的情况而设计的.然而,在实际应用中,训练数据往往呈现非均匀分布.因此,提出了一种代价敏感的标记分布学习方法(CSLDL),用以处理这种非均匀分布的数据.通过充分利用样本的密度信息,设计了一种新的损失函数.首先,将描述度集平均划分为多个区间,并统计这些区间中的样本个数,从而推导出每个类别标记的经验密度向量.其次,为了确保不同区间之间的连续性,利用邻居来对目标区间的经验密度进行修正.将经验密度向量与对称核进行卷积,以使每个区间不仅考虑当前区间,还考虑附近区间.最后,利用修正后的密度向量构建代价矩阵,并结合Kullback-Leibler(K-L)散度来处理非均匀分布的训练数据.CSLDL在10个真实世界的数据集上与6种最先进的算法进行了对比实验.实验结果充分验证了提出的方法的有效性和优越性. 展开更多
关键词 标记分布学习 标记歧义 非均匀分布数据 代价敏感 样本密度
下载PDF
基于标记的规则统计模型与未登录词识别算法 被引量:13
2
作者 苏菲 王丹力 戴国忠 《计算机工程与应用》 CSCD 北大核心 2004年第15期43-45,91,共4页
该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串... 该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词。经过实验测试,该系统的准确率为98.88%,召回率为98.32%。 展开更多
关键词 歧义标记 规则统计模型 N元语法 词加权算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部