期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于CRFs和歧义模型的越南语分词 被引量:2
1
作者 熊明明 李英 +2 位作者 郭剑毅 毛存礼 余正涛 《数据采集与处理》 CSCD 北大核心 2017年第3期636-642,共7页
通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。... 通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。越南语中交叉歧义广泛分布在句子中,为了克服交叉歧义的影响,通过词典的正向和逆向匹配算法从训练语料中抽取了5 377条歧义片段,并通过最大熵模型训练得到一个歧义模型,并融入到分词模型中。把训练语料均分为10份做交叉验证实验,分词准确率达到了96.55%。与已有越南语分词工具VnTokenizer比较,实验结果表明该方法提高了越南语分词的准确率、召回率和F值。 展开更多
关键词 条件随机场模型 越南语分词 词法 基本特征 最大熵 歧义模型
下载PDF
面向高效越南语分词的有监督集成学习框架
2
作者 刘伍颖 王琳 《小型微型计算机系统》 CSCD 北大核心 2018年第6期1213-1217,共5页
在很多亚洲语言书面文本中,词与词之间没有明显的分隔符,因此这些文本的自动分词任务依然具有挑战性.相应的分词算法能够被广泛用于各种自然语言处理应用当中.本文针对越南语分词问题,提出了一套完整的有监督集成学习框架,并且实现了一... 在很多亚洲语言书面文本中,词与词之间没有明显的分隔符,因此这些文本的自动分词任务依然具有挑战性.相应的分词算法能够被广泛用于各种自然语言处理应用当中.本文针对越南语分词问题,提出了一套完整的有监督集成学习框架,并且实现了一种新的基于有监督集成学习的分词算法.在二元音节频率索引数据结构支持下,我们实现的分词算法能够综合多个基本分词器的优势,形成一个集成分词器.公开数据集上的越南语分词实验结果表明我们提出的框架在统计、计算和表示上具有良好的表现,算法最终能够达到最优的分词效果. 展开更多
关键词 有监督集成学习框架 越南语分词 多基本分词 二元音节频率索引
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部