期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于决策树的汉语未登录词识别 被引量:23
1
作者 秦文 苑春法 《中文信息学报》 CSCD 北大核心 2004年第1期14-19,共6页
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和... 未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和‘分’(分为两单字词 )两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识 :前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4 5算法生成了决策树。在分词程序已经识别出一定数量的未登录词[6 ] 而仍有分词碎片情况下使用该方法 ,开放测试的召回率 ;6 9 4 2 % ,正确率 :4 0 4 1%。实验结果表明 ,基于决策树的未登录词识别是一种值得继续探讨的方法。 展开更多
关键词 人工智能 自然语言处理 未登录词识别 数据挖掘 决策树 C4.5算法
下载PDF
基于多源信息融合的中文农作物病虫害命名实体识别 被引量:16
2
作者 李林 周晗 +3 位作者 郭旭超 刘成启 苏洁 唐詹 《农业机械学报》 EI CAS CSCD 北大核心 2021年第12期253-263,共11页
随着农作物病虫害研究文献的快速增长,对农作物病虫害领域文献进行文本挖掘变得越来越重要。开发有效、准确的农作物病虫害命名实体识别系统有助于在农作物病虫害相关研究报告中提取研究成果,为农作物病虫害的治理提供有效建议。本文针... 随着农作物病虫害研究文献的快速增长,对农作物病虫害领域文献进行文本挖掘变得越来越重要。开发有效、准确的农作物病虫害命名实体识别系统有助于在农作物病虫害相关研究报告中提取研究成果,为农作物病虫害的治理提供有效建议。本文针对中文农作物病虫害数据集缺失问题,提出了基于半远程监督的停等算法,利用该算法构建中文农作物病虫害领域语料库,大幅度减少标注过程的人工成本和时间成本;同时,提出了中文农作物病虫害命名实体识别模型(Agricultural information extraction,Agr-IE),该模型基于BERT-BILSTM-CRF,辅以多源信息融合(多源分词信息和全局词汇嵌入信息)丰富字符向量,使其充分结合字符级与词汇级的信息,以提高模型捕捉上下文信息的能力。实验表明,该模型可以有效地识别病害、虫害、药剂、作物等实体,F1值分别为96.56%、95.12%、94.48%、95.54%,并对识别难度较大的病原实体具有较好的识别效果,F1值为81.48%,高于BERT-BILSTM-CRF、BERT等模型的相应值。本文所提模型在MSRA和Weibo等其他领域数据集上与CAN-NER、Lattice-LSTM-CRF等模型进行了对比实验,并取得最佳的识别效果,F1值分别为95.80%、94.57%,表明该算法具有一定的泛化能力。 展开更多
关键词 命名实体识别 农作物病虫害 农业自然语言处理 中文分词 停等算法
下载PDF
基于遗传算法的汉语未登录词识别 被引量:3
3
作者 闫蓉 张蕾 《计算机应用与软件》 CSCD 北大核心 2008年第7期88-90,共3页
针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法。该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,... 针对汉语分词处理中未登录词识别这一难点,提出一种应用遗传算法识别的新方法。该方法扩大了分词碎片容量,将未登录词识别问题看成二值分类问题,即在预处理后产生的分词碎片中,单字存在"可组合"和"不可组合"两类,采用遗传算法先将分词碎片中的单字词确定下来,然后将其余相邻单字组合,完成未登录词识别。实验结果表明,该方法可有效地解决未登录词识别问题,提高未登录词识别的精确率和召回率。 展开更多
关键词 自然语言处理 未登录词识别 遗传算法
下载PDF
基于词频学习和动态词频更新的藏文自动分词系统设计 被引量:4
4
作者 项炜 金澎 《计算机应用与软件》 CSCD 北大核心 2014年第5期106-109,共4页
藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别... 藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识别技术。在歧义字段分词准确性、未登录词识别率和分词速度上,该系统具有较优的性能。 展开更多
关键词 藏文自动分词 自然语言处理 格助词 动态词频更新 歧义处理 未登录词识别
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部