期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于统计学习框架的中文新词检测方法 被引量:10
1
作者 张海军 栾静 +1 位作者 李勇 齐向伟 《计算机科学》 CSCD 北大核心 2012年第2期232-235,共4页
新词自动检测是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来了巨大困难。提出一种新词检测的形式化描述模型,用以建立特征和新词检测结果之间的统计联系。在此基础上提出应用统计学习模型作为框架来整合不同类型的... 新词自动检测是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来了巨大困难。提出一种新词检测的形式化描述模型,用以建立特征和新词检测结果之间的统计联系。在此基础上提出应用统计学习模型作为框架来整合不同类型的可用特征,以充分发挥特征之间的组合作用,进一步改善新词检测效果。实验表明,统计框架方法的性能明显地优于特征的简单叠加,能有效提高新词检测效果,开放实验和封闭实验的F值分别为49.72%和69.83%,达到了目前的较好水平。 展开更多
关键词 统计框架 新词检测 重复模式 语言知识特征 统计特征
下载PDF
一种基于海量语料的网络热点新词识别方法 被引量:6
2
作者 张海军 李勇 闫琪琪 《计算机工程与应用》 CSCD 北大核心 2015年第5期208-213,共6页
基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题,因要求快速处理大规模语料,且在新词检测中需要更多智力因素,在研究中存在较多困难。构建了一个基于海量语料的网络热点新词识别框架,整合了所提出的基于逐层剪枝算法的... 基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题,因要求快速处理大规模语料,且在新词检测中需要更多智力因素,在研究中存在较多困难。构建了一个基于海量语料的网络热点新词识别框架,整合了所提出的基于逐层剪枝算法的重复模式提取,基于统计学习模型的新词检测及基于组合特征的新词词性猜测等3个重要算法,用以提高新词识别的处理能力和识别效果。实验和数据分析表明,该框架能高效可靠地从大规模语料中提取重复模式,构造候选新词集合,并能有效实施新词检测和新词属性识别任务,处理效果达到了目前的较好水平。 展开更多
关键词 海量语料 重复模式 逐层剪枝算法 新词检测 组合特征
下载PDF
不限领域的中文新词的识别研究 被引量:2
3
作者 韩艳 姚建民 +1 位作者 朱巧明 张晶 《郑州大学学报(理学版)》 CAS 2008年第3期67-71,共5页
新词识别是中文信息处理领域中的一个难点,也是自然语言处理、信息检索和机器翻译等领域的一项基础研究.根据新词特点提出不限领域的基于概率统计技术和规则方法相结合的概念抽取方法,比较了规则和统计结合的方法与纯统计的新词识别方法... 新词识别是中文信息处理领域中的一个难点,也是自然语言处理、信息检索和机器翻译等领域的一项基础研究.根据新词特点提出不限领域的基于概率统计技术和规则方法相结合的概念抽取方法,比较了规则和统计结合的方法与纯统计的新词识别方法,通过增加权重设置很好地结合了两种方案. 展开更多
关键词 新词检测 平均互信息 频度比 权重设置
下载PDF
基于外部排序的字串左右熵快速计算方法 被引量:2
4
作者 张海军 彭成 栾静 《计算机工程与应用》 CSCD 北大核心 2011年第19期18-20,共3页
左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔... 左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵。分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算。 展开更多
关键词 自然语言处理 左右熵 统计特征 新词检测
下载PDF
在课堂教学中优化新词呈现与检测手段例析 被引量:11
5
作者 章传宝 《中小学外语教学》 北大核心 2010年第9期23-28,共6页
本文结合课堂教学片段,针对如何在课堂教学中优化新词汇的呈现与检测手段的问题,对新词呈现与检测脱离语境、缺乏创意的问题以及新词呈现与检测情景化、立体化等优化策略进行了例析。
关键词 词汇教学 优化策略 新词呈现 新词检测
原文传递
一种利用Helmholtz原理的中文新词识别方法 被引量:1
6
作者 陈俊杰 侯宏旭 +1 位作者 杨玲亭 高静 《内蒙古农业大学学报(自然科学版)》 CAS 2015年第1期139-142,共4页
新词识别近年来逐渐被人们所关注的热点和难点问题。提出了一种利用Helmholtz原理检测新词的方法,该方法利用词语共现状态的突然变换来检测新词。实验证明使用该方法进行新词识别的召回率可以达到60%,F值可以达到45.5%,该方法是一种有... 新词识别近年来逐渐被人们所关注的热点和难点问题。提出了一种利用Helmholtz原理检测新词的方法,该方法利用词语共现状态的突然变换来检测新词。实验证明使用该方法进行新词识别的召回率可以达到60%,F值可以达到45.5%,该方法是一种有效的新词检测方法。 展开更多
关键词 Helmholtz原理 新词检测 共现状态
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部