期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于相对条件熵的搭配抽取方法 被引量:3
1
作者 王大亮 张德政 +2 位作者 涂序彦 郑雪峰 佟子健 《北京邮电大学学报》 EI CAS CSCD 北大核心 2007年第6期40-45,共6页
针对以往研究将搭配视为词项的简单并置,而没有考虑词项间的倾向性问题,提出了一个基于相对条件熵的搭配倾向统计模型,衡量中心词对上下文同现词的依赖程度.此外,加入语言学启发式规则,利用词性过滤器和滑动窗口的方法识别搭配边界,最... 针对以往研究将搭配视为词项的简单并置,而没有考虑词项间的倾向性问题,提出了一个基于相对条件熵的搭配倾向统计模型,衡量中心词对上下文同现词的依赖程度.此外,加入语言学启发式规则,利用词性过滤器和滑动窗口的方法识别搭配边界,最终形成了在开放语料库环境下的搭配抽取方法.该方法具有很强的解释性,有效地揭示了搭配构成的内在机理.经过证明,搭配倾向强度可以解释为由方向修正的互信息. 展开更多
关键词 自然语言处理 搭配抽取 相对熵 搭配倾向性
下载PDF
基于词向量的评价搭配抽取算法研究
2
作者 杨令铎 史海波 周晓锋 《小型微型计算机系统》 CSCD 北大核心 2016年第10期2269-2272,共4页
传统中文评价搭配抽取采用的最大熵和条件随机域等算法依赖于人工选取特征,且对前期语义标注精度要求较高.本文提出一种使用词向量代替传统语义特征进行搭配抽取的方法.其中词向量通过深度学习模型在大规模语料上进行无监督学习得到.实... 传统中文评价搭配抽取采用的最大熵和条件随机域等算法依赖于人工选取特征,且对前期语义标注精度要求较高.本文提出一种使用词向量代替传统语义特征进行搭配抽取的方法.其中词向量通过深度学习模型在大规模语料上进行无监督学习得到.实验中将词向量及语义特征分别作为三种机器学习模型的输入,结果表明使用词向量在神经网络模型中取得了较好的效果,其精度、召回率都比使用语义特征最好情况高出接近3%,同时,我们发现随着无监督学习训练语料的增大,得到的词向量也越来越实用. 展开更多
关键词 搭配抽取 词向量 神经网络 条件随机域 最大熵
下载PDF
词语搭配抽取系统的对比研究
3
作者 薛晶 杜友福 黄岚 《现代计算机》 2016年第6期17-21,共5页
词语搭配抽取系统是自动抽取搭配的有效工具,对自然语言处理和语言学习具有重要作用。从语料库来源、抽取方法和抽取结果三方面对常用的搭配抽取系统作比较分析,以便找到一种适合于特定情况的系统。
关键词 词语搭配抽取 抽取方法 语料库
下载PDF
多策略融合的搭配抽取方法 被引量:6
4
作者 王大亮 涂序彦 +1 位作者 郑雪峰 佟子健 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第4期608-612,共5页
以往的词汇搭配抽取统计评价方法具有大致相同的效果,它们各有优劣,可以实现优势互补。该文提出多策略融合的搭配抽取方法。首先,将互信息法用于衡量二元独立性,淘汰候选的无关二元组。其次,对比2χ检验法与t检验法,发现使用2χ检验法... 以往的词汇搭配抽取统计评价方法具有大致相同的效果,它们各有优劣,可以实现优势互补。该文提出多策略融合的搭配抽取方法。首先,将互信息法用于衡量二元独立性,淘汰候选的无关二元组。其次,对比2χ检验法与t检验法,发现使用2χ检验法能够更合理地反映搭配组合的同现性和期待性;然后,使用对数似然比检验法,解决其他方法无法克服的稀疏数据问题。此外,加入构词法的启发式规则,最终形成一个多策略融合的方法。实验结果表明该方法的准确率较高,在实际应用中取得良好效果。 展开更多
关键词 信息处理 搭配抽取 统计评价 自然语言处理
原文传递
基于混合策略的双语搭配成分抽取系统的设计与实现 被引量:1
5
作者 徐东英 张彤 《计算机工程与应用》 CSCD 北大核心 2004年第25期173-175,178,共4页
介绍了使用混合策略从汉英双语语料库中抽取搭配的方法。采用互信息抽取最初的候选的搭配组合,并用t-测试值考察其可靠度,过滤掉t-score<1.65的候选搭配串,再通过词性标注和浅层句法分析进行筛选。实验证明了该方法的有效性。同时探... 介绍了使用混合策略从汉英双语语料库中抽取搭配的方法。采用互信息抽取最初的候选的搭配组合,并用t-测试值考察其可靠度,过滤掉t-score<1.65的候选搭配串,再通过词性标注和浅层句法分析进行筛选。实验证明了该方法的有效性。同时探讨了将抽取的搭配组合应用于建造双语词典和机器翻译系统的途径。 展开更多
关键词 搭配抽取 混合策略 互信息 t-测试 统计方法 规则方法
下载PDF
基于单字特征和搜索引擎的新词识别 被引量:2
6
作者 苏宁 惠子敬 刘娟 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2010年第6期704-710,共7页
新词识别是影响搜索准确率以及速率的重要因素.本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法.采用条件概率的方法提取单字词搭配特征和临界词特征,并采用层次结构实现新词定位以及识别.首先采用双向最大匹配相结合的方... 新词识别是影响搜索准确率以及速率的重要因素.本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法.采用条件概率的方法提取单字词搭配特征和临界词特征,并采用层次结构实现新词定位以及识别.首先采用双向最大匹配相结合的方法对文本进行词法粗切分,然后根据单字词搭配得到候选新词的位置,用临界词方法确定候选新词的边界,采用改进Nagao串频统计方法对新词候选词在本文内进行重复串统计,对于只在文中出现一次的新词则借助搜索引擎进行确定.对新浪网近期的网络文章进行测试,结果表明,基于本文方法设计的系统可以识别不同领域的新词,在低频词、较长的词以及新词语搭配方面取得了良好的效果.单字词搭配检查发现新词位置综合指标F值达到96.8%. 展开更多
关键词 新词识别 单字词 临界词 搭配抽取 搜索引擎
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部