-
题名基于统计学习框架的中文新词检测方法
被引量:10
- 1
-
-
作者
张海军
栾静
李勇
齐向伟
-
机构
新疆师范大学计算机科学技术学院
中国科学技术大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2012年第2期232-235,共4页
-
基金
国家自然科学基金(61163045)
新疆师范大学博士博士后科研启动基金(XJNUBS1111)资助
-
文摘
新词自动检测是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来了巨大困难。提出一种新词检测的形式化描述模型,用以建立特征和新词检测结果之间的统计联系。在此基础上提出应用统计学习模型作为框架来整合不同类型的可用特征,以充分发挥特征之间的组合作用,进一步改善新词检测效果。实验表明,统计框架方法的性能明显地优于特征的简单叠加,能有效提高新词检测效果,开放实验和封闭实验的F值分别为49.72%和69.83%,达到了目前的较好水平。
-
关键词
统计框架
新词检测
重复模式
语言知识特征
统计特征
-
Keywords
Statistical framework
New words detection
Repeats
Linguistic knowledge feature
Statistical feature
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于海量语料的网络热点新词识别方法
被引量:6
- 2
-
-
作者
张海军
李勇
闫琪琪
-
机构
新疆师范大学初等教育学院
新疆师范大学计算机科学技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第5期208-213,共6页
-
基金
国家自然科学基金(No.61163045)
新疆维吾尔自治区自然科学基金(No.2012211A057)
+1 种基金
新疆师范大学重点学科招标课题(No.12XSXZ0601)
新疆师范大学研究生创新基金项目(No.20131201)
-
文摘
基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题,因要求快速处理大规模语料,且在新词检测中需要更多智力因素,在研究中存在较多困难。构建了一个基于海量语料的网络热点新词识别框架,整合了所提出的基于逐层剪枝算法的重复模式提取,基于统计学习模型的新词检测及基于组合特征的新词词性猜测等3个重要算法,用以提高新词识别的处理能力和识别效果。实验和数据分析表明,该框架能高效可靠地从大规模语料中提取重复模式,构造候选新词集合,并能有效实施新词检测和新词属性识别任务,处理效果达到了目前的较好水平。
-
关键词
海量语料
重复模式
逐层剪枝算法
新词检测
组合特征
-
Keywords
large scale corpora
repeat
hierarchical pruning algorithm
new words detection
combined features
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名不限领域的中文新词的识别研究
被引量:2
- 3
-
-
作者
韩艳
姚建民
朱巧明
张晶
-
机构
苏州大学计算机科学与技术学院
华南理工大学计算机学院
-
出处
《郑州大学学报(理学版)》
CAS
2008年第3期67-71,共5页
-
基金
江苏省自然科学基金资助项目,编号BK2006539
江苏省高校自然科学基础研究项目,编号06KJB520095
-
文摘
新词识别是中文信息处理领域中的一个难点,也是自然语言处理、信息检索和机器翻译等领域的一项基础研究.根据新词特点提出不限领域的基于概率统计技术和规则方法相结合的概念抽取方法,比较了规则和统计结合的方法与纯统计的新词识别方法,通过增加权重设置很好地结合了两种方案.
-
关键词
新词检测
平均互信息
频度比
权重设置
-
Keywords
new word detection
average MI(mutual information)
frequency ratio
weight setting
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于外部排序的字串左右熵快速计算方法
被引量:2
- 4
-
-
作者
张海军
彭成
栾静
-
机构
新疆师范大学计算机科学技术学院
中国科技大学计算机科学技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第19期18-20,共3页
-
基金
国家自然科学基金No.61040035
新疆师范大学优秀青年教师科研启动基金项目(No.XJNU1011)~~
-
文摘
左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵。分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算。
-
关键词
自然语言处理
左右熵
统计特征
新词检测
-
Keywords
natrual language processing
left(right)entropy
statistical feature
new words detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名在课堂教学中优化新词呈现与检测手段例析
被引量:11
- 5
-
-
作者
章传宝
-
机构
浙江绍兴鲁迅中学
-
出处
《中小学外语教学》
北大核心
2010年第9期23-28,共6页
-
文摘
本文结合课堂教学片段,针对如何在课堂教学中优化新词汇的呈现与检测手段的问题,对新词呈现与检测脱离语境、缺乏创意的问题以及新词呈现与检测情景化、立体化等优化策略进行了例析。
-
关键词
词汇教学
优化策略
新词呈现
新词检测
-
分类号
G633.41
[文化科学—教育学]
-
-
题名一种利用Helmholtz原理的中文新词识别方法
被引量:1
- 6
-
-
作者
陈俊杰
侯宏旭
杨玲亭
高静
-
机构
内蒙古大学计算机学院
内蒙古农业大学计算机与信息工程学院
-
出处
《内蒙古农业大学学报(自然科学版)》
CAS
2015年第1期139-142,共4页
-
基金
国家自然科学基金项目(61362028)
内蒙科技计划项目(20130364)
+1 种基金
内蒙古自治区自然科学基金资助(2015MS0628)
内蒙古农业大学基础学科科研启动基金(JC2014007)
-
文摘
新词识别近年来逐渐被人们所关注的热点和难点问题。提出了一种利用Helmholtz原理检测新词的方法,该方法利用词语共现状态的突然变换来检测新词。实验证明使用该方法进行新词识别的召回率可以达到60%,F值可以达到45.5%,该方法是一种有效的新词检测方法。
-
关键词
Helmholtz原理
新词检测
共现状态
-
Keywords
The Helmholtz principle
new word identifier
occurrence state
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-