期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于词聚类特征的统计中文组块分析模型 被引量:7
1
作者 孙广路 王晓龙 +1 位作者 刘秉权 关毅 《电子学报》 EI CAS CSCD 北大核心 2008年第12期2450-2453,2399,共5页
提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.... 提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能. 展开更多
关键词 词聚类 信息熵 中文组块分析 句法功能
下载PDF
基于条件随机域和语义类的中文组块分析方法 被引量:5
2
作者 孙广路 郎非 薛一波 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第7期135-139,共5页
为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词... 为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词典中抽取的语义类特征应用到中文组块分析中,提高分析精度.实验表明,该方法取得了F值为92.77%的中文组块分析性能,实验进一步还表明了特征模板的选取和训练语料的规模对于分析性能的影响. 展开更多
关键词 条件随机域 中文组块分析 特征模板 语义词典
下载PDF
级联中文组块识别 被引量:2
3
作者 秦颖 王小捷 钟义信 《北京邮电大学学报》 EI CAS CSCD 北大核心 2008年第1期14-17,共4页
基于统计方法的中文组块研究大多借鉴CoNLL2000英文组块的思想,建立了组块表示的BIO模型,并将组块识别任务作为一种为词序列标注的多分类问题.为降低分类复杂度,采取了一种分解识别法,即先识别组块的边界,再进行组块类别判定.基于条件... 基于统计方法的中文组块研究大多借鉴CoNLL2000英文组块的思想,建立了组块表示的BIO模型,并将组块识别任务作为一种为词序列标注的多分类问题.为降低分类复杂度,采取了一种分解识别法,即先识别组块的边界,再进行组块类别判定.基于条件随机场(CRF)构建了级联组块识别器,实验数据集采用宾州大学中文树库(CTB5.1).在特征选择上,借鉴了中文分词特征选择的方法.5倍交叉验证的实验结果为:组块边界识别的F1值为95.05%;类型识别的准确率为99.43%;整体F1值为93.58%.该方法提高了系统性能,缩短了学习器的训练时间. 展开更多
关键词 中文组块 边界识别 类别识别 条件随机场
下载PDF
Co-training机器学习方法在中文组块识别中的应用 被引量:8
4
作者 刘世岳 李珩 +1 位作者 张俐 姚天顺 《中文信息学报》 CSCD 北大核心 2005年第3期73-79,共7页
采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组... 采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F值分别达到了85 34%和83 4 1% ,分别提高了2 13%和7 2 1%。 展开更多
关键词 计算机应用 中文信息处理 co-training算法 中文组块 分类器
下载PDF
基于SVM-Adaboost的中文组块分析 被引量:1
5
作者 别致 周俊生 陈家骏 《计算机工程与应用》 CSCD 北大核心 2008年第21期171-173,211,共4页
组块分析是一种非常重要的句法分析预处理手段,通过将文本划分成一组互不重叠的片断,来达到降低句法分析的难度。提出一种基于SVM-Adaboost的中文组块分析方法,将基于线性核函数的支持向量机与Adaboost算法相结合,以基于线性核函数的SV... 组块分析是一种非常重要的句法分析预处理手段,通过将文本划分成一组互不重叠的片断,来达到降低句法分析的难度。提出一种基于SVM-Adaboost的中文组块分析方法,将基于线性核函数的支持向量机与Adaboost算法相结合,以基于线性核函数的SVM作为Adaboost的分量分类器,在学习过程中改变分量分类器的核参数。实验结果表明了该算法的有效性。 展开更多
关键词 中文组块分析 ADABOOST 支持向量机
下载PDF
中文语义组块自动抽取方法 被引量:2
6
作者 钟茂生 荆佳琦 《计算机应用研究》 CSCD 北大核心 2018年第2期396-399,共4页
句子语义表述是当前自然语言处理领域亟待解决的重要问题,是制约自然语言能否取得深度应用的重要因素。根据中文文本的特点,摈弃以前自然语言处理语义与句法相分离的观点,提出语义组块概念,并利用深度信念网络的深度学习方法构建对中文... 句子语义表述是当前自然语言处理领域亟待解决的重要问题,是制约自然语言能否取得深度应用的重要因素。根据中文文本的特点,摈弃以前自然语言处理语义与句法相分离的观点,提出语义组块概念,并利用深度信念网络的深度学习方法构建对中文语义组块进行自动抽取的模型,模型以句子中名词为核心,将名词与其前后词语进行组合后构成中文语义组块,之后分别使用神经网络、支持向量机和深度信念网络三种抽取方法构建抽取模型,进行了三组实验,最终结果显示在高维大数据背景下,深度信念网络的方法与支持向量机和神经网络相比较具有更好的抽取效果。 展开更多
关键词 语义表述 深度信念网络 深度学习 中文语义组块
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部