期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
一种基于词序信息的自动文摘方法 被引量:3
1
作者 任纪生 张弛 王作英 《计算机工程与设计》 CSCD 北大核心 2007年第1期178-181,共4页
自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序。提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动,采用基于聚类的方法实现... 自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序。提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动,采用基于聚类的方法实现了词序组的向量表示并以此刻画句子、段落、文本,通过线性插值将基于不同长度词序组的相似度结果予以综合。同时,提出了新的基于含词序组重要性累计度的句子或段落的权重指标。实验证明利用词序信息可有效提高自动文摘质量。 展开更多
关键词 自动文摘 词序 向量空间模型 相似度 权重
下载PDF
一种新的潜在语义分析语言模型 被引量:3
2
作者 任纪生 王作英 《高技术通讯》 CAS CSCD 北大核心 2005年第8期1-5,共5页
提出了基于聚类的方法实现词的快速量化表示,并由此导出潜在语义分析语言模型预测置信度,同时运用新提出的几何加权静态插值方式同三元文法模型相结合,构建了一种新的潜在语义分析语言模型,并将其应用于汉语语音识别.实验表明其效率和... 提出了基于聚类的方法实现词的快速量化表示,并由此导出潜在语义分析语言模型预测置信度,同时运用新提出的几何加权静态插值方式同三元文法模型相结合,构建了一种新的潜在语义分析语言模型,并将其应用于汉语语音识别.实验表明其效率和性能均优于传统基于奇异值分解的潜在语义分析语言模型,相比于三元文法模型,识别错误率相对下降为3.6%~7.1%左右,并为有效量化表示词对进一步提高潜在语义分析语言模型性能提供了新的途径. 展开更多
关键词 语言模型 语音识别 N元文法 潜在语义分析 奇异值分解 汉语语音识别 模型性能 模型预测 插值方式 量化表
下载PDF
一种新的基于主题的语言模型自适应方法 被引量:3
3
作者 任纪生 王作英 《中文信息学报》 CSCD 北大核心 2006年第4期82-87,共6页
基于主题的语言模型自适应方法应尽可能提高语言模型权重系数的更新速度并降低语言模型的调用量以满足语音识别实时性要求。本文采用基于聚类的方法实现连续相邻二元词对的量化表示并以此刻画语音识别预测历史和各个文本主题中心,依据... 基于主题的语言模型自适应方法应尽可能提高语言模型权重系数的更新速度并降低语言模型的调用量以满足语音识别实时性要求。本文采用基于聚类的方法实现连续相邻二元词对的量化表示并以此刻画语音识别预测历史和各个文本主题中心,依据语音识别历史矢量和各个文本主题中心矢量的相似度更新语言模型权重系数并摒弃全局语言模型。同传统的基于EM算法的自适应方法相比,实验表明该方法明显提高了语音识别性能和实时性,识别错误率相对下降5.1%,说明该方法可比较准确地判断测试内容所属文本主题。 展开更多
关键词 计算机应用 中文信息处理 语言模型 主题自适应 语音识别 文本分类
下载PDF
基于特征有序对量化表示的文本分类方法 被引量:4
4
作者 任纪生 王作英 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第4期527-529,533,共4页
文本分类技术应尽可能包含语言中各种各样的约束信息,但目前常用的文本表示方法却忽视组成文本的语言特征顺序。该文采用基于聚类的方法实现语言特征有序对的快速量化表示,并由此导出新的基于特征有序对的文本表示方法以揭示文本中所... 文本分类技术应尽可能包含语言中各种各样的约束信息,但目前常用的文本表示方法却忽视组成文本的语言特征顺序。该文采用基于聚类的方法实现语言特征有序对的快速量化表示,并由此导出新的基于特征有序对的文本表示方法以揭示文本中所呈现出的语言特征顺序信息。运用向量空间质心法,分别依据词对和词类对表示文本并在3个数据集上进行实验。结果表明性能优于基于单纯词或单纯词类的文本表示方法,宏平均F1值绝对提高分别为3%~4%和5%~7%(相对改善分别是4%~5%和8%~10%)。由此说明特征顺序信息对提升文本分类性能具有重要作用。 展开更多
关键词 文本分类 特征选择 特征抽象 特征变换 奇异值分解
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部