期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于统计语言模型的英语易读性研究 被引量:12
1
作者 邢富坤 程东元 《解放军外国语学院学报》 CSSCI 北大核心 2010年第6期19-24,共6页
英语易读性研究有着悠久的历史,其研究成果在英语教学及研究中发挥着重要作用。近年来,随着统计自然语言处理技术的快速发展,英语易读性研究逐渐摆脱了过去单纯依靠测量词长、句长等因素的局限,开始从建立统计语言模型的角度进行探索,... 英语易读性研究有着悠久的历史,其研究成果在英语教学及研究中发挥着重要作用。近年来,随着统计自然语言处理技术的快速发展,英语易读性研究逐渐摆脱了过去单纯依靠测量词长、句长等因素的局限,开始从建立统计语言模型的角度进行探索,并取得了较好的应用效果。本文在回顾易读性研究历史的基础上,重点介绍当前基于统计语言模型的英语易读性研究的最新进展情况,并对这种研究方法进行评析,指出今后的努力方向,以期能够更深入地开展易读性研究,不断提高易读性研究水平。 展开更多
关键词 统计语言模型 易读性 语料库 自然语言处理
下载PDF
中间语言转换过程中的增强处理 被引量:2
2
作者 熊文新 袁琦 《计算机工程与应用》 CSCD 北大核心 2005年第9期171-173,223,共4页
在基于中间语言的多语信息交流平台中,确保自然语言表述的信息内容能正确地转换为相应的中间语言表示非常重要。作者在引入子语言后,将源语转换和目标语生成过程结合起来,人机交互的界面处理既提升了源语信息转换的准确性,又提高了目标... 在基于中间语言的多语信息交流平台中,确保自然语言表述的信息内容能正确地转换为相应的中间语言表示非常重要。作者在引入子语言后,将源语转换和目标语生成过程结合起来,人机交互的界面处理既提升了源语信息转换的准确性,又提高了目标语生成的自然度,从而进一步增强了多语信息交流平台的可行性。 展开更多
关键词 中间语言 子语言 交互操作 基于实例
下载PDF
多语信息交流平台的中间语言系统及支撑环境设计 被引量:1
3
作者 熊文新 宋柔 袁琦 《计算机科学》 CSCD 北大核心 2006年第8期256-259,266,共5页
探讨了中间语言充当多语信息交流平台基础架构的必要性和可行性,介绍了一个基于中间语言的多语信息处理平台的总体设计和实现策略。讨论了如何在构建中间语言系统过程中引入子语言、受限语言技术,中间语言系统在网络环境下的XML实施,以... 探讨了中间语言充当多语信息交流平台基础架构的必要性和可行性,介绍了一个基于中间语言的多语信息处理平台的总体设计和实现策略。讨论了如何在构建中间语言系统过程中引入子语言、受限语言技术,中间语言系统在网络环境下的XML实施,以及系统实施过程中的多引擎处理策略和学习反馈模块等支撑环境建问题,最后给出了一个示例在系统平台中运行的过程。 展开更多
关键词 中间语言 支撑环境 多语言信息
下载PDF
计算语言学——一门新兴的交叉学科 被引量:5
4
作者 雒自清 张雪荣 苗传江 《科学学研究》 CSSCI 北大核心 2003年第z1期46-50,共5页
计算语言学是计算机科学和语言学、心理学、哲学等多种学科相结合的一门新兴的交叉学科,虽然只有短短几十年的发展历程,却有着越来越广阔的应用前景,成为信息时代不可缺少的一门重要学科。本文详细阐述了计算语言学的发展历史、学科性... 计算语言学是计算机科学和语言学、心理学、哲学等多种学科相结合的一门新兴的交叉学科,虽然只有短短几十年的发展历程,却有着越来越广阔的应用前景,成为信息时代不可缺少的一门重要学科。本文详细阐述了计算语言学的发展历史、学科性质、学科定位、研究内容及研究方法;对当前研究的难点课题也进行了探讨,并提出了建议。 展开更多
关键词 计算语言学 交叉学科
下载PDF
信息检索用户查询语句的停用词过滤 被引量:16
5
作者 熊文新 宋柔 《计算机工程》 CAS CSCD 北大核心 2007年第6期195-197,共3页
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选... 针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。 展开更多
关键词 用户查询 停用词 构造 识别
下载PDF
广义话题结构理论视角下话题自足句成句性研究 被引量:4
6
作者 尚英 宋柔 卢达威 《中文信息学报》 CSCD 北大核心 2014年第6期107-113,136,共8页
话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行... 话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行了分析、分类,并提出了使其成句的办法。这将进一步完善广义话题结构理论,并能提高使用话题自足句的应用系统的性能。 展开更多
关键词 广义话题结构 话题自足句 成句性
下载PDF
基于“固结词串”实例的中文分词研究 被引量:5
7
作者 修驰 宋柔 《中文信息学报》 CSCD 北大核心 2012年第3期59-64,共6页
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基... 近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。 展开更多
关键词 中文分词 CRF 固结词串 分词歧义 机器学习
下载PDF
基于广义话题结构语料库的语体对比研究——以报告体与小说体为例 被引量:2
8
作者 尚英 宋柔 《计算机工程与应用》 CSCD 2014年第11期21-27,38,共8页
传统语体学对于语体的描写多集中于词汇、句式、修辞等方面。近年来学者们开始在语法研究中更加重视语体因素,但是目前的研究多为微观的分析,没有宏观的理论体系支撑,难以探索到语体深层次的问题。广义话题理论根据汉语篇章的特点,以边... 传统语体学对于语体的描写多集中于词汇、句式、修辞等方面。近年来学者们开始在语法研究中更加重视语体因素,但是目前的研究多为微观的分析,没有宏观的理论体系支撑,难以探索到语体深层次的问题。广义话题理论根据汉语篇章的特点,以边界明确的标点句为基础,提出了广义话题和话题结构的概念。从广义话题的角度对比了工作报告语体和小说语体的差异,涉及到命名实体话题、状性话题、谓性话题、逻辑话题和关系话题等。并对这种差异的原因做了合理的解释。虽然工作报告与小说在语体上差异明显,但没有人从话题-说明的角度进行过比较,更从未有大规模语料库上的统计分析。该工作丰富了统计语体学的理论,并且为计算机自动分析话题结构、自动评判作文水平、文本按语体分类等应用打下了扎实的基础。 展开更多
关键词 语体 标点句 广义话题 话题结构
下载PDF
术语定义提取研究 被引量:8
9
作者 张榕 宋柔 《术语标准化与信息技术》 2006年第1期29-32,共4页
本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法。实验取得了较好... 本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法。实验取得了较好的效果,有效地解决了术语定义的提取问题。 展开更多
关键词 术语 定义 提取 智能匹配
下载PDF
信息检索需求描述中的词语区域凸显
10
作者 熊文新 宋柔 《计算机科学》 CSCD 北大核心 2008年第2期181-184,共4页
根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF&... 根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。 展开更多
关键词 信息检索 主题词语 凸显 描述域 功能块
下载PDF
藏族人名汉译名识别研究 被引量:3
11
作者 罗镭贾 宋柔 朱小杰 《情报学报》 CSSCI 北大核心 2009年第3期475-480,共6页
藏族人名汉译名识别属于人名识别的范畴,但现有的人名识别方法并不能完全切合藏族人名命名特点:藏族人名具有浓厚的宗教文化内涵,字(串)特征和内部构成复杂 其次,藏族人名中含有大量高频单字,使得藏族人名和普通词语之间歧义冲突变... 藏族人名汉译名识别属于人名识别的范畴,但现有的人名识别方法并不能完全切合藏族人名命名特点:藏族人名具有浓厚的宗教文化内涵,字(串)特征和内部构成复杂 其次,藏族人名中含有大量高频单字,使得藏族人名和普通词语之间歧义冲突变得十分突出,同时也使得藏族人名和上下文之间的边界变得非常模糊。本文在大规模藏族人名实例和语料库调查基础上,统计分析了藏族人名的用字(串)特征,并构建了藏族人名属性特征库 通过藏族人名的命名规则及属性特征将藏族人名形式化表示,实现了藏族人名汉译名自动识别系统。真实语料库开放测试F值达到87.12%。 展开更多
关键词 藏族人名识别 未登录词 可信度 自动分词
下载PDF
动词引出新支话题的语用功能研究 被引量:1
12
作者 季翠 卢达威 宋柔 《中文信息学报》 CSCD 北大核心 2014年第3期22-27,共6页
汉语是一种话题显著的语言。汉语篇章中,同一话题会多次延续,也可能发生话题转换。该文讨论一种话题转换现象:原话题的说明中的某个成分成为新话题,但该新话题及其说明并不构成原话题的说明或原话题说明的一部分。这种话题可称为新支话... 汉语是一种话题显著的语言。汉语篇章中,同一话题会多次延续,也可能发生话题转换。该文讨论一种话题转换现象:原话题的说明中的某个成分成为新话题,但该新话题及其说明并不构成原话题的说明或原话题说明的一部分。这种话题可称为新支话题。该文对动词按照词汇语义进行分类,揭示动词将其宾语引出成为新支话题的能力所在。文章给出了《围城》中动词引出新支话题的全部实例的词汇语义分布统计。 展开更多
关键词 新支话题 动词 分类体系
下载PDF
从广义话题结构考察汉语篇章话题认知复杂度 被引量:10
13
作者 卢达威 宋柔 尚英 《中文信息学报》 CSCD 北大核心 2014年第5期112-124,共13页
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题... 语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。 展开更多
关键词 广义话题结构 认知机 认知复杂度 标点句 话题自足句 汉语篇章
下载PDF
基于多特征的自适应新词识别 被引量:14
14
作者 罗智勇 宋柔 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第7期718-725,共8页
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统... 为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间. 展开更多
关键词 自然语言处理系统 计算语言学 词语处理 新词识别 多特征 自适应 自动分词
下载PDF
一个基于语境框架的文本特征提取算法 被引量:15
15
作者 晋耀红 苗传江 《计算机研究与发展》 EI CSCD 北大核心 2004年第4期582-586,共5页
介绍了一种新的文本语义形式化模型———语境框架 语境框架是一个三维的语义描述 ,它把文本内容抽象成领域(静态范畴 )、情景 (动态描述 )、背景 (褒贬、参照等 ) 3个框架 在语境框架的基础上 ,设计实现了文本特征提取算法 算法从语... 介绍了一种新的文本语义形式化模型———语境框架 语境框架是一个三维的语义描述 ,它把文本内容抽象成领域(静态范畴 )、情景 (动态描述 )、背景 (褒贬、参照等 ) 3个框架 在语境框架的基础上 ,设计实现了文本特征提取算法 算法从语义入手 ,实现了 4元组表示的领域提取算法、以领域句类为核心的情景提取算法和以对象语义立场网络图为基础的褒贬判断 算法可以有效地处理语言中的褒贬倾向、同义、多义等现象 。 展开更多
关键词 文本特征提取 语境框架模型 领域 情景 背景 领域句类 对象语义立场网络 褒贬
下载PDF
一种基于可信度的人名识别方法 被引量:20
16
作者 罗智勇 宋柔 《中文信息学报》 CSCD 北大核心 2005年第3期67-72,86,共7页
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了... 专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。 展开更多
关键词 计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度
下载PDF
采用术语定义模式和多特征的新术语及定义识别方法 被引量:12
17
作者 荀恩东 李晟 《计算机研究与发展》 EI CSCD 北大核心 2009年第1期62-69,共8页
新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中... 新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中词汇和术语周边的统计特征,提出了以术语定义的语言学模式(LPTD)作为待识别候选新术语集,同时考虑到有关新术语出现的上下文统计特征,用SVM分类器方法完成科技语料中新术语及其定义的识别.在大规模科技期刊上进行方法验证,开放性评测结果的精确率为90.5%、召回率达78.1%. 展开更多
关键词 信息抽取 术语定义模式 统计语言学模型 支持向量机 句子隶属度
下载PDF
基于语义网计算英语词语相似度 被引量:41
18
作者 荀恩东 颜伟 《情报学报》 CSSCI 北大核心 2006年第1期43-48,共6页
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense expl... 本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。 展开更多
关键词 WORDNET 词语相似度
下载PDF
应用二叉树剪枝识别韵律短语边界 被引量:4
19
作者 荀恩东 钱揖丽 +1 位作者 郭庆 宋柔 《中文信息学报》 CSCD 北大核心 2006年第3期1-5,28,共6页
句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应... 句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应用二叉树剪枝识别句子的韵律短语。实验结果表明,在搜索算法中,利用二叉树进行剪枝,可以很大程度上提高语音停顿预测的正确率和召回率,基于试验数据的f-Score提高了近35%。 展开更多
关键词 人工智能 自然语言处理 统计语言模型 二叉树 韵律短语 最大熵
下载PDF
SSD模型及其在汉语词性标注中的应用 被引量:4
20
作者 邢富坤 宋柔 罗智勇 《中文信息学报》 CSCD 北大核心 2010年第1期20-24,共5页
该文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95.67%,较二阶HMM的95.56%和94.70%都有较为显著提高。SS... 该文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95.67%,较二阶HMM的95.56%和94.70%都有较为显著提高。SSD模型的正确率虽然不及最大熵模型和CRF模型,但它的训练时间远少于后者,说明SSD模型在处理自然语言中的特定任务时是一种较强的实用模型。 展开更多
关键词 计算机应用 中文信息处理 SSD模型 HMM 词性标注
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部