期刊文献+
共找到56篇文章
< 1 2 3 >
每页显示 20 50 100
“语言智能”多人谈 被引量:1
1
作者 宋柔 李斌 +5 位作者 王宝鑫 杨子清 伍大勇 李辰 荀恩东 苏祺 《语言战略研究》 北大核心 2023年第4期53-56,共4页
语言学能为大规模语言模型的完善做些什么.宋柔(北京语言大学信息科学学院) 虽然大规模语言模型(以下简称“大模型”)的出色表现震动了社会,但是也暴露出了一些根本性的不足,比如:生成的文本会有事实性错误和逻辑谬误;缺少正误判断能力... 语言学能为大规模语言模型的完善做些什么.宋柔(北京语言大学信息科学学院) 虽然大规模语言模型(以下简称“大模型”)的出色表现震动了社会,但是也暴露出了一些根本性的不足,比如:生成的文本会有事实性错误和逻辑谬误;缺少正误判断能力;规模过于庞大,消耗太多的算力;不具备人脑的深度抽象能力和由之而来的创新能力。随着大模型的数据量和参数量不断扩充,这些缺陷会有所改善,但大模型的系统架构决定了不可能完全消除这些不足。 展开更多
关键词 语言智能 语言模型 系统架构 事实性 抽象能力 逻辑谬误 参数量 创新能力
下载PDF
面向文本信息处理的汉语句子和小句 被引量:11
2
作者 宋柔 葛诗利 +1 位作者 尚英 卢达威 《中文信息学报》 CSCD 北大核心 2017年第2期18-24,35,共8页
小句和句子分别是篇章信息处理的基本单位和复合单位。但是汉语中,这两个概念至今未有公认的适用于语言信息处理的界定,这种状况阻碍了汉语信息处理的发展。该文将汉语的句子大致界定为自足的广义话题结构,把小句界定为基于广义话题结... 小句和句子分别是篇章信息处理的基本单位和复合单位。但是汉语中,这两个概念至今未有公认的适用于语言信息处理的界定,这种状况阻碍了汉语信息处理的发展。该文将汉语的句子大致界定为自足的广义话题结构,把小句界定为基于广义话题结构的话题自足句,并提出了这样界定的语言学依据和认知依据。 展开更多
关键词 汉语篇章处理 句子 小句 广义话题结构 话题自足句
下载PDF
面向篇章机器翻译的英汉翻译单位和翻译模型研究 被引量:15
3
作者 宋柔 葛诗利 《中文信息学报》 CSCD 北大核心 2015年第5期125-135,共11页
篇章机器翻译的首要问题是确定翻译单位。基于汉语和英语的语言知识和英汉翻译的实践,该文提出面向篇章机器翻译的基本单位和复合单位的双层单位体系,讨论了这两种单位支持篇章翻译应满足的性质,并据此勾画了篇章机器翻译的拆分、翻译... 篇章机器翻译的首要问题是确定翻译单位。基于汉语和英语的语言知识和英汉翻译的实践,该文提出面向篇章机器翻译的基本单位和复合单位的双层单位体系,讨论了这两种单位支持篇章翻译应满足的性质,并据此勾画了篇章机器翻译的拆分、翻译、装配三步模型(PTA模型)。该文提出,汉语篇章机器翻译的复合单位为广义话题结构对应的文本块,基本单位则是根据广义话题结构流水模型得到的话题自足句;英语篇章机器翻译的复合单位为句号句,基本单位为naming-telling小句(NT小句),即指称性成分加上对它的陈述或后修饰成分所构成的小句。该文展示了在这样的翻译单位体系下采用PTA模型的英汉翻译过程实例,规划了面向篇章翻译的英汉小句对齐语料库的建设任务,讨论了PTA模型的可行性。 展开更多
关键词 翻译单位 翻译模型 广义话题结构 naming-telling小句
下载PDF
汉字字形计算及其在校对系统中的应用 被引量:5
4
作者 宋柔 林民 葛诗利 《小型微型计算机系统》 CSCD 北大核心 2008年第10期1964-1968,共5页
汉语是一种开放大字符集语言,汉字字形相似度计算是汉语信息处理的一项基础研究,对于汉字识别、计算机辅助的汉语文章校对和汉字教学都有重要作用.本文对现有汉字字形结构描述方法从图形相似角度进行了改进,并给出了一种基于结构描述的... 汉语是一种开放大字符集语言,汉字字形相似度计算是汉语信息处理的一项基础研究,对于汉字识别、计算机辅助的汉语文章校对和汉字教学都有重要作用.本文对现有汉字字形结构描述方法从图形相似角度进行了改进,并给出了一种基于结构描述的字形相似度计算算法,该方法计算相似度无需字形样本实例的学习训练,对于常用字和难于获取书写样本的生僻字的相似度计算,都具有很好的适应性,可满足不断扩大的汉字集合计算相似度的需要.实验表明,采用此法计算得到的GB2312中6763个汉字的相似字表,与人的认知结果吻合度很好,并应用于计算机辅助校对系统中的别字修改提示,显示出较好效果. 展开更多
关键词 汉字字形 结构描述 相似度
下载PDF
关于分词规范的探讨 被引量:12
5
作者 宋柔 《语言文字应用》 CSSCI 北大核心 1997年第3期113-114,共2页
关于分词规范的探讨宋柔《语言文字应用》推出中文信息处理专栏,并在1997年第1期发表关于自动分词的文章,极有意义,对引起争鸣、加深研究很有好处。下面提出本人的不成熟的看法,供进一步讨论。一现行分词规范中的问题现行《信... 关于分词规范的探讨宋柔《语言文字应用》推出中文信息处理专栏,并在1997年第1期发表关于自动分词的文章,极有意义,对引起争鸣、加深研究很有好处。下面提出本人的不成熟的看法,供进一步讨论。一现行分词规范中的问题现行《信息处理用现代汉语分词规范》(GB1... 展开更多
关键词 分词单位 分词系统 应用系统 内部结构 中文信息处理 基本词 缩略词语 歧义字段 计算机 二元接续关系
下载PDF
汉语叙述文中的小句前部省略现象初析 被引量:15
6
作者 宋柔 《中文信息学报》 CSCD 1992年第3期62-68,共7页
汉语篇章中省略的现象十分常见。大多数的省略发生在句子的前部,本文中称为前部省略。本文从这一现象出发,提出了汉语叙述文基于前部省略的树形结构,称作参照树,分析了参照树的某些形式规律和语义规律。这一工作的目标是为用计算机处理... 汉语篇章中省略的现象十分常见。大多数的省略发生在句子的前部,本文中称为前部省略。本文从这一现象出发,提出了汉语叙述文基于前部省略的树形结构,称作参照树,分析了参照树的某些形式规律和语义规律。这一工作的目标是为用计算机处理汉语篇章提供形式化模型和算法设计的依据。目前的结果是初步的和粗糙的,但已经展示出了一系列需要在计算语言学范围内加以深入研究的课题。 展开更多
关键词 汉语 叙述文 前部省略 句子
下载PDF
自然语言句法分析的顺序控制算法 被引量:1
7
作者 宋柔 王鑫 《软件学报》 EI CSCD 北大核心 1992年第2期15-20,共6页
自然语言处理系统的运行速度对于系统本身的开发是至关重要的。这类系统的核心之一是句法分析子系统,本文讨论句法分析的一般性的顺序控制算法,包括简单回溯算法、彻底回溯及其剪裁的算法,以及算法的实现方法,实验和分析表明,这些算法... 自然语言处理系统的运行速度对于系统本身的开发是至关重要的。这类系统的核心之一是句法分析子系统,本文讨论句法分析的一般性的顺序控制算法,包括简单回溯算法、彻底回溯及其剪裁的算法,以及算法的实现方法,实验和分析表明,这些算法的效率是相当令人满意的。 展开更多
关键词 自然语言 句法分析 顺序控制 算法
下载PDF
面向对象方法中的整体与部件关系
8
作者 宋柔 王鑫 《北京工业大学学报》 CAS CSCD 1995年第1期15-18,共4页
在面向对象的方法中,引入了关于整体和部件的关系,并实现在特定领域知识库建造工具OOKS之中。
关键词 面向对象 知识库 整体 部件 专家系统
下载PDF
RC计算模型及其两种执行方式的等价性
9
作者 宋柔 《计算机研究与发展》 EI CSCD 北大核心 1989年第11期31-35,共5页
本文引入了LISP动态编译系统的理论模型——RC计算模型,其中包括RC机器、RC指令和RC语言.RC语言可以在RC机器上被直接解释,也可以编译后运行.作者给出了RC指令的操作语义,形式化地讨论了RC语言的两种执行方式,证明了两种执行过程是等价... 本文引入了LISP动态编译系统的理论模型——RC计算模型,其中包括RC机器、RC指令和RC语言.RC语言可以在RC机器上被直接解释,也可以编译后运行.作者给出了RC指令的操作语义,形式化地讨论了RC语言的两种执行方式,证明了两种执行过程是等价的并可以自由切换.基于这个模型,已开发了一种具有动态编译功能的LISP方言DCLISP. 展开更多
关键词 RC计算模型 LISP 编译系统
下载PDF
矩阵的奇异值分解在文本分类研究中的应用 被引量:14
10
作者 刘贵龙 王慧玲 宋柔 《计算机工程》 CAS CSCD 北大核心 2002年第12期17-18,100,共3页
用向量空间的方法对文本进行分类是指通过对训练语料的学习,对每个类建立反映该类特征的向量,然后对每一个新的文本,提取其反映该文本特征的向量以确定其类别的过程。文章利用矩阵的奇异值分解理论,把被测文本的向量与所建立的标准... 用向量空间的方法对文本进行分类是指通过对训练语料的学习,对每个类建立反映该类特征的向量,然后对每一个新的文本,提取其反映该文本特征的向量以确定其类别的过程。文章利用矩阵的奇异值分解理论,把被测文本的向量与所建立的标准向量(降维后)逐一比较,自动确定该文本的分类,经过开放式试验,获得了较好的效果。 展开更多
关键词 矩阵 奇异值分解 文本分类 矩阵理论 INTERNET 智能信息检索
下载PDF
模糊聚类分析在文本分类中的应用 被引量:18
11
作者 刘贵龙 宋柔 王慧玲 《计算机工程与应用》 CSCD 北大核心 2003年第9期110-111,共2页
文章用模糊聚类分析的方法对文本进行分类,选择了5种语体,即古典白话、古龙武侠、金庸武侠、外国翻译及现代小说等进行实验,获得了较为稳定的结果。
关键词 模糊聚类分析 文本 分类 算法
下载PDF
基于互连网的术语定义获取系统 被引量:13
12
作者 许勇 荀恩东 +1 位作者 贾爱平 宋柔 《中文信息学报》 CSCD 北大核心 2004年第4期37-43,共7页
文中介绍了一个实验性的基于互联网的术语定义获取系统 ,可以方便、迅速的从互连网上查找术语的定义以及与定义有关的内容 ,给用户迅速获得新生术语以及新技术词汇的定义方面的知识提供方便。系统采用一组术语定义的语言学模式 ,以多线... 文中介绍了一个实验性的基于互联网的术语定义获取系统 ,可以方便、迅速的从互连网上查找术语的定义以及与定义有关的内容 ,给用户迅速获得新生术语以及新技术词汇的定义方面的知识提供方便。系统采用一组术语定义的语言学模式 ,以多线程方式高效下载网页 ,并从中匹配符合术语定义模式的文本段落 ,再经一定后续处理 ,形成返回给用户的结果。系统中使用的语言学模式是在一定量的科技期刊语料库中获取的。试验结果表明系统的运行效率高 。 展开更多
关键词 人工智能 自然语言处理 术语定义 信息抽取
下载PDF
从广义话题结构考察汉语篇章话题认知复杂度 被引量:10
13
作者 卢达威 宋柔 尚英 《中文信息学报》 CSCD 北大核心 2014年第5期112-124,共13页
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题... 语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。 展开更多
关键词 广义话题结构 认知机 认知复杂度 标点句 话题自足句 汉语篇章
下载PDF
基于多特征的自适应新词识别 被引量:14
14
作者 罗智勇 宋柔 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第7期718-725,共8页
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统... 为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间. 展开更多
关键词 自然语言处理系统 计算语言学 词语处理 新词识别 多特征 自适应 自动分词
下载PDF
信息检索用户查询语句的停用词过滤 被引量:16
15
作者 熊文新 宋柔 《计算机工程》 CAS CSCD 北大核心 2007年第6期195-197,共3页
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选... 针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。 展开更多
关键词 用户查询 停用词 构造 识别
下载PDF
汉英机器翻译中描述型复句的关系识别与处理 被引量:12
16
作者 鲁松 宋柔 《软件学报》 EI CSCD 北大核心 2001年第1期83-93,共11页
汉英机器翻译的复句处理不仅要依托于单句的处理 ,而且还要超越单句的辖域 ,深入考察复句内分句之间的内在联系 .其中 ,在汉语描述型复句中存在着大量的无特定语言标记的非并列关系复句 ,为了辨别其中的内在联系 ,实现英语译文的正确生... 汉英机器翻译的复句处理不仅要依托于单句的处理 ,而且还要超越单句的辖域 ,深入考察复句内分句之间的内在联系 .其中 ,在汉语描述型复句中存在着大量的无特定语言标记的非并列关系复句 ,为了辨别其中的内在联系 ,实现英语译文的正确生成 ,针对不同情况 ,给出了完整的关系判定规则 ,并提出采用中心分句动态判定方法来解决部分复句处理规则局部性的问题 ,最后通过实验系统得以验证 . 展开更多
关键词 汉英机器翻译 描述型复句 关系识别 复句处理 信息处理
下载PDF
一种笔段网格汉字字形描述方法 被引量:13
17
作者 林民 宋柔 《计算机研究与发展》 EI CSCD 北大核心 2010年第2期318-327,共10页
现有计算机汉字字形描述方法在特征选取、字形比对计算方面存在缺陷,无法解决输入错字、古籍异体字、拼合字和自动比对字形等问题.面向应用提出一种具有颗粒度适当、无歧义、规范化基元特征,能描述一切可能字形(包括错字、异体字、拼合... 现有计算机汉字字形描述方法在特征选取、字形比对计算方面存在缺陷,无法解决输入错字、古籍异体字、拼合字和自动比对字形等问题.面向应用提出一种具有颗粒度适当、无歧义、规范化基元特征,能描述一切可能字形(包括错字、异体字、拼合字)骨架异同的笔段网格汉字字形描述方法,并基于该描述给出了简单笔画、复合笔画分类及自动提取、结构关系计算等算法.实验表明,该方法可用于支持各种字形的描画输入和字形整体、局部比对计算. 展开更多
关键词 汉字字形 笔段网格 形式化描述 字形比对 笔画
下载PDF
现代汉语通用分词系统中歧义切分的实用技术 被引量:19
18
作者 罗智勇 宋柔 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1122-1128,共7页
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(... 歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%· 展开更多
关键词 中文信息处理 通用分词系统 歧义切分
下载PDF
基于广义话题理论的话题句识别 被引量:13
19
作者 蒋玉茹 宋柔 《中文信息学报》 CSCD 北大核心 2012年第5期114-119,128,共7页
汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建。识别... 汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。 展开更多
关键词 标点句 广义话题 话题结构 话题句 话题句识别
下载PDF
基于GDI+路径技术的汉字笔顺和部件自动绘制 被引量:4
20
作者 林民 韩冬妹 宋柔 《计算机应用研究》 CSCD 北大核心 2007年第8期228-230,共3页
介绍了Windows图形引擎GDI+路径技术,提出了应用路径技术获取系统TrueType字库的笔画轮廓数据来自动绘制汉字笔顺序列和各种部件的方法并编程实现。该方法可根据需要显示GB2312字符集6 763个汉字的任意笔顺和各种部件。其对汉语工具书... 介绍了Windows图形引擎GDI+路径技术,提出了应用路径技术获取系统TrueType字库的笔画轮廓数据来自动绘制汉字笔顺序列和各种部件的方法并编程实现。该方法可根据需要显示GB2312字符集6 763个汉字的任意笔顺和各种部件。其对汉语工具书网络化、字符集外字处理具有实用意义。 展开更多
关键词 GDI+ 路径 笔顺 部件
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部