期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
56
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
“语言智能”多人谈
被引量:
1
1
作者
宋柔
李斌
+5 位作者
王宝鑫
杨子清
伍大勇
李辰
荀恩东
苏祺
《语言战略研究》
北大核心
2023年第4期53-56,共4页
语言学能为大规模语言模型的完善做些什么.宋柔(北京语言大学信息科学学院) 虽然大规模语言模型(以下简称“大模型”)的出色表现震动了社会,但是也暴露出了一些根本性的不足,比如:生成的文本会有事实性错误和逻辑谬误;缺少正误判断能力...
语言学能为大规模语言模型的完善做些什么.宋柔(北京语言大学信息科学学院) 虽然大规模语言模型(以下简称“大模型”)的出色表现震动了社会,但是也暴露出了一些根本性的不足,比如:生成的文本会有事实性错误和逻辑谬误;缺少正误判断能力;规模过于庞大,消耗太多的算力;不具备人脑的深度抽象能力和由之而来的创新能力。随着大模型的数据量和参数量不断扩充,这些缺陷会有所改善,但大模型的系统架构决定了不可能完全消除这些不足。
展开更多
关键词
语言智能
语言模型
系统架构
事实性
抽象能力
逻辑谬误
参数量
创新能力
下载PDF
职称材料
面向文本信息处理的汉语句子和小句
被引量:
11
2
作者
宋柔
葛诗利
+1 位作者
尚英
卢达威
《中文信息学报》
CSCD
北大核心
2017年第2期18-24,35,共8页
小句和句子分别是篇章信息处理的基本单位和复合单位。但是汉语中,这两个概念至今未有公认的适用于语言信息处理的界定,这种状况阻碍了汉语信息处理的发展。该文将汉语的句子大致界定为自足的广义话题结构,把小句界定为基于广义话题结...
小句和句子分别是篇章信息处理的基本单位和复合单位。但是汉语中,这两个概念至今未有公认的适用于语言信息处理的界定,这种状况阻碍了汉语信息处理的发展。该文将汉语的句子大致界定为自足的广义话题结构,把小句界定为基于广义话题结构的话题自足句,并提出了这样界定的语言学依据和认知依据。
展开更多
关键词
汉语篇章处理
句子
小句
广义话题结构
话题自足句
下载PDF
职称材料
面向篇章机器翻译的英汉翻译单位和翻译模型研究
被引量:
15
3
作者
宋柔
葛诗利
《中文信息学报》
CSCD
北大核心
2015年第5期125-135,共11页
篇章机器翻译的首要问题是确定翻译单位。基于汉语和英语的语言知识和英汉翻译的实践,该文提出面向篇章机器翻译的基本单位和复合单位的双层单位体系,讨论了这两种单位支持篇章翻译应满足的性质,并据此勾画了篇章机器翻译的拆分、翻译...
篇章机器翻译的首要问题是确定翻译单位。基于汉语和英语的语言知识和英汉翻译的实践,该文提出面向篇章机器翻译的基本单位和复合单位的双层单位体系,讨论了这两种单位支持篇章翻译应满足的性质,并据此勾画了篇章机器翻译的拆分、翻译、装配三步模型(PTA模型)。该文提出,汉语篇章机器翻译的复合单位为广义话题结构对应的文本块,基本单位则是根据广义话题结构流水模型得到的话题自足句;英语篇章机器翻译的复合单位为句号句,基本单位为naming-telling小句(NT小句),即指称性成分加上对它的陈述或后修饰成分所构成的小句。该文展示了在这样的翻译单位体系下采用PTA模型的英汉翻译过程实例,规划了面向篇章翻译的英汉小句对齐语料库的建设任务,讨论了PTA模型的可行性。
展开更多
关键词
翻译单位
翻译模型
广义话题结构
naming-telling小句
下载PDF
职称材料
汉字字形计算及其在校对系统中的应用
被引量:
5
4
作者
宋柔
林民
葛诗利
《小型微型计算机系统》
CSCD
北大核心
2008年第10期1964-1968,共5页
汉语是一种开放大字符集语言,汉字字形相似度计算是汉语信息处理的一项基础研究,对于汉字识别、计算机辅助的汉语文章校对和汉字教学都有重要作用.本文对现有汉字字形结构描述方法从图形相似角度进行了改进,并给出了一种基于结构描述的...
汉语是一种开放大字符集语言,汉字字形相似度计算是汉语信息处理的一项基础研究,对于汉字识别、计算机辅助的汉语文章校对和汉字教学都有重要作用.本文对现有汉字字形结构描述方法从图形相似角度进行了改进,并给出了一种基于结构描述的字形相似度计算算法,该方法计算相似度无需字形样本实例的学习训练,对于常用字和难于获取书写样本的生僻字的相似度计算,都具有很好的适应性,可满足不断扩大的汉字集合计算相似度的需要.实验表明,采用此法计算得到的GB2312中6763个汉字的相似字表,与人的认知结果吻合度很好,并应用于计算机辅助校对系统中的别字修改提示,显示出较好效果.
展开更多
关键词
汉字字形
结构描述
相似度
下载PDF
职称材料
关于分词规范的探讨
被引量:
12
5
作者
宋柔
《语言文字应用》
CSSCI
北大核心
1997年第3期113-114,共2页
关于分词规范的探讨宋柔《语言文字应用》推出中文信息处理专栏,并在1997年第1期发表关于自动分词的文章,极有意义,对引起争鸣、加深研究很有好处。下面提出本人的不成熟的看法,供进一步讨论。一现行分词规范中的问题现行《信...
关于分词规范的探讨宋柔《语言文字应用》推出中文信息处理专栏,并在1997年第1期发表关于自动分词的文章,极有意义,对引起争鸣、加深研究很有好处。下面提出本人的不成熟的看法,供进一步讨论。一现行分词规范中的问题现行《信息处理用现代汉语分词规范》(GB1...
展开更多
关键词
分词单位
分词系统
应用系统
内部结构
中文信息处理
基本词
缩略词语
歧义字段
计算机
二元接续关系
下载PDF
职称材料
汉语叙述文中的小句前部省略现象初析
被引量:
15
6
作者
宋柔
《中文信息学报》
CSCD
1992年第3期62-68,共7页
汉语篇章中省略的现象十分常见。大多数的省略发生在句子的前部,本文中称为前部省略。本文从这一现象出发,提出了汉语叙述文基于前部省略的树形结构,称作参照树,分析了参照树的某些形式规律和语义规律。这一工作的目标是为用计算机处理...
汉语篇章中省略的现象十分常见。大多数的省略发生在句子的前部,本文中称为前部省略。本文从这一现象出发,提出了汉语叙述文基于前部省略的树形结构,称作参照树,分析了参照树的某些形式规律和语义规律。这一工作的目标是为用计算机处理汉语篇章提供形式化模型和算法设计的依据。目前的结果是初步的和粗糙的,但已经展示出了一系列需要在计算语言学范围内加以深入研究的课题。
展开更多
关键词
汉语
叙述文
前部省略
句子
下载PDF
职称材料
自然语言句法分析的顺序控制算法
被引量:
1
7
作者
宋柔
王鑫
《软件学报》
EI
CSCD
北大核心
1992年第2期15-20,共6页
自然语言处理系统的运行速度对于系统本身的开发是至关重要的。这类系统的核心之一是句法分析子系统,本文讨论句法分析的一般性的顺序控制算法,包括简单回溯算法、彻底回溯及其剪裁的算法,以及算法的实现方法,实验和分析表明,这些算法...
自然语言处理系统的运行速度对于系统本身的开发是至关重要的。这类系统的核心之一是句法分析子系统,本文讨论句法分析的一般性的顺序控制算法,包括简单回溯算法、彻底回溯及其剪裁的算法,以及算法的实现方法,实验和分析表明,这些算法的效率是相当令人满意的。
展开更多
关键词
自然语言
句法分析
顺序控制
算法
下载PDF
职称材料
面向对象方法中的整体与部件关系
8
作者
宋柔
王鑫
《北京工业大学学报》
CAS
CSCD
1995年第1期15-18,共4页
在面向对象的方法中,引入了关于整体和部件的关系,并实现在特定领域知识库建造工具OOKS之中。
关键词
面向对象
知识库
整体
部件
专家系统
下载PDF
职称材料
RC计算模型及其两种执行方式的等价性
9
作者
宋柔
《计算机研究与发展》
EI
CSCD
北大核心
1989年第11期31-35,共5页
本文引入了LISP动态编译系统的理论模型——RC计算模型,其中包括RC机器、RC指令和RC语言.RC语言可以在RC机器上被直接解释,也可以编译后运行.作者给出了RC指令的操作语义,形式化地讨论了RC语言的两种执行方式,证明了两种执行过程是等价...
本文引入了LISP动态编译系统的理论模型——RC计算模型,其中包括RC机器、RC指令和RC语言.RC语言可以在RC机器上被直接解释,也可以编译后运行.作者给出了RC指令的操作语义,形式化地讨论了RC语言的两种执行方式,证明了两种执行过程是等价的并可以自由切换.基于这个模型,已开发了一种具有动态编译功能的LISP方言DCLISP.
展开更多
关键词
RC计算模型
LISP
编译系统
下载PDF
职称材料
矩阵的奇异值分解在文本分类研究中的应用
被引量:
14
10
作者
刘贵龙
王慧玲
宋柔
《计算机工程》
CAS
CSCD
北大核心
2002年第12期17-18,100,共3页
用向量空间的方法对文本进行分类是指通过对训练语料的学习,对每个类建立反映该类特征的向量,然后对每一个新的文本,提取其反映该文本特征的向量以确定其类别的过程。文章利用矩阵的奇异值分解理论,把被测文本的向量与所建立的标准...
用向量空间的方法对文本进行分类是指通过对训练语料的学习,对每个类建立反映该类特征的向量,然后对每一个新的文本,提取其反映该文本特征的向量以确定其类别的过程。文章利用矩阵的奇异值分解理论,把被测文本的向量与所建立的标准向量(降维后)逐一比较,自动确定该文本的分类,经过开放式试验,获得了较好的效果。
展开更多
关键词
矩阵
奇异值分解
文本分类
矩阵理论
INTERNET
智能信息检索
下载PDF
职称材料
模糊聚类分析在文本分类中的应用
被引量:
18
11
作者
刘贵龙
宋柔
王慧玲
《计算机工程与应用》
CSCD
北大核心
2003年第9期110-111,共2页
文章用模糊聚类分析的方法对文本进行分类,选择了5种语体,即古典白话、古龙武侠、金庸武侠、外国翻译及现代小说等进行实验,获得了较为稳定的结果。
关键词
模糊聚类分析
文本
分类
算法
下载PDF
职称材料
基于互连网的术语定义获取系统
被引量:
13
12
作者
许勇
荀恩东
+1 位作者
贾爱平
宋柔
《中文信息学报》
CSCD
北大核心
2004年第4期37-43,共7页
文中介绍了一个实验性的基于互联网的术语定义获取系统 ,可以方便、迅速的从互连网上查找术语的定义以及与定义有关的内容 ,给用户迅速获得新生术语以及新技术词汇的定义方面的知识提供方便。系统采用一组术语定义的语言学模式 ,以多线...
文中介绍了一个实验性的基于互联网的术语定义获取系统 ,可以方便、迅速的从互连网上查找术语的定义以及与定义有关的内容 ,给用户迅速获得新生术语以及新技术词汇的定义方面的知识提供方便。系统采用一组术语定义的语言学模式 ,以多线程方式高效下载网页 ,并从中匹配符合术语定义模式的文本段落 ,再经一定后续处理 ,形成返回给用户的结果。系统中使用的语言学模式是在一定量的科技期刊语料库中获取的。试验结果表明系统的运行效率高 。
展开更多
关键词
人工智能
自然语言处理
术语定义
信息抽取
下载PDF
职称材料
从广义话题结构考察汉语篇章话题认知复杂度
被引量:
10
13
作者
卢达威
宋柔
尚英
《中文信息学报》
CSCD
北大核心
2014年第5期112-124,共13页
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题...
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。
展开更多
关键词
广义话题结构
认知机
认知复杂度
标点句
话题自足句
汉语篇章
下载PDF
职称材料
基于多特征的自适应新词识别
被引量:
14
14
作者
罗智勇
宋柔
《北京工业大学学报》
EI
CAS
CSCD
北大核心
2007年第7期718-725,共8页
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统...
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.
展开更多
关键词
自然语言处理系统
计算语言学
词语处理
新词识别
多特征
自适应
自动分词
下载PDF
职称材料
信息检索用户查询语句的停用词过滤
被引量:
16
15
作者
熊文新
宋柔
《计算机工程》
CAS
CSCD
北大核心
2007年第6期195-197,共3页
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选...
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。
展开更多
关键词
用户查询
停用词
构造
识别
下载PDF
职称材料
汉英机器翻译中描述型复句的关系识别与处理
被引量:
12
16
作者
鲁松
宋柔
《软件学报》
EI
CSCD
北大核心
2001年第1期83-93,共11页
汉英机器翻译的复句处理不仅要依托于单句的处理 ,而且还要超越单句的辖域 ,深入考察复句内分句之间的内在联系 .其中 ,在汉语描述型复句中存在着大量的无特定语言标记的非并列关系复句 ,为了辨别其中的内在联系 ,实现英语译文的正确生...
汉英机器翻译的复句处理不仅要依托于单句的处理 ,而且还要超越单句的辖域 ,深入考察复句内分句之间的内在联系 .其中 ,在汉语描述型复句中存在着大量的无特定语言标记的非并列关系复句 ,为了辨别其中的内在联系 ,实现英语译文的正确生成 ,针对不同情况 ,给出了完整的关系判定规则 ,并提出采用中心分句动态判定方法来解决部分复句处理规则局部性的问题 ,最后通过实验系统得以验证 .
展开更多
关键词
汉英机器翻译
描述型复句
关系识别
复句处理
信息处理
下载PDF
职称材料
一种笔段网格汉字字形描述方法
被引量:
13
17
作者
林民
宋柔
《计算机研究与发展》
EI
CSCD
北大核心
2010年第2期318-327,共10页
现有计算机汉字字形描述方法在特征选取、字形比对计算方面存在缺陷,无法解决输入错字、古籍异体字、拼合字和自动比对字形等问题.面向应用提出一种具有颗粒度适当、无歧义、规范化基元特征,能描述一切可能字形(包括错字、异体字、拼合...
现有计算机汉字字形描述方法在特征选取、字形比对计算方面存在缺陷,无法解决输入错字、古籍异体字、拼合字和自动比对字形等问题.面向应用提出一种具有颗粒度适当、无歧义、规范化基元特征,能描述一切可能字形(包括错字、异体字、拼合字)骨架异同的笔段网格汉字字形描述方法,并基于该描述给出了简单笔画、复合笔画分类及自动提取、结构关系计算等算法.实验表明,该方法可用于支持各种字形的描画输入和字形整体、局部比对计算.
展开更多
关键词
汉字字形
笔段网格
形式化描述
字形比对
笔画
下载PDF
职称材料
现代汉语通用分词系统中歧义切分的实用技术
被引量:
19
18
作者
罗智勇
宋柔
《计算机研究与发展》
EI
CSCD
北大核心
2006年第6期1122-1128,共7页
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(...
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·
展开更多
关键词
中文信息处理
通用分词系统
歧义切分
下载PDF
职称材料
基于广义话题理论的话题句识别
被引量:
13
19
作者
蒋玉茹
宋柔
《中文信息学报》
CSCD
北大核心
2012年第5期114-119,128,共7页
汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建。识别...
汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。
展开更多
关键词
标点句
广义话题
话题结构
话题句
话题句识别
下载PDF
职称材料
基于GDI+路径技术的汉字笔顺和部件自动绘制
被引量:
4
20
作者
林民
韩冬妹
宋柔
《计算机应用研究》
CSCD
北大核心
2007年第8期228-230,共3页
介绍了Windows图形引擎GDI+路径技术,提出了应用路径技术获取系统TrueType字库的笔画轮廓数据来自动绘制汉字笔顺序列和各种部件的方法并编程实现。该方法可根据需要显示GB2312字符集6 763个汉字的任意笔顺和各种部件。其对汉语工具书...
介绍了Windows图形引擎GDI+路径技术,提出了应用路径技术获取系统TrueType字库的笔画轮廓数据来自动绘制汉字笔顺序列和各种部件的方法并编程实现。该方法可根据需要显示GB2312字符集6 763个汉字的任意笔顺和各种部件。其对汉语工具书网络化、字符集外字处理具有实用意义。
展开更多
关键词
GDI+
路径
笔顺
部件
下载PDF
职称材料
题名
“语言智能”多人谈
被引量:
1
1
作者
宋柔
李斌
王宝鑫
杨子清
伍大勇
李辰
荀恩东
苏祺
机构
北京语言大学信息科学学院
南京师范大学文学院
科大讯飞股份有限公司北京研究院
阿里巴巴达摩院
北京语言大学信息科学学院/语言资源高精尖创新中心
北京大学外国语学院/人工智能研究院
出处
《语言战略研究》
北大核心
2023年第4期53-56,共4页
文摘
语言学能为大规模语言模型的完善做些什么.宋柔(北京语言大学信息科学学院) 虽然大规模语言模型(以下简称“大模型”)的出色表现震动了社会,但是也暴露出了一些根本性的不足,比如:生成的文本会有事实性错误和逻辑谬误;缺少正误判断能力;规模过于庞大,消耗太多的算力;不具备人脑的深度抽象能力和由之而来的创新能力。随着大模型的数据量和参数量不断扩充,这些缺陷会有所改善,但大模型的系统架构决定了不可能完全消除这些不足。
关键词
语言智能
语言模型
系统架构
事实性
抽象能力
逻辑谬误
参数量
创新能力
分类号
G63 [文化科学—教育学]
下载PDF
职称材料
题名
面向文本信息处理的汉语句子和小句
被引量:
11
2
作者
宋柔
葛诗利
尚英
卢达威
机构
广东外语外贸大学外语研究与服务协同创新中心
北京语言大学信息科学学院
出处
《中文信息学报》
CSCD
北大核心
2017年第2期18-24,35,共8页
基金
国家自然科学基金(61171129
61672175)
2016年国家语委重点项目(ZDI135-30)
文摘
小句和句子分别是篇章信息处理的基本单位和复合单位。但是汉语中,这两个概念至今未有公认的适用于语言信息处理的界定,这种状况阻碍了汉语信息处理的发展。该文将汉语的句子大致界定为自足的广义话题结构,把小句界定为基于广义话题结构的话题自足句,并提出了这样界定的语言学依据和认知依据。
关键词
汉语篇章处理
句子
小句
广义话题结构
话题自足句
Keywords
chinese text processing
sentence
clause
generalized topic structure
topic sufficient clause
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向篇章机器翻译的英汉翻译单位和翻译模型研究
被引量:
15
3
作者
宋柔
葛诗利
机构
广东外语外贸大学外语研究与语言服务协同创新中心
出处
《中文信息学报》
CSCD
北大核心
2015年第5期125-135,共11页
基金
国家自然科学基金(61171129)
文摘
篇章机器翻译的首要问题是确定翻译单位。基于汉语和英语的语言知识和英汉翻译的实践,该文提出面向篇章机器翻译的基本单位和复合单位的双层单位体系,讨论了这两种单位支持篇章翻译应满足的性质,并据此勾画了篇章机器翻译的拆分、翻译、装配三步模型(PTA模型)。该文提出,汉语篇章机器翻译的复合单位为广义话题结构对应的文本块,基本单位则是根据广义话题结构流水模型得到的话题自足句;英语篇章机器翻译的复合单位为句号句,基本单位为naming-telling小句(NT小句),即指称性成分加上对它的陈述或后修饰成分所构成的小句。该文展示了在这样的翻译单位体系下采用PTA模型的英汉翻译过程实例,规划了面向篇章翻译的英汉小句对齐语料库的建设任务,讨论了PTA模型的可行性。
关键词
翻译单位
翻译模型
广义话题结构
naming-telling小句
Keywords
translation unit
translation model
generalized topic structure
naming-telling clause
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉字字形计算及其在校对系统中的应用
被引量:
5
4
作者
宋柔
林民
葛诗利
机构
北京工业大学计算机学院
北京语言大学信息科学学院
内蒙古师范大学计算机与信息工程学院
出处
《小型微型计算机系统》
CSCD
北大核心
2008年第10期1964-1968,共5页
基金
国家自然科学基金项目(60572159)资助
文摘
汉语是一种开放大字符集语言,汉字字形相似度计算是汉语信息处理的一项基础研究,对于汉字识别、计算机辅助的汉语文章校对和汉字教学都有重要作用.本文对现有汉字字形结构描述方法从图形相似角度进行了改进,并给出了一种基于结构描述的字形相似度计算算法,该方法计算相似度无需字形样本实例的学习训练,对于常用字和难于获取书写样本的生僻字的相似度计算,都具有很好的适应性,可满足不断扩大的汉字集合计算相似度的需要.实验表明,采用此法计算得到的GB2312中6763个汉字的相似字表,与人的认知结果吻合度很好,并应用于计算机辅助校对系统中的别字修改提示,显示出较好效果.
关键词
汉字字形
结构描述
相似度
Keywords
Chinese character glyph
structure description
similarity
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
关于分词规范的探讨
被引量:
12
5
作者
宋柔
机构
北京工业大学计算机学院
出处
《语言文字应用》
CSSCI
北大核心
1997年第3期113-114,共2页
文摘
关于分词规范的探讨宋柔《语言文字应用》推出中文信息处理专栏,并在1997年第1期发表关于自动分词的文章,极有意义,对引起争鸣、加深研究很有好处。下面提出本人的不成熟的看法,供进一步讨论。一现行分词规范中的问题现行《信息处理用现代汉语分词规范》(GB1...
关键词
分词单位
分词系统
应用系统
内部结构
中文信息处理
基本词
缩略词语
歧义字段
计算机
二元接续关系
分类号
H146.2 [语言文字—汉语]
下载PDF
职称材料
题名
汉语叙述文中的小句前部省略现象初析
被引量:
15
6
作者
宋柔
机构
北京计算机学院
出处
《中文信息学报》
CSCD
1992年第3期62-68,共7页
文摘
汉语篇章中省略的现象十分常见。大多数的省略发生在句子的前部,本文中称为前部省略。本文从这一现象出发,提出了汉语叙述文基于前部省略的树形结构,称作参照树,分析了参照树的某些形式规律和语义规律。这一工作的目标是为用计算机处理汉语篇章提供形式化模型和算法设计的依据。目前的结果是初步的和粗糙的,但已经展示出了一系列需要在计算语言学范围内加以深入研究的课题。
关键词
汉语
叙述文
前部省略
句子
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
自然语言句法分析的顺序控制算法
被引量:
1
7
作者
宋柔
王鑫
机构
北京计算机学院
出处
《软件学报》
EI
CSCD
北大核心
1992年第2期15-20,共6页
文摘
自然语言处理系统的运行速度对于系统本身的开发是至关重要的。这类系统的核心之一是句法分析子系统,本文讨论句法分析的一般性的顺序控制算法,包括简单回溯算法、彻底回溯及其剪裁的算法,以及算法的实现方法,实验和分析表明,这些算法的效率是相当令人满意的。
关键词
自然语言
句法分析
顺序控制
算法
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向对象方法中的整体与部件关系
8
作者
宋柔
王鑫
机构
北京工业大学计算机学院
出处
《北京工业大学学报》
CAS
CSCD
1995年第1期15-18,共4页
基金
清华大学化学工程联合国家实验室资助
文摘
在面向对象的方法中,引入了关于整体和部件的关系,并实现在特定领域知识库建造工具OOKS之中。
关键词
面向对象
知识库
整体
部件
专家系统
Keywords
object-oriented approach
building toll for knowledge base
domain
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
RC计算模型及其两种执行方式的等价性
9
作者
宋柔
机构
北京计算机学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
1989年第11期31-35,共5页
基金
中国科学院科学基金资助课题
文摘
本文引入了LISP动态编译系统的理论模型——RC计算模型,其中包括RC机器、RC指令和RC语言.RC语言可以在RC机器上被直接解释,也可以编译后运行.作者给出了RC指令的操作语义,形式化地讨论了RC语言的两种执行方式,证明了两种执行过程是等价的并可以自由切换.基于这个模型,已开发了一种具有动态编译功能的LISP方言DCLISP.
关键词
RC计算模型
LISP
编译系统
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
矩阵的奇异值分解在文本分类研究中的应用
被引量:
14
10
作者
刘贵龙
王慧玲
宋柔
机构
北京语言文化大学计算机科学与技术系
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第12期17-18,100,共3页
文摘
用向量空间的方法对文本进行分类是指通过对训练语料的学习,对每个类建立反映该类特征的向量,然后对每一个新的文本,提取其反映该文本特征的向量以确定其类别的过程。文章利用矩阵的奇异值分解理论,把被测文本的向量与所建立的标准向量(降维后)逐一比较,自动确定该文本的分类,经过开放式试验,获得了较好的效果。
关键词
矩阵
奇异值分解
文本分类
矩阵理论
INTERNET
智能信息检索
Keywords
Singular value decomposition;Text categorization on style;Training corpus;Vector
分类号
O151.21 [理学—基础数学]
G354 [文化科学—情报学]
下载PDF
职称材料
题名
模糊聚类分析在文本分类中的应用
被引量:
18
11
作者
刘贵龙
宋柔
王慧玲
机构
北京语言文化大学计算机科学与技术系
出处
《计算机工程与应用》
CSCD
北大核心
2003年第9期110-111,共2页
基金
教育部留学归国人员专项课题
教育部科学技术研究重点项目资助
文摘
文章用模糊聚类分析的方法对文本进行分类,选择了5种语体,即古典白话、古龙武侠、金庸武侠、外国翻译及现代小说等进行实验,获得了较为稳定的结果。
关键词
模糊聚类分析
文本
分类
算法
Keywords
Fuzzy cluster analysis,Text,Partition,Algorithm
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于互连网的术语定义获取系统
被引量:
13
12
作者
许勇
荀恩东
贾爱平
宋柔
机构
北京工业大学计算机学院
北京语言大学计算机系
出处
《中文信息学报》
CSCD
北大核心
2004年第4期37-43,共7页
基金
国家自然科学基金资助项目 (6 0 2 72 0 5 5 )
国家 86 3计划资助项目 (2 0 0 1AA1 1 4 1 1 1 )
文摘
文中介绍了一个实验性的基于互联网的术语定义获取系统 ,可以方便、迅速的从互连网上查找术语的定义以及与定义有关的内容 ,给用户迅速获得新生术语以及新技术词汇的定义方面的知识提供方便。系统采用一组术语定义的语言学模式 ,以多线程方式高效下载网页 ,并从中匹配符合术语定义模式的文本段落 ,再经一定后续处理 ,形成返回给用户的结果。系统中使用的语言学模式是在一定量的科技期刊语料库中获取的。试验结果表明系统的运行效率高 。
关键词
人工智能
自然语言处理
术语定义
信息抽取
Keywords
artificial intelligence
natural language processing
term definition
information extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
从广义话题结构考察汉语篇章话题认知复杂度
被引量:
10
13
作者
卢达威
宋柔
尚英
机构
北京语言大学语言信息处理研究所
北京语言大学预科教育学院
出处
《中文信息学报》
CSCD
北大核心
2014年第5期112-124,共13页
基金
国家自然科学基金(61171129)
文摘
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。
关键词
广义话题结构
认知机
认知复杂度
标点句
话题自足句
汉语篇章
Keywords
generalized topic structure
cognition
cognitive complexity
punctuation clause
topic sufficient sen- tence
chinese text
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于多特征的自适应新词识别
被引量:
14
14
作者
罗智勇
宋柔
机构
北京工业大学计算机学院
北京语言大学语言信息处理研究所
出处
《北京工业大学学报》
EI
CAS
CSCD
北大核心
2007年第7期718-725,共8页
基金
国家自然科学基金(60272055
60572159)
+2 种基金
国家'八六三'计划资助项目(2001AA114111)
教育部科学技术研究重点项目(00128
107017).
文摘
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.
关键词
自然语言处理系统
计算语言学
词语处理
新词识别
多特征
自适应
自动分词
Keywords
natural language processing system
computational linguistics
word processing
new word identification
multi-features
adaptation
word segmentation
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
信息检索用户查询语句的停用词过滤
被引量:
16
15
作者
熊文新
宋柔
机构
北京外国语大学中国外语教育研究中心
北京语言大学语言信息处理研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第6期195-197,共3页
基金
国家自然科学基金资助项目(60272055)
国家"863"计划基金资助项目(2001AA114111)
+1 种基金
教育部科学技术研究资助重点项目(00128)
教育部人文社会科学重点研究基地资助重大项目(02JAZJD740007)
文摘
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。
关键词
用户查询
停用词
构造
识别
Keywords
Users request
Stop word
Building
Identification
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
汉英机器翻译中描述型复句的关系识别与处理
被引量:
12
16
作者
鲁松
宋柔
机构
中国科学院计算技术研究所
北京工业大学计算机学院
出处
《软件学报》
EI
CSCD
北大核心
2001年第1期83-93,共11页
基金
国家自然科学基金资助项目! (6 97730 0 8)
国家863高科技项目基金资助项目! (86 3- 30 6 - 2 D0 2 - 0 1- 3)
国家973高科技项目
文摘
汉英机器翻译的复句处理不仅要依托于单句的处理 ,而且还要超越单句的辖域 ,深入考察复句内分句之间的内在联系 .其中 ,在汉语描述型复句中存在着大量的无特定语言标记的非并列关系复句 ,为了辨别其中的内在联系 ,实现英语译文的正确生成 ,针对不同情况 ,给出了完整的关系判定规则 ,并提出采用中心分句动态判定方法来解决部分复句处理规则局部性的问题 ,最后通过实验系统得以验证 .
关键词
汉英机器翻译
描述型复句
关系识别
复句处理
信息处理
Keywords
Decision tables
Decision theory
Linguistics
Logic programming
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种笔段网格汉字字形描述方法
被引量:
13
17
作者
林民
宋柔
机构
内蒙古师范大学计算机与信息工程学院
北京语言大学信息科学学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第2期318-327,共10页
基金
国家自然科学基金项目(60863007
60872121) ~~
文摘
现有计算机汉字字形描述方法在特征选取、字形比对计算方面存在缺陷,无法解决输入错字、古籍异体字、拼合字和自动比对字形等问题.面向应用提出一种具有颗粒度适当、无歧义、规范化基元特征,能描述一切可能字形(包括错字、异体字、拼合字)骨架异同的笔段网格汉字字形描述方法,并基于该描述给出了简单笔画、复合笔画分类及自动提取、结构关系计算等算法.实验表明,该方法可用于支持各种字形的描画输入和字形整体、局部比对计算.
关键词
汉字字形
笔段网格
形式化描述
字形比对
笔画
Keywords
Chinese character glyph
stroke-segments-mesh
formal description
glyph comparing
stroke
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
现代汉语通用分词系统中歧义切分的实用技术
被引量:
19
18
作者
罗智勇
宋柔
机构
北京工业大学计算机学院
北京语言大学信息科学学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第6期1122-1128,共7页
基金
国家自然科学基金项目(60272055)
国家"八六三"高技术研究发展计划基金项目(2001AA114111)
+1 种基金
教育部科学技术研究重点基金项目(00128)
教育部人文社会科学重点研究基地重大项目(02JAZJD740007)~~
文摘
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·
关键词
中文信息处理
通用分词系统
歧义切分
Keywords
Chinese information processing
general-purpose word segmentation system
disambiguation
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于广义话题理论的话题句识别
被引量:
13
19
作者
蒋玉茹
宋柔
机构
北京工业大学计算机学院
北京信息科技大学计算机学院
北京语言大学信息科学学院
出处
《中文信息学报》
CSCD
北大核心
2012年第5期114-119,128,共7页
基金
国家自然科学基金资助项目(60872121,60873013)
北京信息科技大学校基金资助项目(J0725019)
文摘
汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。
关键词
标点句
广义话题
话题结构
话题句
话题句识别
Keywords
punctuation clause generalized topic
discourse structure topic clause, topic clause identification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于GDI+路径技术的汉字笔顺和部件自动绘制
被引量:
4
20
作者
林民
韩冬妹
宋柔
机构
北京工业大学计算机学院
内蒙古师范大学计算机与信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2007年第8期228-230,共3页
基金
国家自然科学基金资助项目(60272055
60572159)
文摘
介绍了Windows图形引擎GDI+路径技术,提出了应用路径技术获取系统TrueType字库的笔画轮廓数据来自动绘制汉字笔顺序列和各种部件的方法并编程实现。该方法可根据需要显示GB2312字符集6 763个汉字的任意笔顺和各种部件。其对汉语工具书网络化、字符集外字处理具有实用意义。
关键词
GDI+
路径
笔顺
部件
Keywords
GDI +
path
stroke order
radical
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
“语言智能”多人谈
宋柔
李斌
王宝鑫
杨子清
伍大勇
李辰
荀恩东
苏祺
《语言战略研究》
北大核心
2023
1
下载PDF
职称材料
2
面向文本信息处理的汉语句子和小句
宋柔
葛诗利
尚英
卢达威
《中文信息学报》
CSCD
北大核心
2017
11
下载PDF
职称材料
3
面向篇章机器翻译的英汉翻译单位和翻译模型研究
宋柔
葛诗利
《中文信息学报》
CSCD
北大核心
2015
15
下载PDF
职称材料
4
汉字字形计算及其在校对系统中的应用
宋柔
林民
葛诗利
《小型微型计算机系统》
CSCD
北大核心
2008
5
下载PDF
职称材料
5
关于分词规范的探讨
宋柔
《语言文字应用》
CSSCI
北大核心
1997
12
下载PDF
职称材料
6
汉语叙述文中的小句前部省略现象初析
宋柔
《中文信息学报》
CSCD
1992
15
下载PDF
职称材料
7
自然语言句法分析的顺序控制算法
宋柔
王鑫
《软件学报》
EI
CSCD
北大核心
1992
1
下载PDF
职称材料
8
面向对象方法中的整体与部件关系
宋柔
王鑫
《北京工业大学学报》
CAS
CSCD
1995
0
下载PDF
职称材料
9
RC计算模型及其两种执行方式的等价性
宋柔
《计算机研究与发展》
EI
CSCD
北大核心
1989
0
下载PDF
职称材料
10
矩阵的奇异值分解在文本分类研究中的应用
刘贵龙
王慧玲
宋柔
《计算机工程》
CAS
CSCD
北大核心
2002
14
下载PDF
职称材料
11
模糊聚类分析在文本分类中的应用
刘贵龙
宋柔
王慧玲
《计算机工程与应用》
CSCD
北大核心
2003
18
下载PDF
职称材料
12
基于互连网的术语定义获取系统
许勇
荀恩东
贾爱平
宋柔
《中文信息学报》
CSCD
北大核心
2004
13
下载PDF
职称材料
13
从广义话题结构考察汉语篇章话题认知复杂度
卢达威
宋柔
尚英
《中文信息学报》
CSCD
北大核心
2014
10
下载PDF
职称材料
14
基于多特征的自适应新词识别
罗智勇
宋柔
《北京工业大学学报》
EI
CAS
CSCD
北大核心
2007
14
下载PDF
职称材料
15
信息检索用户查询语句的停用词过滤
熊文新
宋柔
《计算机工程》
CAS
CSCD
北大核心
2007
16
下载PDF
职称材料
16
汉英机器翻译中描述型复句的关系识别与处理
鲁松
宋柔
《软件学报》
EI
CSCD
北大核心
2001
12
下载PDF
职称材料
17
一种笔段网格汉字字形描述方法
林民
宋柔
《计算机研究与发展》
EI
CSCD
北大核心
2010
13
下载PDF
职称材料
18
现代汉语通用分词系统中歧义切分的实用技术
罗智勇
宋柔
《计算机研究与发展》
EI
CSCD
北大核心
2006
19
下载PDF
职称材料
19
基于广义话题理论的话题句识别
蒋玉茹
宋柔
《中文信息学报》
CSCD
北大核心
2012
13
下载PDF
职称材料
20
基于GDI+路径技术的汉字笔顺和部件自动绘制
林民
韩冬妹
宋柔
《计算机应用研究》
CSCD
北大核心
2007
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部