期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
14
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Web的双语平行句对自动获取
被引量:
12
1
作者
叶莎妮
吕雅娟
+1 位作者
黄赟
刘群
《中文信息学报》
CSCD
北大核心
2008年第5期67-73,共7页
双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的...
双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了该文方法的有效性。此外,该文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。
展开更多
关键词
计算机应用
中文信息处理
双语句对
平行网页
网页挖掘
下载PDF
职称材料
Web平行语料挖掘及其在机器翻译中的应用
被引量:
5
2
作者
林政
吕雅娟
+1 位作者
刘群
马希荣
《中文信息学报》
CSCD
北大核心
2010年第5期85-91,共7页
双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共...
双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共获取了258万双语平行句对,平均正确率为93.75%,其中前150万句对的平均正确率达到96%。该文还提出句对质量排序和领域信息检索两种方法将Web数据应用于统计机器翻译的模型训练,在IWSLT评测数据上BLEU值可以提高2到5个百分点。
展开更多
关键词
web
挖掘
平行语料库
句子对齐
统计机器翻译
下载PDF
职称材料
Web新闻语料分词和标注错误分析
被引量:
4
3
作者
张永奎
张彦
+1 位作者
安增波
刘睿
《计算机工程与应用》
CSCD
北大核心
2007年第15期166-169,共4页
通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。
关键词
中文信息处理
分词
词性标注
错误类型
web
突发事件新闻语料库
下载PDF
职称材料
基于Web语料挖掘技术及其系统设计
被引量:
5
4
作者
张霄军
张凌岚
刘军
《上海电力学院学报》
CAS
2004年第2期39-43,共5页
提出了将XML技术与Web挖掘相结合、根据研究者的个人需求制定个性化的Web语料挖掘系统框架和实现方案,并给出了面向法律领域的Web语料挖掘系统LawsMiner的案例.
关键词
语料挖掘
web
语料库
互联网
信息挖掘
信息处理
下载PDF
职称材料
基于Google Web API的中文训练库自动获取方法研究
被引量:
1
5
作者
胡燕
张颂扬
《计算机与数字工程》
2008年第5期8-10,共3页
主要研究中文训练库自动获取方法,提出基于Google Web API的方法收集训练样本,然后给出自动获取训练库的方法。通过实验,初步实现中文训练库的自动建立。
关键词
中文网页自动分类
训练库
GOOGLE
web
API
下载PDF
职称材料
Web数据反馈的搭配抽取方法
6
作者
林建方
牛成
+1 位作者
李生
郑德权
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2010年第2期281-285,共5页
为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用...
为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性.
展开更多
关键词
搭配
共现频率
互信息
卡方检验
语料库
web
下载PDF
职称材料
双语平行网页挖掘系统的设计与实现
被引量:
5
7
作者
陈伟
黄蕾
+1 位作者
刘峰
赵志宏
《计算机工程》
CAS
CSCD
北大核心
2009年第14期267-269,共3页
针对双语语料是开发统计机器翻译系统的重要资源,提出一种从网络中自动挖掘双语平行网页的方法。与传统从指定网站中挖掘平行网页的方法不同,该方法从整个互联网中自动挖掘平行网页,对新的语言对和内容领域有很强的适应能力,实现双语平...
针对双语语料是开发统计机器翻译系统的重要资源,提出一种从网络中自动挖掘双语平行网页的方法。与传统从指定网站中挖掘平行网页的方法不同,该方法从整个互联网中自动挖掘平行网页,对新的语言对和内容领域有很强的适应能力,实现双语平行网页挖掘的系统。实验结果显示,该系统可以为统计机器翻译系统提供大量高质量的平行网页。
展开更多
关键词
自然语言处理
统计机器翻译
双语语料
网络挖掘
下载PDF
职称材料
基于搜索引擎的双语混合网页识别新方法
被引量:
2
8
作者
冯艳卉
洪宇
+2 位作者
颜振祥
姚建民
朱巧明
《中文信息学报》
CSCD
北大核心
2011年第1期71-78,共8页
该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混...
该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。
展开更多
关键词
web
挖掘
双语混合网页
平行语料
下载PDF
职称材料
网络产品评论挖掘研究
被引量:
9
9
作者
单晓红
杨柳
《计算机系统应用》
2014年第2期1-6,共6页
以有效分析和挖掘网络产品评论中的用户观点从而为消费者和商家均提供有价值的信息为目的,提出了网络产品评论挖掘的步骤和方法,并在用户产品评论分析的基础上,进一步对产品特征词的关注度和极性进行分析,实现了更加全面地产品评论挖掘...
以有效分析和挖掘网络产品评论中的用户观点从而为消费者和商家均提供有价值的信息为目的,提出了网络产品评论挖掘的步骤和方法,并在用户产品评论分析的基础上,进一步对产品特征词的关注度和极性进行分析,实现了更加全面地产品评论挖掘.最后以iphone 4s为例对所提出的方法进行了实验,验证了该方法的可行性.
展开更多
关键词
网络产品评论
语料
特征词
极性
极性强度
下载PDF
职称材料
基于平行语料库和网络的未登录词译文挖掘
10
作者
孙萌
梁颖红
+2 位作者
葛运东
颜振祥
姚建民
《江南大学学报(自然科学版)》
CAS
2010年第1期66-70,共5页
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元...
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度-距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。
展开更多
关键词
OOV翻译
网络挖掘
平行双语语料库构建
下载PDF
职称材料
基于世界网络英语语料库的英语变体特征研究
11
作者
周韵
《惠州学院学报》
2013年第5期72-75,共4页
作为美国杨百翰大学语料库家族的重要成员之一,世界网络英语语料库收录了来自二十个不同国家和地区的语料,并提供在线检索工具,为研究基于网络的现代英语变体用法提供了可能。本研究在简要介绍该语料库的基础上,从词汇、习语、语义搭配...
作为美国杨百翰大学语料库家族的重要成员之一,世界网络英语语料库收录了来自二十个不同国家和地区的语料,并提供在线检索工具,为研究基于网络的现代英语变体用法提供了可能。本研究在简要介绍该语料库的基础上,从词汇、习语、语义搭配和句法特征四个角度通过实例凸显各英语变体的差别,体现英语用法的地域特征。
展开更多
关键词
世界网络英语语料库
英语语料库
英语变体
杨百翰大学
下载PDF
职称材料
利用人类计算技术的语音语料库标注方法及其实现
被引量:
2
12
作者
沈映泉
刘勇进
+1 位作者
蔡骏
史晓东
《智能系统学报》
2009年第3期270-277,共8页
提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算...
提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注.
展开更多
关键词
语音语料库标注
人类计算
分布式知识获取
基于
web
的语言学习
下载PDF
职称材料
Web语料库及其特征初探——与传统语料库的对比研究
被引量:
11
13
作者
邢富坤
《外语电化教学》
CSSCI
2006年第2期62-66,共5页
随着互联网的飞速发展,以网络文本为资源基础,网络检索软件为技术手段的Web语料库正在成为语料库领域的一支新生而重要的力量。与传统语料库相比,Web语料库虽然在语言代表性、语料加工、检索速度等方面存在不足,但其独有的语料资源...
随着互联网的飞速发展,以网络文本为资源基础,网络检索软件为技术手段的Web语料库正在成为语料库领域的一支新生而重要的力量。与传统语料库相比,Web语料库虽然在语言代表性、语料加工、检索速度等方面存在不足,但其独有的语料资源丰富、检索功能强大等优势使其成为语言研究与教学中的重要力量。
展开更多
关键词
语料库
web
语料库
web
Corp网站
原文传递
Web、语料库与双语平行语料库的建设
被引量:
8
14
作者
熊文新
《图书情报工作》
CSSCI
北大核心
2013年第10期128-135,共8页
对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,...
对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,最后汇总成高质量、大规模、全领域的"高大全"式双语平行语料库。同时,围绕一个实例介绍如何利用Web资源建设特定领域双语平行语料库。
展开更多
关键词
web
语料库
子语言
双语平行语料库
语言资源
原文传递
题名
基于Web的双语平行句对自动获取
被引量:
12
1
作者
叶莎妮
吕雅娟
黄赟
刘群
机构
中国科学院计算技术研究所智能信息处理重点实验室
出处
《中文信息学报》
CSCD
北大核心
2008年第5期67-73,共7页
基金
国家自然科学基金资助项目(60603095
60573188)
文摘
双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了该文方法的有效性。此外,该文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。
关键词
计算机应用
中文信息处理
双语句对
平行网页
网页挖掘
Keywords
computer application
Chinese information processing
bilingual sentences
parallel
corpora
web
mining
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web平行语料挖掘及其在机器翻译中的应用
被引量:
5
2
作者
林政
吕雅娟
刘群
马希荣
机构
中国科学院计算技术研究所
出处
《中文信息学报》
CSCD
北大核心
2010年第5期85-91,共7页
基金
国家自然科学基金资助项目(60603095)
文摘
双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共获取了258万双语平行句对,平均正确率为93.75%,其中前150万句对的平均正确率达到96%。该文还提出句对质量排序和领域信息检索两种方法将Web数据应用于统计机器翻译的模型训练,在IWSLT评测数据上BLEU值可以提高2到5个百分点。
关键词
web
挖掘
平行语料库
句子对齐
统计机器翻译
Keywords
web
mining
parallel
corpora
sentence alignment
statistical machine translation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web新闻语料分词和标注错误分析
被引量:
4
3
作者
张永奎
张彦
安增波
刘睿
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理省部共建教育部重点实验室
中国人民解放军
出处
《计算机工程与应用》
CSCD
北大核心
2007年第15期166-169,共4页
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60475022)
山西省自然科学基金(the Natural Science Foundation of Shanxi Province of China under Grant No.20041041)
山西省回国留学人员基金(No.2002004)。
文摘
通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。
关键词
中文信息处理
分词
词性标注
错误类型
web
突发事件新闻语料库
Keywords
Chinese information processing
word segmentation
part of speech tagging
inaccurate style
web
accidental news
corpora
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Web语料挖掘技术及其系统设计
被引量:
5
4
作者
张霄军
张凌岚
刘军
机构
上海电力学院外语系
上海神源电气有限公司
出处
《上海电力学院学报》
CAS
2004年第2期39-43,共5页
基金
上海电力学院青年科研基金
K 2003 19.
文摘
提出了将XML技术与Web挖掘相结合、根据研究者的个人需求制定个性化的Web语料挖掘系统框架和实现方案,并给出了面向法律领域的Web语料挖掘系统LawsMiner的案例.
关键词
语料挖掘
web
语料库
互联网
信息挖掘
信息处理
Keywords
web corpora
mining
corpus
design of system
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Google Web API的中文训练库自动获取方法研究
被引量:
1
5
作者
胡燕
张颂扬
机构
武汉理工大学计算机科学与技术学院
出处
《计算机与数字工程》
2008年第5期8-10,共3页
文摘
主要研究中文训练库自动获取方法,提出基于Google Web API的方法收集训练样本,然后给出自动获取训练库的方法。通过实验,初步实现中文训练库的自动建立。
关键词
中文网页自动分类
训练库
GOOGLE
web
API
Keywords
automatic classification Of chinese
web
pages,
corpora
, google
web
API
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web数据反馈的搭配抽取方法
6
作者
林建方
牛成
李生
郑德权
机构
哈尔滨工业大学语言语音教育部-微软重点实验室
微软亚洲研究院
出处
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2010年第2期281-285,共5页
基金
国家自然科学基金重点资助项目(60736044)
国家科技发展计划探索类资助项目(2006AA01Z150)
文摘
为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性.
关键词
搭配
共现频率
互信息
卡方检验
语料库
web
Keywords
collocation
co-occurrence frequency
mutual information
X^2-test
corpora
web
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
双语平行网页挖掘系统的设计与实现
被引量:
5
7
作者
陈伟
黄蕾
刘峰
赵志宏
机构
南京大学软件学院
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第14期267-269,共3页
文摘
针对双语语料是开发统计机器翻译系统的重要资源,提出一种从网络中自动挖掘双语平行网页的方法。与传统从指定网站中挖掘平行网页的方法不同,该方法从整个互联网中自动挖掘平行网页,对新的语言对和内容领域有很强的适应能力,实现双语平行网页挖掘的系统。实验结果显示,该系统可以为统计机器翻译系统提供大量高质量的平行网页。
关键词
自然语言处理
统计机器翻译
双语语料
网络挖掘
Keywords
natural language processing
statistical machine translation
bilingual
corpora
web
mining
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于搜索引擎的双语混合网页识别新方法
被引量:
2
8
作者
冯艳卉
洪宇
颜振祥
姚建民
朱巧明
机构
苏州大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2011年第1期71-78,共8页
基金
国家自然科学基金项目资助(61003152
60970057
60873105)
文摘
该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。
关键词
web
挖掘
双语混合网页
平行语料
Keywords
web
mining
bilingual
web
pages
parallel
corpora
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网络产品评论挖掘研究
被引量:
9
9
作者
单晓红
杨柳
机构
北京工业大学经济与管理学院
出处
《计算机系统应用》
2014年第2期1-6,共6页
基金
北京市教委2013年度人文社科面上项目(SM201310005002)
北京市自然科学基金项目(9112001)
文摘
以有效分析和挖掘网络产品评论中的用户观点从而为消费者和商家均提供有价值的信息为目的,提出了网络产品评论挖掘的步骤和方法,并在用户产品评论分析的基础上,进一步对产品特征词的关注度和极性进行分析,实现了更加全面地产品评论挖掘.最后以iphone 4s为例对所提出的方法进行了实验,验证了该方法的可行性.
关键词
网络产品评论
语料
特征词
极性
极性强度
Keywords
online product review
corpora
characteristic words
polarity
polarity
web
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于平行语料库和网络的未登录词译文挖掘
10
作者
孙萌
梁颖红
葛运东
颜振祥
姚建民
机构
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
苏州大学计算机学院
出处
《江南大学学报(自然科学版)》
CAS
2010年第1期66-70,共5页
基金
江苏省现代企业信息化应用支撑软件工程技术研究开发中心项目(SX200907)
文摘
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度-距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。
关键词
OOV翻译
网络挖掘
平行双语语料库构建
Keywords
OOV translation,
web
mining, parallel
corpora
mining
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于世界网络英语语料库的英语变体特征研究
11
作者
周韵
机构
湖北科技学院外国语学院
出处
《惠州学院学报》
2013年第5期72-75,共4页
基金
湖北省教育厅人文社会科学研究青年项目(13q134)
湖北科技学院校级科研项目(Ky12022)
文摘
作为美国杨百翰大学语料库家族的重要成员之一,世界网络英语语料库收录了来自二十个不同国家和地区的语料,并提供在线检索工具,为研究基于网络的现代英语变体用法提供了可能。本研究在简要介绍该语料库的基础上,从词汇、习语、语义搭配和句法特征四个角度通过实例凸显各英语变体的差别,体现英语用法的地域特征。
关键词
世界网络英语语料库
英语语料库
英语变体
杨百翰大学
Keywords
Corpus of Global
web
-based English
English
corpora
English variety
Brigham Young University
分类号
H319.3 [语言文字—英语]
下载PDF
职称材料
题名
利用人类计算技术的语音语料库标注方法及其实现
被引量:
2
12
作者
沈映泉
刘勇进
蔡骏
史晓东
机构
厦门大学智能科学与技术系
Groupe Parole
出处
《智能系统学报》
2009年第3期270-277,共8页
基金
国家留学基金资助项目(2006104705)
福建省自然科学基金资助项目(2006J0043)
厦门大学"985工程"二期信息创新平台资助项目(0000-X07204)
文摘
提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注.
关键词
语音语料库标注
人类计算
分布式知识获取
基于
web
的语言学习
Keywords
speech
corpora
transcription
human-computation
distributed knowledge acquisition
web
-based language learning
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web语料库及其特征初探——与传统语料库的对比研究
被引量:
11
13
作者
邢富坤
机构
解放军外国语学院教育技术中心 河南洛阳
出处
《外语电化教学》
CSSCI
2006年第2期62-66,共5页
文摘
随着互联网的飞速发展,以网络文本为资源基础,网络检索软件为技术手段的Web语料库正在成为语料库领域的一支新生而重要的力量。与传统语料库相比,Web语料库虽然在语言代表性、语料加工、检索速度等方面存在不足,但其独有的语料资源丰富、检索功能强大等优势使其成为语言研究与教学中的重要力量。
关键词
语料库
web
语料库
web
Corp网站
Keywords
Corpus
web corpora
web
Corp
分类号
H319.3 [语言文字—英语]
原文传递
题名
Web、语料库与双语平行语料库的建设
被引量:
8
14
作者
熊文新
机构
北京外国语大学中国外语教育研究中心
出处
《图书情报工作》
CSSCI
北大核心
2013年第10期128-135,共8页
基金
教育部人文社会科学研究项目"基于语料库及对应词表的英语特异组合研究"(项目编号:09YJA740013)
国家社会科学基金项目"服务信息检索的自然语言"(项目编号:11BYY051)研究成果之一
文摘
对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,最后汇总成高质量、大规模、全领域的"高大全"式双语平行语料库。同时,围绕一个实例介绍如何利用Web资源建设特定领域双语平行语料库。
关键词
web
语料库
子语言
双语平行语料库
语言资源
Keywords
web
corpus sublanguage bilingual parallel
corpora
language resource
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于Web的双语平行句对自动获取
叶莎妮
吕雅娟
黄赟
刘群
《中文信息学报》
CSCD
北大核心
2008
12
下载PDF
职称材料
2
Web平行语料挖掘及其在机器翻译中的应用
林政
吕雅娟
刘群
马希荣
《中文信息学报》
CSCD
北大核心
2010
5
下载PDF
职称材料
3
Web新闻语料分词和标注错误分析
张永奎
张彦
安增波
刘睿
《计算机工程与应用》
CSCD
北大核心
2007
4
下载PDF
职称材料
4
基于Web语料挖掘技术及其系统设计
张霄军
张凌岚
刘军
《上海电力学院学报》
CAS
2004
5
下载PDF
职称材料
5
基于Google Web API的中文训练库自动获取方法研究
胡燕
张颂扬
《计算机与数字工程》
2008
1
下载PDF
职称材料
6
Web数据反馈的搭配抽取方法
林建方
牛成
李生
郑德权
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2010
0
下载PDF
职称材料
7
双语平行网页挖掘系统的设计与实现
陈伟
黄蕾
刘峰
赵志宏
《计算机工程》
CAS
CSCD
北大核心
2009
5
下载PDF
职称材料
8
基于搜索引擎的双语混合网页识别新方法
冯艳卉
洪宇
颜振祥
姚建民
朱巧明
《中文信息学报》
CSCD
北大核心
2011
2
下载PDF
职称材料
9
网络产品评论挖掘研究
单晓红
杨柳
《计算机系统应用》
2014
9
下载PDF
职称材料
10
基于平行语料库和网络的未登录词译文挖掘
孙萌
梁颖红
葛运东
颜振祥
姚建民
《江南大学学报(自然科学版)》
CAS
2010
0
下载PDF
职称材料
11
基于世界网络英语语料库的英语变体特征研究
周韵
《惠州学院学报》
2013
0
下载PDF
职称材料
12
利用人类计算技术的语音语料库标注方法及其实现
沈映泉
刘勇进
蔡骏
史晓东
《智能系统学报》
2009
2
下载PDF
职称材料
13
Web语料库及其特征初探——与传统语料库的对比研究
邢富坤
《外语电化教学》
CSSCI
2006
11
原文传递
14
Web、语料库与双语平行语料库的建设
熊文新
《图书情报工作》
CSSCI
北大核心
2013
8
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部