期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于Web的双语平行句对自动获取 被引量:12
1
作者 叶莎妮 吕雅娟 +1 位作者 黄赟 刘群 《中文信息学报》 CSCD 北大核心 2008年第5期67-73,共7页
双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的... 双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了该文方法的有效性。此外,该文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。 展开更多
关键词 计算机应用 中文信息处理 双语句对 平行网页 网页挖掘
下载PDF
Web平行语料挖掘及其在机器翻译中的应用 被引量:5
2
作者 林政 吕雅娟 +1 位作者 刘群 马希荣 《中文信息学报》 CSCD 北大核心 2010年第5期85-91,共7页
双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共... 双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共获取了258万双语平行句对,平均正确率为93.75%,其中前150万句对的平均正确率达到96%。该文还提出句对质量排序和领域信息检索两种方法将Web数据应用于统计机器翻译的模型训练,在IWSLT评测数据上BLEU值可以提高2到5个百分点。 展开更多
关键词 web挖掘 平行语料库 句子对齐 统计机器翻译
下载PDF
Web新闻语料分词和标注错误分析 被引量:4
3
作者 张永奎 张彦 +1 位作者 安增波 刘睿 《计算机工程与应用》 CSCD 北大核心 2007年第15期166-169,共4页
通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。
关键词 中文信息处理 分词 词性标注 错误类型 web突发事件新闻语料库
下载PDF
基于Web语料挖掘技术及其系统设计 被引量:5
4
作者 张霄军 张凌岚 刘军 《上海电力学院学报》 CAS 2004年第2期39-43,共5页
提出了将XML技术与Web挖掘相结合、根据研究者的个人需求制定个性化的Web语料挖掘系统框架和实现方案,并给出了面向法律领域的Web语料挖掘系统LawsMiner的案例.
关键词 语料挖掘 web 语料库 互联网 信息挖掘 信息处理
下载PDF
基于Google Web API的中文训练库自动获取方法研究 被引量:1
5
作者 胡燕 张颂扬 《计算机与数字工程》 2008年第5期8-10,共3页
主要研究中文训练库自动获取方法,提出基于Google Web API的方法收集训练样本,然后给出自动获取训练库的方法。通过实验,初步实现中文训练库的自动建立。
关键词 中文网页自动分类 训练库 GOOGLE web API
下载PDF
Web数据反馈的搭配抽取方法
6
作者 林建方 牛成 +1 位作者 李生 郑德权 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2010年第2期281-285,共5页
为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用... 为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性. 展开更多
关键词 搭配 共现频率 互信息 卡方检验 语料库 web
下载PDF
双语平行网页挖掘系统的设计与实现 被引量:5
7
作者 陈伟 黄蕾 +1 位作者 刘峰 赵志宏 《计算机工程》 CAS CSCD 北大核心 2009年第14期267-269,共3页
针对双语语料是开发统计机器翻译系统的重要资源,提出一种从网络中自动挖掘双语平行网页的方法。与传统从指定网站中挖掘平行网页的方法不同,该方法从整个互联网中自动挖掘平行网页,对新的语言对和内容领域有很强的适应能力,实现双语平... 针对双语语料是开发统计机器翻译系统的重要资源,提出一种从网络中自动挖掘双语平行网页的方法。与传统从指定网站中挖掘平行网页的方法不同,该方法从整个互联网中自动挖掘平行网页,对新的语言对和内容领域有很强的适应能力,实现双语平行网页挖掘的系统。实验结果显示,该系统可以为统计机器翻译系统提供大量高质量的平行网页。 展开更多
关键词 自然语言处理 统计机器翻译 双语语料 网络挖掘
下载PDF
基于搜索引擎的双语混合网页识别新方法 被引量:2
8
作者 冯艳卉 洪宇 +2 位作者 颜振祥 姚建民 朱巧明 《中文信息学报》 CSCD 北大核心 2011年第1期71-78,共8页
该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混... 该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。 展开更多
关键词 web挖掘 双语混合网页 平行语料
下载PDF
网络产品评论挖掘研究 被引量:9
9
作者 单晓红 杨柳 《计算机系统应用》 2014年第2期1-6,共6页
以有效分析和挖掘网络产品评论中的用户观点从而为消费者和商家均提供有价值的信息为目的,提出了网络产品评论挖掘的步骤和方法,并在用户产品评论分析的基础上,进一步对产品特征词的关注度和极性进行分析,实现了更加全面地产品评论挖掘... 以有效分析和挖掘网络产品评论中的用户观点从而为消费者和商家均提供有价值的信息为目的,提出了网络产品评论挖掘的步骤和方法,并在用户产品评论分析的基础上,进一步对产品特征词的关注度和极性进行分析,实现了更加全面地产品评论挖掘.最后以iphone 4s为例对所提出的方法进行了实验,验证了该方法的可行性. 展开更多
关键词 网络产品评论 语料 特征词 极性 极性强度
下载PDF
基于平行语料库和网络的未登录词译文挖掘
10
作者 孙萌 梁颖红 +2 位作者 葛运东 颜振祥 姚建民 《江南大学学报(自然科学版)》 CAS 2010年第1期66-70,共5页
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元... 分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度-距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。 展开更多
关键词 OOV翻译 网络挖掘 平行双语语料库构建
下载PDF
基于世界网络英语语料库的英语变体特征研究
11
作者 周韵 《惠州学院学报》 2013年第5期72-75,共4页
作为美国杨百翰大学语料库家族的重要成员之一,世界网络英语语料库收录了来自二十个不同国家和地区的语料,并提供在线检索工具,为研究基于网络的现代英语变体用法提供了可能。本研究在简要介绍该语料库的基础上,从词汇、习语、语义搭配... 作为美国杨百翰大学语料库家族的重要成员之一,世界网络英语语料库收录了来自二十个不同国家和地区的语料,并提供在线检索工具,为研究基于网络的现代英语变体用法提供了可能。本研究在简要介绍该语料库的基础上,从词汇、习语、语义搭配和句法特征四个角度通过实例凸显各英语变体的差别,体现英语用法的地域特征。 展开更多
关键词 世界网络英语语料库 英语语料库 英语变体 杨百翰大学
下载PDF
利用人类计算技术的语音语料库标注方法及其实现 被引量:2
12
作者 沈映泉 刘勇进 +1 位作者 蔡骏 史晓东 《智能系统学报》 2009年第3期270-277,共8页
提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算... 提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注. 展开更多
关键词 语音语料库标注 人类计算 分布式知识获取 基于web的语言学习
下载PDF
Web语料库及其特征初探——与传统语料库的对比研究 被引量:11
13
作者 邢富坤 《外语电化教学》 CSSCI 2006年第2期62-66,共5页
随着互联网的飞速发展,以网络文本为资源基础,网络检索软件为技术手段的Web语料库正在成为语料库领域的一支新生而重要的力量。与传统语料库相比,Web语料库虽然在语言代表性、语料加工、检索速度等方面存在不足,但其独有的语料资源... 随着互联网的飞速发展,以网络文本为资源基础,网络检索软件为技术手段的Web语料库正在成为语料库领域的一支新生而重要的力量。与传统语料库相比,Web语料库虽然在语言代表性、语料加工、检索速度等方面存在不足,但其独有的语料资源丰富、检索功能强大等优势使其成为语言研究与教学中的重要力量。 展开更多
关键词 语料库 web语料库 webCorp网站
原文传递
Web、语料库与双语平行语料库的建设 被引量:8
14
作者 熊文新 《图书情报工作》 CSSCI 北大核心 2013年第10期128-135,共8页
对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,... 对Web和语料库以及多语语料库的关系进行辨析,针对Web上丰富的各类电子文本,从语言工程角度出发,提出"分步骤、按领域"建设大规模双语平行语料库的思路,即选定领域专一、语言可靠、格式规范的文本,逐次建设特定领域的语料库,最后汇总成高质量、大规模、全领域的"高大全"式双语平行语料库。同时,围绕一个实例介绍如何利用Web资源建设特定领域双语平行语料库。 展开更多
关键词 web 语料库 子语言 双语平行语料库 语言资源
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部