期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
基于汉英双语语料库的汉英词典编撰研究 被引量:7
1
作者 杨沐昀 刘晓月 李生 《情报学报》 CSSCI 北大核心 2003年第3期310-314,共5页
汉英词典对于跨语言信息检索、计算机翻译等许多领域具有重要意义.为了利用双语语料库获取汉英词典, 本文在对四种常见的基于共现信息的词汇对译计算模型进行研究之后,以对数相似性模型为基础,采用迭代策略实现了翻译词典获取.实验表明... 汉英词典对于跨语言信息检索、计算机翻译等许多领域具有重要意义.为了利用双语语料库获取汉英词典, 本文在对四种常见的基于共现信息的词汇对译计算模型进行研究之后,以对数相似性模型为基础,采用迭代策略实现了翻译词典获取.实验表明,该方法能够有效地提高词典获取的正确率,提高词典编撰效率. 展开更多
关键词 汉英词典 计算机 词典编撰 汉语 英语 双语语料库 对数相似性模型
下载PDF
汉英双语标注集的研究与实现 被引量:2
2
作者 杨沐昀 李生 赵铁军 《情报学报》 CSSCI 北大核心 2000年第5期464-469,共6页
标注集是任何自然语言处理研究中的知识表达基础。本文结合汉英双向机器翻译开发和双语语料库加工的实践 ,提出了建立标准的汉英双语标注集的必要性 ,探讨了该标注集设计过程中遇到的几个关键问题并给出了一个比较完备的汉英双语标注集... 标注集是任何自然语言处理研究中的知识表达基础。本文结合汉英双向机器翻译开发和双语语料库加工的实践 ,提出了建立标准的汉英双语标注集的必要性 ,探讨了该标注集设计过程中遇到的几个关键问题并给出了一个比较完备的汉英双语标注集解决方案。实践证明 ,该方案具有良好的开放性和兼容性 ,对于汉英双向机器翻译系统和汉英双语语料库研究都具有适用性。 展开更多
关键词 标注集 英语 汉语 双语语料库 机器翻译
下载PDF
计算机辅助外语学习的一个新热点——电子化作业及其实现 被引量:3
3
作者 杨沐昀 杨同福 王立欣 《现代教育技术》 1998年第4期26-28,30,共4页
电子化作业是指通过计算机实现作业的上交和反馈。从技术角度来说,电子作业对于任何一个具体教学环境来说都是胜任的,只是许多主观因素限制了它的发展。近年来由于外语测试转向计算机化,如何使学生尽快适应计算机的特点成为外语界迫切... 电子化作业是指通过计算机实现作业的上交和反馈。从技术角度来说,电子作业对于任何一个具体教学环境来说都是胜任的,只是许多主观因素限制了它的发展。近年来由于外语测试转向计算机化,如何使学生尽快适应计算机的特点成为外语界迫切关注的问题,电子作业恰好成了解决这一问题的理想手段。本文首先分析了纸张与计算机做为作业的载体的不同媒体效应,然后着重探讨了电子作业的实现方式,并指出电子化作业将成为21世纪外语教学的必然趋势。 展开更多
关键词 电子化作业 计算机辅助 外语学习 电子作业 新热点 教师 字处理软件 错误类型 电子邮件 隐藏文本
下载PDF
计算机专业大学生眼中的企业研究院实习——以微软亚洲研究院“双导师”培养为例 被引量:1
4
作者 杨沐昀 赵铁军 李生 《计算机教育》 2015年第15期19-22,共4页
随着企业实习在本科以及研究生教育中的日益普及,企业和企业研究院正逐渐成为"第二校园"。为总结评价学生在IT企业的实习效果,文章以哈尔滨工业大学接受"双导师"制培养的计算机专业学生为对象,通过对其在微软亚洲... 随着企业实习在本科以及研究生教育中的日益普及,企业和企业研究院正逐渐成为"第二校园"。为总结评价学生在IT企业的实习效果,文章以哈尔滨工业大学接受"双导师"制培养的计算机专业学生为对象,通过对其在微软亚洲研究院的实习经历进行调研分析,从学生的角度对大学校园学习与企业研究院学习方式进行比较分析,为"卓越工程师"培养模式改革提供参考和借鉴。 展开更多
关键词 企业实习 第二校园 双导师
下载PDF
计算机辅助语言教学的思考 被引量:1
5
作者 杨沐昀 杨同福 《现代教育技术》 1997年第3期31-32,28,共3页
一、计算机辅助语言教学的现状 教育机构是最早应用电脑技术的单位之一,但是目前甚至都赶不上PC个人用户的水平了。近25年来,人们一直在探索计算机在教育上的优势,许多人甚至确信在未来的一年半到两年内计算机会为教学带来革命性的变化... 一、计算机辅助语言教学的现状 教育机构是最早应用电脑技术的单位之一,但是目前甚至都赶不上PC个人用户的水平了。近25年来,人们一直在探索计算机在教育上的优势,许多人甚至确信在未来的一年半到两年内计算机会为教学带来革命性的变化。然而至今我们仍在等待那些广泛而富有戏剧性的变革,同时也在等待有研究结果证明计算机应用在语言教学上会有明显的优越之处。这种状况也许是与教育的内在体制有关。但现实情况是。 展开更多
关键词 语言教学 计算机辅助 校园网 服务器 计算机应用 教育技术 语言教师 教学课件 辅助语言 教育机构
下载PDF
基于分解与动态规划策略的汉语未登录词识别 被引量:43
6
作者 吕雅娟 赵铁军 +2 位作者 杨沐昀 于浩 李生 《中文信息学报》 CSCD 北大核心 2001年第1期28-33,共6页
:未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名 ,中国地名和外国译名进行整体识别为目标 ,采用分解处理策略降低了整体处理难度 ,并使用动态规划方法实现了最佳路径的搜索 ,较好地解决了未登录词之间的冲突问题。通过... :未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名 ,中国地名和外国译名进行整体识别为目标 ,采用分解处理策略降低了整体处理难度 ,并使用动态规划方法实现了最佳路径的搜索 ,较好地解决了未登录词之间的冲突问题。通过对真实语料识别的测试 。 展开更多
关键词 未登录词识别 分解处理 动态规划 汉语自动分词 路径搜索 整体识别
下载PDF
提高汉语自动分词精度的多步处理策略 被引量:30
7
作者 赵铁军 吕雅娟 +2 位作者 于浩 杨沐昀 刘芳 《中文信息学报》 CSCD 北大核心 2001年第1期13-18,共6页
:汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略 ,整个处理步骤包括 7个部分 ,即消除伪歧义、句子... :汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略 ,整个处理步骤包括 7个部分 ,即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达 展开更多
关键词 汉语自动分词 多步处理 消除伪岐义 句子全切金 部分确定性切分 数词串处理 重叠词处理
下载PDF
基于词汇时间分布的微博查询扩展 被引量:10
8
作者 韩中元 杨沐昀 +2 位作者 孔蕾蕾 齐浩亮 李生 《计算机学报》 EI CSCD 北大核心 2016年第10期2031-2044,共14页
该文提出了一种面向微博检索的基于词汇时间分布的查询扩展方法.该方法利用扩展词与查询词的时间分布的相似性来度量扩展词与查询词之间的相关度,建立了基于词汇时间分布的查询模型.具体而言,该文在提出词汇时间分布的定义和估计方法的... 该文提出了一种面向微博检索的基于词汇时间分布的查询扩展方法.该方法利用扩展词与查询词的时间分布的相似性来度量扩展词与查询词之间的相关度,建立了基于词汇时间分布的查询模型.具体而言,该文在提出词汇时间分布的定义和估计方法的基础上,给出了查询词与扩展词的时间分布相似性的度量,以此作为它们的相关度,完成扩展词的选择和查询模型的重估.该文方法利用时间信息而不是内容来扩展查询,避免了基于内容的查询扩展方法因微博内容短而无法准确估计扩展词的不足.由TREC 2011和TREC 2012微博检索评测数据上的实验结果表明,基于词汇时间分布的查询扩展模型有效地提高了微博检索的性能,不仅显著优于经典的基于内容的查询扩展模型,而且优于其他利用时间进行查询扩展的方法. 展开更多
关键词 微博检索 查询扩展 查询模型 词汇时间分布 时间 社交网络 社会媒体
下载PDF
基于统计的汉语组块分析 被引量:27
9
作者 刘芳 赵铁军 +2 位作者 于浩 杨沐昀 方高林 《中文信息学报》 CSCD 北大核心 2000年第6期28-32,39,共6页
组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律 ,提出了一套符合汉语语言特点的汉语组块体系 ,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明 ,该方法能够... 组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律 ,提出了一套符合汉语语言特点的汉语组块体系 ,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明 ,该方法能够有效地处理真实文本中的浅层分析问题 ,具有较好的准确率和鲁棒性。 展开更多
关键词 组块分析 汉语句法分析 统计方法 组块识别
下载PDF
基于双语语料库的翻译等价对自动抽取 被引量:8
10
作者 吕雅娟 李生 +1 位作者 赵铁军 杨沐昀 《高技术通讯》 EI CAS CSCD 2003年第5期19-24,共6页
提出了一种利用双语语料库自动抽取多词翻译等价对的方法。首先利用N-gram模型获得候选翻译单元,然后根据统计同现计算候选等价对的翻译概率,并用贪心策略实现翻译等价对的自动抽取。在翻译概率的计算中对3种常用的统计同现测度进行了... 提出了一种利用双语语料库自动抽取多词翻译等价对的方法。首先利用N-gram模型获得候选翻译单元,然后根据统计同现计算候选等价对的翻译概率,并用贪心策略实现翻译等价对的自动抽取。在翻译概率的计算中对3种常用的统计同现测度进行了比较。实验表明,当语料规模较小时,对数似然比(Log Likelihood Ratio)测度对于翻译等价对的抽取具有较好的效果。与现有方法相比,该方法较好地解决了翻译等价对抽取中多词单元对应及间接相关问题。 展开更多
关键词 双语语料库 自动抽取 N-GRAM模型 翻译概率 计算机 知识获取 候选翻译单元
下载PDF
高性能中文垃圾邮件过滤器 被引量:7
11
作者 齐浩亮 程晓龙 +3 位作者 杨沐昀 何晓宁 李生 雷国华 《中文信息学报》 CSCD 北大核心 2010年第2期76-83,共8页
设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮... 设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮件过滤公开评测数据上的实验结果表明,该文过滤器的性能在TREC 06C数据上优于当年评测的最好成绩,在SEWM07立即反馈上1-ROCA值达到了0.000 0%,并明显优于SEWM08评测在线过滤任务中的所有其他方法。 展开更多
关键词 计算机应用 中文信息处理 中文垃圾邮件过滤 在线学习 逻辑回归模型 字节级n元文法 TONE
下载PDF
基于统计的句法分析技术综述 被引量:7
12
作者 孟遥 李生 +1 位作者 赵铁军 杨沐昀 《计算机科学》 CSCD 北大核心 2003年第9期54-58,共5页
1.引言 句法分析是自然语言处理的一个基本问题.许多自然语言处理问题,比如机器翻译、信息获取、自动文摘等都要依赖句法分析的精确结果才能最终获得满意的解决.
关键词 句法分析 自然语言处理 机器翻译 语法树形式 统计
下载PDF
面向特定领域的汉语句法主干分析 被引量:8
13
作者 齐浩亮 杨沐昀 +2 位作者 孟遥 韩习武 赵铁军 《中文信息学报》 CSCD 北大核心 2004年第1期1-5,13,共6页
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为... 本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为基础 ,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中 ,模板匹配的精确率和召回率分别达到了 98 0 4 %和 81 4 3% ,句子级的精确率和召回率分别达到了 96 97%、84 85 % 。 展开更多
关键词 人工智能 自然语言处理 浅层句法分析 句法主干分析 模板
下载PDF
汉英机器翻译中汉语离合词的处理策略 被引量:9
14
作者 王海峰 李生 +1 位作者 赵铁军 杨沐昀 《情报学报》 CSSCI 北大核心 1999年第4期303-307,共5页
汉语中词的离合是指词的构成元素( 两个或多个汉字) 之间的结合不很紧密,可以在其间插入某些其它成分而被分离,但被分离的词所表达的基本语义不变的语法现象。本文从大规模语料库中对汉语离合词进行了详细的统计分析,并给出了BT... 汉语中词的离合是指词的构成元素( 两个或多个汉字) 之间的结合不很紧密,可以在其间插入某些其它成分而被分离,但被分离的词所表达的基本语义不变的语法现象。本文从大规模语料库中对汉语离合词进行了详细的统计分析,并给出了BT863 汉英机器翻译系统中汉语离合词的处理策略。 展开更多
关键词 机器翻译 语料库 汉语离合词
下载PDF
短语统计机器翻译的句法调序模型 被引量:6
15
作者 薛永增 李生 +1 位作者 赵铁军 杨沐昀 《通信学报》 EI CSCD 北大核心 2008年第1期7-14,共8页
为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型。该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的... 为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型。该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的调序顺序,依据各个节点上的调序概率计算子结构的调序概率,作为对数线性模型的特征函数。该模型的实验结果比经典的短语统计翻译模型的BLEU评分有明显提高。结果表明句法调序模型对于基于短语的统计机器翻译是有效的,能够较好地将句法知识和短语翻译过程结合起来。 展开更多
关键词 人工智能 统计翻译模型 句法调序 短语
下载PDF
基于浅层分析的多文档自动文摘技术 被引量:5
16
作者 张姝 赵铁军 +1 位作者 郑德权 杨沐昀 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2007年第7期1102-1105,共4页
提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-... 提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-gram方法的自动评测,结果表明该方法具有较好的信息覆盖率,具有一定的实用价值. 展开更多
关键词 多文档文摘 浅层分析 MMR方法 自动评测
下载PDF
中文全词消歧在机器翻译系统中的性能评测 被引量:6
17
作者 王博 杨沐昀 +1 位作者 李生 赵铁军 《自动化学报》 EI CSCD 北大核心 2008年第5期535-541,共7页
独立的词义消歧模型性能已经获得很大提高,但是对于独立消歧模型布机器翻译系统中应用的必要性和作用一直存在着不同的观点.为了从更为一般性的角度评价这个问题,本文突破了具体模型的限制,通过在不同类型汉英机器翻译系统中引入不受特... 独立的词义消歧模型性能已经获得很大提高,但是对于独立消歧模型布机器翻译系统中应用的必要性和作用一直存在着不同的观点.为了从更为一般性的角度评价这个问题,本文突破了具体模型的限制,通过在不同类型汉英机器翻译系统中引入不受特定条件约束的高精度全词消歧过程,对词义消歧在机器翻译系统中的影响进行了较为充分和全面的评价.实验结果证明词义消歧模型不仅本身具有一定的翻译能力,而且可以提高不同类型的机器翻译系统的整体性能.同时也说明当前的翻译系统在消歧能力上还有较大的提升空间. 展开更多
关键词 词义消歧 机器翻译 全词
下载PDF
基于等价伪译词模型的无指导译文消歧研究 被引量:3
18
作者 刘鹏远 赵铁军 +1 位作者 杨沐昀 李壮 《电子与信息学报》 EI CSCD 北大核心 2008年第7期1690-1694,共5页
该文提出了一种基于等价伪译词进行无指导译文消歧的方法。该方法利用源语言岐义词不同语义下目标语译文的单义同义词集合,定义并构造等价伪译词。利用等价伪译词从目标语语料中自动获取大量已标注语义的目标语实例。由这些实例得到的... 该文提出了一种基于等价伪译词进行无指导译文消歧的方法。该方法利用源语言岐义词不同语义下目标语译文的单义同义词集合,定义并构造等价伪译词。利用等价伪译词从目标语语料中自动获取大量已标注语义的目标语实例。由这些实例得到的目标语语义知识,可直接形成该等价伪译词的语义分类器。利用Hownet可将含目标歧义词的英语实例映射成汉语词集合,然后利用这个语义分类器进行译文消歧。在国际标准语义评测集上进行的测试表明,该方法优于其余两种自动获取已标注语料的系统,且与Senseval-2 ELS上可比较的最好无指导系统的性能相当。 展开更多
关键词 词义消歧 无指导 译文消歧 等价伪译词 目标语
下载PDF
查询会话中的用户行为分析 被引量:3
19
作者 王晓春 李生 +1 位作者 杨沐昀 赵铁军 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第5期76-78,105,共4页
为了更好的理解搜索用户的检索行为,在查询会话基础上分析了用户修改查询的行为规律及用户、查询和点击三者之间的关系.从查询会话的角度,综合考虑了会话中修改的次序、用户、查询和点击等多方面因素,发现了用户修改查询的规律,证明了... 为了更好的理解搜索用户的检索行为,在查询会话基础上分析了用户修改查询的行为规律及用户、查询和点击三者之间的关系.从查询会话的角度,综合考虑了会话中修改的次序、用户、查询和点击等多方面因素,发现了用户修改查询的规律,证明了查询推荐的必要性.统计结果显示:用户修改查询的方式和修改次数有关,而对应的点击数量相对稳定;最终查询一般要比初始查询长,通常是部分替换了初始查询;用户使用搜索引擎的频率越高,修改查询的可能性就越大. 展开更多
关键词 Sogou搜索引擎 日志 查询会话分析 用户行为分析 查询
下载PDF
面向事件的多语平行语料库构建研究 被引量:4
20
作者 张姝 赵铁军 +1 位作者 杨沐昀 李生 《计算机应用研究》 CSCD 北大核心 2005年第11期23-24,30,共3页
讨论了面向北京奥运的多语语料库建设中的若干基础问题。提出了面向事件、多领域融合的语料收集原则,制定了具有分类信息的标注规范,初步建立了具有近七万句对的可控多语语料库。
关键词 语料收集原则 标注规范 可控多语语料库
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部