期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
多模态与文本预训练模型的文本嵌入差异研究 被引量:1
1
作者 孙宇冲 程曦苇 +3 位作者 宋睿华 车万翔 卢志武 文继荣 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第1期48-56,共9页
为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变... 为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化;将每个词与其k近邻词组成词对,分析词对之间的关系。实验结果表明,图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化,可以更好地区分反义词,发现更多的上下义词,而文本单模态预训练模型更擅长发现同义词。另外,图文多模态预训练模型能够建立更广泛的词之间的相关关系。 展开更多
关键词 多模态预训练 文本表示 文本嵌入分析
下载PDF
基于改进编辑距离的中文相似句子检索 被引量:63
2
作者 车万翔 刘挺 +1 位作者 秦兵 李生 《高技术通讯》 EI CAS CSCD 2004年第7期15-19,共5页
中文相似句子检索的方法在基于实例的机器翻译等中文信息处理领域,具有非常广泛的应用背景。本文提出的基于改进编辑距离的中文相似句子检索方法,在使用信息检索技术提高检索效率的同时,以普通编辑距离算法为基础,加入了词汇的语义... 中文相似句子检索的方法在基于实例的机器翻译等中文信息处理领域,具有非常广泛的应用背景。本文提出的基于改进编辑距离的中文相似句子检索方法,在使用信息检索技术提高检索效率的同时,以普通编辑距离算法为基础,加入了词汇的语义信息,使之更加符合中文句子相似度计算的要求。改进编辑距离与单纯基于语义辞典计算句子相似度的方法相比,具有便于扩展,准确率高等优点。在基于大规模双语句对检索的英文辅助写作系统中使用该算法进行中文句子检索,最后获得了81.33%的查准率和95.31%的查全率。 展开更多
关键词 改进编辑距离 中文 相似句子 检索 英文 辅助写作 机器翻译
下载PDF
实体关系自动抽取 被引量:115
3
作者 车万翔 刘挺 李生 《中文信息学报》 CSCD 北大核心 2005年第2期1-6,共6页
实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法 ,Winnow和支持向量机 (SVM) ,在 2 0 0 4年ACE(AutomaticContentExtraction)评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选... 实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法 ,Winnow和支持向量机 (SVM) ,在 2 0 0 4年ACE(AutomaticContentExtraction)评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择 ,当选择每个实体的左右两个词为特征时 ,达到最好的抽取效果 ,Win now和SVM算法的加权平均F Score分别为 73 0 8%和 73 2 7%。可见在使用相同的特征集 ,不同的学习算法进行实体关系的识别时 ,最终性能差别不大。因此使用自动的方法进行实体关系抽取时 ,应当集中精力寻找好的特征。 展开更多
关键词 计算机应用 中文信息处理 实体关系抽取 ACE评测 特征选择
下载PDF
计算机专业高级语言程序设计课程改革探索 被引量:24
4
作者 车万翔 苏小红 +1 位作者 袁永峰 叶麟 《计算机教育》 2014年第13期56-58,63,共4页
说明高级语言程序设计课程的目标和定位,分析C语言作为入门语言的不足和Python作为入门语言的优势,通过国内外调研分析和研究,以哈尔滨工业大学高级语言程序设计课程改革为例,阐述计算机专业高级语言程序设计课程的课程改革方案,介绍课... 说明高级语言程序设计课程的目标和定位,分析C语言作为入门语言的不足和Python作为入门语言的优势,通过国内外调研分析和研究,以哈尔滨工业大学高级语言程序设计课程改革为例,阐述计算机专业高级语言程序设计课程的课程改革方案,介绍课程改革的实施效果。 展开更多
关键词 程序设计 课程改革 PYTHON语言 C语言
下载PDF
基于主动学习的中文依存句法分析 被引量:10
5
作者 车万翔 张梅山 刘挺 《中文信息学报》 CSCD 北大核心 2012年第2期18-22,共5页
目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,该文将主动学习应用到中文依存句法分析,优先选择句... 目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,该文将主动学习应用到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注。该文提出并比较了多种衡量依存句法模型预测可信度的准则。实验表明,一方面,与随机选择标注实例相比,当使用相同数目训练实例时,主动学习使中文依存分析性能最高提升0.8%;另一方面,主动学习使依存分析达到相同准确率时只需标注更少量实例,人工标注量最多可减少30%。 展开更多
关键词 主动学习 依存句法 不确定性度量 委员会投票
下载PDF
自然语言处理新范式:基于预训练模型的方法 被引量:10
6
作者 车万翔 刘挺 《中兴通讯技术》 2022年第2期3-9,共7页
以BERT和GPT为代表的、基于超大规模文本数据的预训练语言模型能够充分利用大模型、大数据和大计算,使几乎所有自然语言处理任务性能都得到显著提升,在一些数据集上达到甚至超过人类水平,已成为自然语言处理的新范式。认为未来自然语言... 以BERT和GPT为代表的、基于超大规模文本数据的预训练语言模型能够充分利用大模型、大数据和大计算,使几乎所有自然语言处理任务性能都得到显著提升,在一些数据集上达到甚至超过人类水平,已成为自然语言处理的新范式。认为未来自然语言处理,乃至整个人工智能领域,将沿着“同质化”和“规模化”的道路继续前进,并将融入多模态数据、具身行为数据、社会交互数据等更多的“知识”源,从而为实现真正的通用人工智能铺平道路。 展开更多
关键词 人工智能 自然语言处理 预训练语言模型 同质化
下载PDF
人机对话系统综述 被引量:11
7
作者 车万翔 张伟男 《人工智能》 2018年第1期76-82,共7页
人机对话一直是人工智能中一个颇具难度的研究领域。它不仅能给人类日常生活带来直接的便利,还可以弥补使用者的情感空洞。人机对话系统有三个基本模块:口语语言理解、对话管理和自然语言生成。不同目的的对话系统在各个模块上的实现方... 人机对话一直是人工智能中一个颇具难度的研究领域。它不仅能给人类日常生活带来直接的便利,还可以弥补使用者的情感空洞。人机对话系统有三个基本模块:口语语言理解、对话管理和自然语言生成。不同目的的对话系统在各个模块上的实现方法上也不尽一致。目前,各大互联网技术公司都已经推出了对话系统服务平台。当今人机对话系统的主要研究方向是赋予机器'情感',让机器得以识别对话人的情感并作出更为人性化的回应。 展开更多
关键词 对话管理 人机对话系统 图灵测试 深度学习技术 系统综述
下载PDF
基于句法路径的情感评价单元识别 被引量:57
8
作者 赵妍妍 秦兵 +1 位作者 车万翔 刘挺 《软件学报》 EI CSCD 北大核心 2011年第5期887-898,共12页
不同于已有的基于手工模板和规则的方法,提出了一种基于句法路径的情感评价单元自动识别方法.该方法自动获取句法路径来描述评价对象及其评价词语之间的修饰关系,并通过计算句法路径编辑距离来改进情感评价单元抽取的系统性能.实验语料... 不同于已有的基于手工模板和规则的方法,提出了一种基于句法路径的情感评价单元自动识别方法.该方法自动获取句法路径来描述评价对象及其评价词语之间的修饰关系,并通过计算句法路径编辑距离来改进情感评价单元抽取的系统性能.实验语料来自数码相机和MP3播放器两个典型的电子产品领域.实验结果表明:(1)句法路径能够有效描述评价对象及其评价词语之间的关系,对情感评价单元的识别有很大帮助;(2)基于编辑距离的句法路径改进策略能够进一步提高情感评价单元识别的系统性能. 展开更多
关键词 情感评价单元 情感分析 句法路径 评价词语 评价对象
下载PDF
中文事件抽取技术研究 被引量:105
9
作者 赵妍妍 秦兵 +1 位作者 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2008年第1期3-8,共6页
事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了... 事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。 展开更多
关键词 计算机应用 中文信息处理 事件抽取 事件类别识别 事件元素识别
下载PDF
基于最大熵分类器的语义角色标注 被引量:73
10
作者 刘挺 车万翔 李生 《软件学报》 EI CSCD 北大核心 2007年第3期565-573,共9页
语义角色标注是浅层语义分析的一种可行方案.描述了一个采用最大熵分类器的语义角色标注系统,该系统把句法成分作为语义标注的基本单元,用最大熵分类器对句子中谓词的语义角色同时进行识别和分类.最大熵分类器中使用了一些有用的特征及... 语义角色标注是浅层语义分析的一种可行方案.描述了一个采用最大熵分类器的语义角色标注系统,该系统把句法成分作为语义标注的基本单元,用最大熵分类器对句子中谓词的语义角色同时进行识别和分类.最大熵分类器中使用了一些有用的特征及其组合.在后处理阶段,在具有嵌套关系的结果中,只有概率最高的语义角色被保留.在预测了全部能够在句法分析树中找到匹配成分的角色以后,采用简单的后处理规则去识别那些找不到匹配成分的角色.最终在开发集和测试集上分别获得了75.49%和75.60%的F1值,此结果是已知的基于单一句法分析结果中最好的.最后提出了对该任务的一些难点问题的解决方案以及对语义角色标注发展的一个初步展望. 展开更多
关键词 语义角色标注 浅层语义分析 最大熵分类器
下载PDF
中文语义角色标注的特征工程 被引量:39
11
作者 刘怀军 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2007年第1期79-84,共6页
基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词... 基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。 展开更多
关键词 计算机应用 中文信息处理 语义分析 语义角色标注 特征工程 最大熵分类器
下载PDF
统计与词典相结合的领域自适应中文分词 被引量:44
12
作者 张梅山 邓知龙 +1 位作者 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2012年第2期8-12,共5页
基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)... 基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。 展开更多
关键词 中文分词 CRF 领域自适应
下载PDF
面向变异短文本的快速聚类算法 被引量:17
13
作者 黄永光 刘挺 +1 位作者 车万翔 胡晓光 《中文信息学报》 CSCD 北大核心 2007年第2期63-68,共6页
本文主要针对近些年来大量出现在聊天语言中和手机短信中的短文本,提出了一种快速有效的聚类算法。这些短文本由于具有不规范性和大量相似性等特点,我们称其为变异短文本。本文在原有的网页去重算法的基础上,根据变异短文本的特点,... 本文主要针对近些年来大量出现在聊天语言中和手机短信中的短文本,提出了一种快速有效的聚类算法。这些短文本由于具有不规范性和大量相似性等特点,我们称其为变异短文本。本文在原有的网页去重算法的基础上,根据变异短文本的特点,采取了特定的特征串抽取方法,并融合了压缩编码的思想,从而加快了处理速度。实验表明,基于该算法的聚类系统对于大量的变异短文本处理速度可以达到每小时百万级以上,并且有比较高的准确率。 展开更多
关键词 人工智能 模式识别 检索 特征串 聚类
下载PDF
基于SVMTool的中文词性标注 被引量:17
14
作者 王丽杰 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2009年第4期16-21,共6页
SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,... SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,该文加入了中文字、词的特征,包括构成汉字的部首特征和词重叠特征,并从理论上分析了这两个特征的可行性,实验显示加入这些特征后,未登录词标注的准确率提升了1.16%,平均错误率下降了7.40%。 展开更多
关键词 计算机应用 中文信息处理 词性标注 SVMTool 未登录词 偏旁部首
下载PDF
基于序列标注的中文分词、词性标注模型比较分析 被引量:12
15
作者 刘一佳 车万翔 +1 位作者 刘挺 张梅山 《中文信息学报》 CSCD 北大核心 2013年第4期30-36,共7页
该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数... 该文对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型。通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比,该融合模型均取得了最好的结果。 展开更多
关键词 中文分词 词性标注 Stacked LEARNING
下载PDF
基于柱搜索的高阶依存句法分析 被引量:13
16
作者 李正华 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2010年第1期37-41,共5页
该文提出使用所有的孙子节点构成祖孙特征的高阶依存模型,并且使用柱搜索策略限制搜索空间,最终找到近似最优依存树。另外,该文以较小的时间复杂度为代价,使用了丰富的依存关系特征,并且允许模型在解码的过程中进行依存关系选择。作者... 该文提出使用所有的孙子节点构成祖孙特征的高阶依存模型,并且使用柱搜索策略限制搜索空间,最终找到近似最优依存树。另外,该文以较小的时间复杂度为代价,使用了丰富的依存关系特征,并且允许模型在解码的过程中进行依存关系选择。作者参加了CoNLL 2009年多语依存句法分析和语义角色标注国际评测,最终获得联合任务总成绩第一名,依存句法分析总成绩第三名。 展开更多
关键词 计算机应用 中文信息处理 柱搜索 高阶特征 依存分析
下载PDF
短语结构树库向依存结构树库转化研究 被引量:12
17
作者 李正华 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2008年第6期14-19,共6页
汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库PennChinese Treebank转化为哈工大依存树库... 汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库PennChinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。 展开更多
关键词 计算机应用 中文信息处理 短语结构树库 依存结构树库 依存句法分析
下载PDF
语言技术平台 被引量:50
18
作者 刘挺 车万翔 李正华 《中文信息学报》 CSCD 北大核心 2011年第6期53-62,共10页
中文信息处理不仅需要基础数据平台的支撑,而且需要基础技术平台的支撑。该文介绍了我们历经八年研制并不断改进的语言技术平台LTP(Language Technology Platform)。该平台包括中文词法分析、句法分析以及语义分析等多项中文处理技术,... 中文信息处理不仅需要基础数据平台的支撑,而且需要基础技术平台的支撑。该文介绍了我们历经八年研制并不断改进的语言技术平台LTP(Language Technology Platform)。该平台包括中文词法分析、句法分析以及语义分析等多项中文处理技术,其中的句法语义分析技术在CoNLL 2009国际评测中获得第一名的成绩。该平台自2006年起对学术界免费共享,2010年获得中国中文信息学会"钱伟长中文信息处理科学技术奖一等奖",目前已有400多家国内外研究机构签约共享该平台。2011年6月,该平台开放源代码,同行们不仅可以利用该平台的结果进行上层技术研究,而且可以和我们一起改进该平台本身。 展开更多
关键词 中文信息处理 语言技术平台
下载PDF
基于依存句法分析的社会媒体文本挖掘方法——以饮食习惯特色分析为例 被引量:13
19
作者 任彬 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2014年第6期208-215,共8页
在进行社会媒体文本挖掘时,传统的基于词表的方法,存在准确率较低、词表难获得等问题。该文提出一种基于依存句法分析的文本挖掘方法,通过规则匹配的方式从社会媒体文本中提取信息。该方法不依赖词表,且实验证明了相比基于词表的方法在... 在进行社会媒体文本挖掘时,传统的基于词表的方法,存在准确率较低、词表难获得等问题。该文提出一种基于依存句法分析的文本挖掘方法,通过规则匹配的方式从社会媒体文本中提取信息。该方法不依赖词表,且实验证明了相比基于词表的方法在准确率上有大幅提高。应用基于依存句法分析的文本挖掘方法,我们在微博文本上进行了饮食习惯特色分析,实现了性别、地区、时间等维度的饮食习惯特色分析并可进行交叉分析,最终用词云的方式展示了结果。 展开更多
关键词 依存句法分析 文本挖掘 社会媒体 饮食习惯特色分析
下载PDF
ACM竞赛与学生综合实践能力培养 被引量:13
20
作者 孙大烈 车万翔 《计算机教育》 2009年第19期12-14,共3页
1 ACM竞赛的背景 ACM国际大学生程序设计竞赛(ACM International Collegiate Programming Contest,ACM ICPC)始于1970年,作为一种全新的发现和培养计算机科学项尖人才的途径,竞赛很快得到美国和加拿大各大学的积极响应。1977年,... 1 ACM竞赛的背景 ACM国际大学生程序设计竞赛(ACM International Collegiate Programming Contest,ACM ICPC)始于1970年,作为一种全新的发现和培养计算机科学项尖人才的途径,竞赛很快得到美国和加拿大各大学的积极响应。1977年,在ACM计算机科学会议期间,举办了首届总决赛,由此拉开了一年一度的国际大学生程序设计竞赛的帷幕。 展开更多
关键词 实践能力培养 设计竞赛 ACM 大学生 计算机科学 加拿大 程序 国际
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部