期刊文献+
共找到448篇文章
< 1 2 23 >
每页显示 20 50 100
基于知识增强的开放域多轮对话模型
1
作者 徐凡 徐健明 +2 位作者 马勇 王明文 周国栋 《软件学报》 EI CSCD 北大核心 2024年第2期758-772,共15页
如何减轻安全回复和重复回复一直是开放域多轮对话模型的两大挑战性难题.然而,现有开放域对话模型往往忽略了对话目标的引导性作用,以及如何在对话历史和对话目标中引入和选择更精确的知识信息.鉴于此,提出基于知识增强的多轮对话模型.... 如何减轻安全回复和重复回复一直是开放域多轮对话模型的两大挑战性难题.然而,现有开放域对话模型往往忽略了对话目标的引导性作用,以及如何在对话历史和对话目标中引入和选择更精确的知识信息.鉴于此,提出基于知识增强的多轮对话模型.所提模型首先将对话历史中实词进行义原及领域词替换,达到消除歧义和丰富对话文本表示的效果.然后将经过知识增强后的对话历史、扩充的三元组世界知识、知识管理和知识拷贝加以集成,以融合知识、词汇、对话历史和对话目标多种信息,生成多样性回复.通过两个国际基准开放域汉语对话语料库上的实验结果及可视化验证所提模型同时在自动评测和人工评测上的有效性. 展开更多
关键词 语言知识 世界知识 知识管理 知识拷贝 多轮对话
下载PDF
基于多通道多步融合的生成式视觉对话模型
2
作者 陈思航 江爱文 +1 位作者 崔朝阳 王明文 《计算机应用》 CSCD 北大核心 2024年第1期39-46,共8页
当前视觉对话任务在多模态信息融合和推理方面取得了较大进展,但是,在回答一些涉及具有比较明确语义属性和位置空间关系的问题时,主流模型的能力依然有限。比较少的主流模型在正式响应之前能够显式地提供有关图像内容的、语义充分的细... 当前视觉对话任务在多模态信息融合和推理方面取得了较大进展,但是,在回答一些涉及具有比较明确语义属性和位置空间关系的问题时,主流模型的能力依然有限。比较少的主流模型在正式响应之前能够显式地提供有关图像内容的、语义充分的细粒度表达。视觉特征表示与对话历史、当前问句等文本语义之间缺少必要的、缓解语义鸿沟的桥梁,因此提出一种基于多通道多步融合的视觉对话模型MCMI。该模型显式提供一组关于视觉内容的细粒度语义描述信息,并通过“视觉−语义−对话”历史三者相互作用和多步融合,能够丰富问题的语义表示,实现较为准确的答案解码。在VisDial v0.9/VisDial v1.0数据集中,MCMI模型较基准模型双通道多跳推理模型(DMRM),平均倒数排名(MRR)分别提升了1.95和2.12个百分点,召回率(R@1)分别提升了2.62和3.09个百分点,正确答案平均排名(Mean)分别提升了0.88和0.99;在VisDial v1.0数据集中,较最新模型UTC(Unified Transformer Contrastive learning model),MRR、R@1、Mean分别提升了0.06百分点,0.68百分点和1.47。为了进一步评估生成对话的质量,提出类图灵测试响应通过比例M1和对话质量分数(五分制)M2两个人工评价指标。在VisDial v0.9数据集中,相较于基准模型DMRM,MCMI模型的M1和M2指标分别提高了9.00百分点和0.70。 展开更多
关键词 视觉对话 生成式任务 视觉语义描述 多步融合 多通道融合
下载PDF
融合学科知识的数学习题知识点自动标注模型
3
作者 罗文兵 罗凯威 +1 位作者 黄琪 王明文 《中文信息学报》 CSCD 北大核心 2024年第4期143-155,共13页
习题知识点标注是构建结构化题库和实现个性化学习的关键任务。对于数学习题,由于其存在公式化、表达精炼化等特殊性,现有的标注模型无法很好地捕获关键信息,进而难以深入理解文本中蕴含的深层语义。此外,结合领域知识的知识点标注模型... 习题知识点标注是构建结构化题库和实现个性化学习的关键任务。对于数学习题,由于其存在公式化、表达精炼化等特殊性,现有的标注模型无法很好地捕获关键信息,进而难以深入理解文本中蕴含的深层语义。此外,结合领域知识的知识点标注模型普遍存在引入的知识不够关键、融合的方式过于直接的问题,缺乏对信息的有效筛选,从而导致在特征融合时产生大量噪声,干扰模型最终的标注结果。为此,该文提出了一种融合学科知识的数学习题知识点自动标注模型MKA Gated。该模型首先利用预训练模型对原始习题和两种细化的学科知识文本进行初步的语义编码表示,然后利用注意力机制实现习题与两种学科知识的信息交互以获取两种学科知识的深层语义表征,最后通过门控机制连续地、隐式地融合两种深层语义表征的平均池化表示以保留原始习题表示中有利于最终分类的语义特征。模型在自建的初中数学习题知识点标注数据集上测试的三种指标micro-F_(1)、macro-F_(1)、weighted-F_(1)相较于基准模型分别提升了1.99%、2.99%、2.12%,实验结果表明,该文所提方法能有效提升数学习题知识点的标注。 展开更多
关键词 知识点标注 学科知识 注意力机制 门控机制
下载PDF
知识追踪研究综述
4
作者 吴水秀 罗贤增 +2 位作者 熊键 钟茂生 王明文 《计算机科学与探索》 CSCD 北大核心 2023年第7期1506-1525,共20页
知识追踪,旨在根据学生的历史答题记录,对学生随学习时间不断变化的知识状态进行建模,进而预测学生的答题表现,是支撑智慧教育系统的核心模块,受到越来越多研究者的关注。全面梳理了该领域的研究进展,分析了与知识追踪相关的基础理论研... 知识追踪,旨在根据学生的历史答题记录,对学生随学习时间不断变化的知识状态进行建模,进而预测学生的答题表现,是支撑智慧教育系统的核心模块,受到越来越多研究者的关注。全面梳理了该领域的研究进展,分析了与知识追踪相关的基础理论研究,并按照研究方法的不同,将知识追踪模型分为概率模型、逻辑模型、基于深度学习的模型进行剖析,其中概率模型假设学习遵循马尔可夫过程,逻辑模型是一类基于逻辑函数的模型,而基于深度学习的知识追踪模型依赖于深度学习强大的特征提取能力成为近年来研究的热点。对基于深度学习的知识追踪模型面临的可解释性、缺少学习特征等问题提出的改进方法进行了介绍。给出了目前可供研究者们使用的公共数据集以及不同模型的性能比较。最后,对知识追踪这个快速发展起来的领域进行了总结,针对该领域研究存在的问题,提出了一些未来可能的研究方向。 展开更多
关键词 智慧教育 在线学习 知识状态 知识追踪模型 深度学习
下载PDF
基于沉浸式情景的面向对象课程教学设计与实践
5
作者 徐凡 杨逸峰 +1 位作者 叶继华 王明文 《计算机教育》 2023年第2期58-63,共6页
针对沉浸式情景在面向对象课程教学当中的应用,介绍利用面向对象方法搭建的一套数据手套驱动的沉浸式手语教学平台,详细阐述该平台设计、教学方法和策略设计、教学质量评价,并强调思政元素在手语教学平台中的融入,最后针对近3年相关专... 针对沉浸式情景在面向对象课程教学当中的应用,介绍利用面向对象方法搭建的一套数据手套驱动的沉浸式手语教学平台,详细阐述该平台设计、教学方法和策略设计、教学质量评价,并强调思政元素在手语教学平台中的融入,最后针对近3年相关专业学生参与该课程后取得的成效进行多维度效果评价。 展开更多
关键词 沉浸式教学 面向对象 手语翻译 教学方法 高等教育
下载PDF
融入句法结构和摘要信息的文本蕴含识别模型
6
作者 钟茂生 孙磊 +1 位作者 罗贤增 王明文 《计算机技术与发展》 2023年第10期120-127,共8页
文本蕴含识别旨在推断两个句子之间的语义关系,通常分为蕴含、矛盾和中立三种类别。目前,大多数文本蕴含识别方法都是通过互注意力的方法,判定句子之间的语义关系,这种方法只能捕捉局部交互信息,弱化了全局交互信息。据此,提出了融入句... 文本蕴含识别旨在推断两个句子之间的语义关系,通常分为蕴含、矛盾和中立三种类别。目前,大多数文本蕴含识别方法都是通过互注意力的方法,判定句子之间的语义关系,这种方法只能捕捉局部交互信息,弱化了全局交互信息。据此,提出了融入句法结构和摘要信息的文本蕴含识别模型,通过结合自注意力和互注意力机制的方式,从句子的全局和局部交互信息考虑,并融入句子的句法结构信息,从而更准确地推测句子之间的语义关系;收集和整理了公务员试题的部分选择题,之后,将该模型和文本蕴含识别的思想应用于这部分试题,在试题中,使用摘要信息抽取的方法,解决公务员试题中题目冗长和答案简短导致的长度不对称问题。实验结果表明,该模型在公共数据集和公务员试题上的表现,超越了多个基准模型。 展开更多
关键词 文本蕴含识别 摘要信息抽取 句法结构 互注意力 自注意力
下载PDF
融合情感轮注意力的情感分布学习
7
作者 陈启凡 曾雪强 +2 位作者 左家莉 万中英 王明文 《计算机工程与应用》 CSCD 北大核心 2023年第4期120-129,共10页
情感分布学习是一种近年提出的有效的多情绪分析模型,其核心思路是通过情感分布记录示例在各个情绪上的表达程度,适于处理存在情绪模糊性的情感分析任务。针对现有的情感分布学习方法较少考虑情感心理学先验知识的问题,提出一种基于情... 情感分布学习是一种近年提出的有效的多情绪分析模型,其核心思路是通过情感分布记录示例在各个情绪上的表达程度,适于处理存在情绪模糊性的情感分析任务。针对现有的情感分布学习方法较少考虑情感心理学先验知识的问题,提出一种基于情感轮注意力的情感分布学习(emotion wheel attention based emotion distribution learning,EWA-EDL)模型。EWA-EDL模型为每种基本情绪生成一个描述情绪心理学相关性的先验情感分布,再通过注意力机制将基于情感轮的先验知识直接融入深度神经网络。EWA-EDL模型采用端到端的方式对深度网络进行训练,同时学习情感分布预测和情绪分类任务。EWA-EDL模型主要由5部分构成,分别为输入层、卷积层、池化层、注意力层和多任务损失层。在8个常用的文本情感数据集上的对比实验表明,EWA-EDL模型在情感分布预测和情绪分类任务上的性能均优于对比的情感分布学习方法。 展开更多
关键词 情感分布学习 情感轮 注意力机制 情绪分类
下载PDF
基于BERT模型的多层语义粒度视觉对话算法
8
作者 崔朝阳 江爱文 +2 位作者 陈思航 刘长红 王明文 《中文信息学报》 CSCD 北大核心 2023年第11期120-130,共11页
视觉对话是近年来热门且具挑战性的跨模态视觉语言任务。它需要机器人能够充分理解被问问题,并从历史对话和视觉内容所提供的上下文信息中适当推理,以自然语言形式就所看到的视觉内容进行有意义的多轮连续回答。目前主流模型有基于注意... 视觉对话是近年来热门且具挑战性的跨模态视觉语言任务。它需要机器人能够充分理解被问问题,并从历史对话和视觉内容所提供的上下文信息中适当推理,以自然语言形式就所看到的视觉内容进行有意义的多轮连续回答。目前主流模型有基于注意力机制的信息交互模型、基于图神经网络的图结构模型及基于大规模预训练的语言模型三大类,但都存在一定的局限性。该文针对语义信息融合粒度、算法学习灵活性等方面,提出了基于BERT模型的多层语义粒度视觉对话算法。算法以轻量级模型LTMI为基础,引入BERT预训练模型,实现了“词-句”多层次语义粒度的信息融合。同时,模型借鉴BERT的多任务训练过程,以自监督方式组织模型训练的文本序列微调数据集,实现跨模态特征学习。模型的跨模态嵌入过程可以随模型训练动态变化,从而提升了模型学习的灵活性。该文模型在视觉对话公开数据集VisDial v0.9和VisDial v1.0上分别与主流先进算法进行了比较。实验结果表明,该模型在保证对话回复预测精准性的基础上,进一步提升了算法的泛化能力,取得了较为优越的性能。 展开更多
关键词 视觉对话 跨模态融合 多头注意力 预训练模型 BERT
下载PDF
中文礼貌风格迁移的研究
9
作者 朱洪坤 左家莉 +2 位作者 何思兰 曾雪强 王明文 《中文信息学报》 CSCD 北大核心 2023年第12期146-154,共9页
该文研究了一个关于中文的礼貌迁移任务,该任务旨在保留原始文本的内容和意义的同时,将非礼貌的文本转换为礼貌的文本。针对这个任务,建设了一个中文礼貌风格迁移的语料库。并基于此,构建了结合文本对齐模块和流畅度评估模块的中文礼貌... 该文研究了一个关于中文的礼貌迁移任务,该任务旨在保留原始文本的内容和意义的同时,将非礼貌的文本转换为礼貌的文本。针对这个任务,建设了一个中文礼貌风格迁移的语料库。并基于此,构建了结合文本对齐模块和流畅度评估模块的中文礼貌风格迁移模型,文本对齐模块在保证文本风格迁移的同时保留文本的内容,流畅度评估模块可以提升生成文本的流畅度。在中文语料库和英文语料库的实验表明,该方法在内容保存度和流畅度这两个指标上都有较强的竞争力。 展开更多
关键词 文本风格迁移 礼貌迁移 内容保存度 流畅度
下载PDF
基于情感词和多任务卷积神经网络的文本情感分布学习
10
作者 江晨琳 曾雪强 +3 位作者 郭小奉 东雨畅 左家莉 王明文 《中文信息学报》 CSCD 北大核心 2023年第4期126-136,共11页
不同于传统的情感分析范式,情感分布学习采用与示例关联的情感分布对多种情绪进行定量建模,可以较好地处理具有情绪模糊性的情感分析任务。针对现有情感分布学习方法缺乏考虑文本分析任务特有的情感词语言学先验知识的问题,该文提出一... 不同于传统的情感分析范式,情感分布学习采用与示例关联的情感分布对多种情绪进行定量建模,可以较好地处理具有情绪模糊性的情感分析任务。针对现有情感分布学习方法缺乏考虑文本分析任务特有的情感词语言学先验知识的问题,该文提出一种基于情感词和多任务卷积神经网络(Lexicon enhanced Multi-Task Convolutional Neural Network,LMT-CNN)的文本情感分布学习模型,用于预测文本的情感分布和情绪标签。LMT-CNN模型的网络结构由文本语义信息模块、情感词的情感知识模块和多任务预测模块组成,采用端到端方式进行模型训练和预测。在7个常用的文本情感数据集上的对比实验结果表明,LMT-CNN模型具有比已有的情感分布学习方法更优的情感分布预测和情绪分类性能。 展开更多
关键词 情感分布学习 文本情绪分析 情感词 多任务卷积神经网络
下载PDF
融合XLM词语表示的神经机器译文自动评价方法
11
作者 胡纬 李茂西 +1 位作者 裘白莲 王明文 《中文信息学报》 CSCD 北大核心 2023年第9期46-54,共9页
机器译文自动评价对机器翻译的发展和应用起着重要的促进作用,其一般通过计算机器译文和人工参考译文的相似度来度量机器译文的质量。该文通过跨语种预训练语言模型XLM将源语言句子、机器译文和人工参考译文映射到相同的语义空间,结合... 机器译文自动评价对机器翻译的发展和应用起着重要的促进作用,其一般通过计算机器译文和人工参考译文的相似度来度量机器译文的质量。该文通过跨语种预训练语言模型XLM将源语言句子、机器译文和人工参考译文映射到相同的语义空间,结合分层注意力和内部注意力提取源语言句子与机器译文、机器译文与人工参考译文以及源语言句子与人工参考译文之间的差异特征,并将其融入基于Bi-LSTM神经译文自动评价方法中。在WMT 19译文自动评价数据集上的实验结果表明,融合XLM词语表示的神经机器译文自动评价方法显著提高了其与人工评价的相关性。 展开更多
关键词 机器翻译 译文自动评价 跨语种预训练语言模型 差异特征
下载PDF
文言文-现代文神经机器翻译的研究
12
作者 何思兰 左家莉 +1 位作者 朱洪坤 王明文 《江西师范大学学报(自然科学版)》 CAS 北大核心 2023年第5期483-489,共7页
中国古典文献汗牛充栋,它们是中国文化的瑰宝,但现代人想要理解这些文献极为困难,人工翻译它们更是不可能完成的任务.因此,该文研究了文言文-现代文的神经机器翻译,通过应用Seq2Seq模型和Transformer模型,考察了训练语料规模对文言文-... 中国古典文献汗牛充栋,它们是中国文化的瑰宝,但现代人想要理解这些文献极为困难,人工翻译它们更是不可能完成的任务.因此,该文研究了文言文-现代文的神经机器翻译,通过应用Seq2Seq模型和Transformer模型,考察了训练语料规模对文言文-现代文翻译性能的影响.研究结果发现:基于现有的训练语料规模,分词与否会极大影响Seq2Seq模型的性能.此外,若训练语料和测试语料的文体不同,则模型的性能也会受到影响. 展开更多
关键词 文言文-现代文神经机器翻译 Seq2Seq模型 翻译
下载PDF
基于依存结构学习的中学数学术语鲁棒抽取
13
作者 罗凯威 罗文兵 +1 位作者 黄琪 王明文 《中文信息学报》 CSCD 北大核心 2023年第8期75-85,共11页
中学数学术语抽取方法未考虑句子的依存结构信息,导致对句子的语义理解能力有限。此外,由于依赖依存结构信息的术语抽取方法存在分词或依存结构错误,导致术语抽取准确性和完整性不佳。为解决上述问题,该文提出一种基于依存结构学习的中... 中学数学术语抽取方法未考虑句子的依存结构信息,导致对句子的语义理解能力有限。此外,由于依赖依存结构信息的术语抽取方法存在分词或依存结构错误,导致术语抽取准确性和完整性不佳。为解决上述问题,该文提出一种基于依存结构学习的中学数学术语鲁棒抽取模型。模型利用预训练模型得到文本向量语义表示,并借助带有去噪注意力机制层的图神经网络和双向循环神经网络分别捕获文本的依存结构信息和上下文信息,进一步采用注意力机制融合文本结构信息和上下文信息以实现在融入依存结构信息的同时缓解错误分词或依存结构的影响。模型在自建的中学数学术语数据集上抽取精度P和F1值分别达到了83.82%、82.51%,相较于基准模型分别提升了2.21%、1.22%,表明该文所提方法能够鲁棒融合依存结构信息,从而提升中学数学术语抽取的精确性和完整性。 展开更多
关键词 术语抽取 依存结构 图神经网络
下载PDF
基于改进Cascade R-CNN的布匹瑕疵检测算法
14
作者 白明丽 王明文 《计算机科学》 CSCD 北大核心 2023年第S01期312-317,共6页
布匹瑕疵的自动化检测是目前纺织行业面临的一个难点问题。针对当前布匹瑕疵检测算法对尺度和长宽比变化大、小目标众多的样本检测效果并不理想的问题,提出了基于改进Cascade R-CNN网络的布匹瑕疵检测算法。首先,在特征提取网络ResNet-5... 布匹瑕疵的自动化检测是目前纺织行业面临的一个难点问题。针对当前布匹瑕疵检测算法对尺度和长宽比变化大、小目标众多的样本检测效果并不理想的问题,提出了基于改进Cascade R-CNN网络的布匹瑕疵检测算法。首先,在特征提取网络ResNet-50中融入可变形卷积,自适应地提取更多的瑕疵形状与尺度特征;其次,在特征金字塔网络上采样前引入平衡特征金字塔,缩小特征融合前各特征层之间的语义差距,得到更具表达力的多尺度特征;然后,根据瑕疵尺度与长宽比特点重新设计更适合的初始锚框;最后,采用具有尺度不变性的GIoU Loss作为级联检测器的回归损失,以获取更加精确的瑕疵预测边界框。实验结果表明,相比基于Cascade R-CNN的算法,改进后的Cascade R-CNN算法对布匹瑕疵检测的平均精确率获得了明显提升。 展开更多
关键词 Cascade R-CNN 布匹瑕疵检测 可变形卷积 平衡特征金字塔 GIoU Loss
下载PDF
Web服务架构 被引量:18
15
作者 王明文 朱清新 卿利 《计算机应用研究》 CSCD 北大核心 2005年第3期93-94,112,共3页
分析了Web服务技术架构。Web服务的主要目标就是在现有的各种异构平台的基础上构筑一个通用的与平台无关、语言无关的技术层,各种不同平台之上的应用依靠这个技术层来实施彼此的连接和集成。提出可以将Web服务架构划分为概念层、逻辑层... 分析了Web服务技术架构。Web服务的主要目标就是在现有的各种异构平台的基础上构筑一个通用的与平台无关、语言无关的技术层,各种不同平台之上的应用依靠这个技术层来实施彼此的连接和集成。提出可以将Web服务架构划分为概念层、逻辑层和物理层三个层次的模型,并分别讨论了模型的具体内容。分析了Web服务架构的优点以及还需要解决的一些问题。 展开更多
关键词 WEB服务 网络计算 架构 XML
下载PDF
双向聚类迭代的协同过滤推荐算法 被引量:16
16
作者 王明文 陶红亮 熊小勇 《中文信息学报》 CSCD 北大核心 2008年第4期61-65,74,共6页
协同过滤是电子商务推荐系统中广泛采用的技术,然而数据稀疏性会影响协同过滤的推荐质量。针对数据稀疏问题提出一种双向聚类迭代的协同过滤推荐算法,对初始得到的用户聚类和项目聚类进行交叉迭代调整,使得聚类簇达到较为稳定的状态。... 协同过滤是电子商务推荐系统中广泛采用的技术,然而数据稀疏性会影响协同过滤的推荐质量。针对数据稀疏问题提出一种双向聚类迭代的协同过滤推荐算法,对初始得到的用户聚类和项目聚类进行交叉迭代调整,使得聚类簇达到较为稳定的状态。调整后聚类簇的内聚性更强,类之间的区分度更大。实验表明,在调整后的聚类簇中查找邻居将更加准确,可以有效解决数据稀疏问题的影响,有利于提高推荐的准确性。 展开更多
关键词 计算机应用 中文信息处理 协同过滤 聚类 交叉迭代 平均绝对偏差
下载PDF
基于词重要性的信息检索图模型 被引量:11
17
作者 王明文 洪欢 +1 位作者 江爱文 左家莉 《中文信息学报》 CSCD 北大核心 2016年第4期134-141,共8页
在信息检索建模中,确定索引词项在文档中的重要性是一项重要内容。以词袋(bag-of-word)的形式表示文档来建立检索模型的方法中大多是基于词项独立性假设,用TF和IDF的函数来计算词项的重要性,并未考虑词项之间的关系。该文采用基于词项图... 在信息检索建模中,确定索引词项在文档中的重要性是一项重要内容。以词袋(bag-of-word)的形式表示文档来建立检索模型的方法中大多是基于词项独立性假设,用TF和IDF的函数来计算词项的重要性,并未考虑词项之间的关系。该文采用基于词项图(graph-of-word)的文档表示形式来捕获词项间的依赖关系,提出了一种新的基于词重要性的信息检索图模型TI-IDF。根据词项图得到文档中词项的共现矩阵和词项间的概率转移矩阵,通过马尔科夫链计算方法来确定词项在文档中的重要性(Term Importance,TI),并以此替代索引过程中传统的词项频率TF。该模型具有更好的鲁棒性,我们在国际公开数据集上与传统的检索模型进行了比较。实验结果表明,该文提出的模型都要优于BM25,且在大多数情况下优于BM25的扩展模型、TW-IDF等模型。 展开更多
关键词 词项重要性 词项图 检索模型 TI-IDF
下载PDF
基于词项共现关系图模型的中文观点句识别研究 被引量:5
18
作者 王明文 付翠琴 +1 位作者 徐凡 洪欢 《中文信息学报》 CSCD 北大核心 2015年第6期185-192,共8页
不同于传统的词项间强独立性假设的词袋模型驱动的观点句识别方法,该文提出了一种新型的基于词项共现关系的图模型方法。该方法通过构建词项共现关系图模型,利用词项与词项之间的共现性和句法关系来描述词项在观点句和非观点句集合中的... 不同于传统的词项间强独立性假设的词袋模型驱动的观点句识别方法,该文提出了一种新型的基于词项共现关系的图模型方法。该方法通过构建词项共现关系图模型,利用词项与词项之间的共现性和句法关系来描述词项在观点句和非观点句集合中的分布差异,同时采用基于入度的词项权重计算方法来计算词项特征值。上述研究在基准语料上进行实验,实验表明采用基于词项关系图模型方法后,中文观点句识别准确率相比目前基于词袋的方法得到显著提升。 展开更多
关键词 词项共现 图模型 观点句识别 特征值 有监督学习
下载PDF
相关证据合成方法 被引量:5
19
作者 王明文 吴根秀 孙永强 《江西师范大学学报(自然科学版)》 CAS 2002年第2期135-137,149,共4页
讨论了孙怀江和杨静宇文章中提出的相关证据合成方法 ,指出其定理 2是错误的 ,并给出了使其成立的条件 ;而对独立源证据的辨识 ,通过引入过渡变量 。
关键词 证据理论 不确定性 智能系统 概率论 证据组合规则 独立证据源 相关证据合成方法
下载PDF
基于word2vec的大中华区词对齐库的构建 被引量:6
20
作者 王明文 徐雄飞 +1 位作者 徐凡 李茂西 《中文信息学报》 CSCD 北大核心 2015年第5期76-83,共8页
该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大... 该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。 展开更多
关键词 大中华区 词对齐 最长公共子序列 word2vec
下载PDF
上一页 1 2 23 下一页 到第
使用帮助 返回顶部