期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
中文工艺规范文本分词语料的构建与研究
1
作者 王裴岩 张莹欣 +3 位作者 付小强 陈佳欣 徐楠 蔡东风 《计算机科学》 CSCD 北大核心 2023年第S02期63-68,共6页
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范... 中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。 展开更多
关键词 中文分词 工艺规范文本 分词规范 分词语料 分词模型
下载PDF
基于概念结构与分布式表征的术语语义知识库构建
2
作者 王裴岩 李林娜 沈思嘉 《中国科技术语》 2023年第4期3-11,共9页
词汇语义知识库的构建是自然语言处理中的一项基本任务,在自然语言处理的各子任务中发挥着重要作用。文章面向领域内复合型术语,提出术语概念KDML表示的自动生成方法,该方法基于概念的层级结构,采用分布式表征方法表征概念与术语定义文... 词汇语义知识库的构建是自然语言处理中的一项基本任务,在自然语言处理的各子任务中发挥着重要作用。文章面向领域内复合型术语,提出术语概念KDML表示的自动生成方法,该方法基于概念的层级结构,采用分布式表征方法表征概念与术语定义文本,根据二者间语义距离大小进行概念消歧,通过K近邻算法学习概念间的语义角色,按照KDML语法规则生成术语概念的完整表示。实验取得首义原精确率为96%,总义原、总语义角色与总三元组的F 1值分别为91.92%、78.9%、73.41%的结果。 展开更多
关键词 分布式表征 语义消歧 HOWNET 术语语义知识库构建
下载PDF
翻译错误类分布加权的专利译文自动后编辑集成模型
3
作者 赵三元 王裴岩 +3 位作者 叶娜 赵欣瑜 蔡东风 张桂平 《计算机科学》 CSCD 北大核心 2023年第S02期44-51,共8页
自动后编辑(APE)是一种自动修改机器译文错误的方法,能够改善机器翻译系统的译文质量。目前,APE研究主要集中于通用领域,然而对于专业性强和译文质量要求较高的专利译文的APE则鲜有研究。文中研究了专利译文自动后编辑,提出了翻译错误... 自动后编辑(APE)是一种自动修改机器译文错误的方法,能够改善机器翻译系统的译文质量。目前,APE研究主要集中于通用领域,然而对于专业性强和译文质量要求较高的专利译文的APE则鲜有研究。文中研究了专利译文自动后编辑,提出了翻译错误类分布加权的专利译文自动后编辑集成模型。首先,提出术语加权翻译编辑率(WTER)计算方法,在翻译编辑率(TER)中加入了每个词的术语概率因子,使术语错误较多的样本WTER值较高。然后,通过WTER从3个机器翻译系统构造的训练数据中选择错译、漏译、增译与移位错误样本子集分别构建错误修正偏向性APE子模型。最后,通过翻译错误类分布加权错误修正偏向性APE子模型。该方法针对专利专业性、强术语较多的特点,每个子模型分别面向一类错误,考虑了错误修正的偏向性,通过模型集成兼顾了译文错误多样性,在英中专利摘要数据集上的实验结果表明,相比3个基线系统,所提方法的BLEU值分别平均提升了2.52,2.28和2.27。 展开更多
关键词 自动后编辑 专利译文 翻译错误类分布 集成 翻译编辑率
下载PDF
基于编码器—解码器的工艺过程生成方法
4
作者 汤文俊 王裴岩 +2 位作者 蔡东风 张桂平 王玉印 《计算机集成制造系统》 EI CSCD 北大核心 2023年第11期3656-3668,共13页
针对现有工艺过程生成方法对于不同专业适用性较差的问题,提出一种基于深度学习编码器—解码器结构的工艺过程生成方法。该方法利用工艺大纲文件数据,通过编码器提取大纲文件中工艺属性的特征,形成工艺属性文本表征向量,解码器根据表征... 针对现有工艺过程生成方法对于不同专业适用性较差的问题,提出一种基于深度学习编码器—解码器结构的工艺过程生成方法。该方法利用工艺大纲文件数据,通过编码器提取大纲文件中工艺属性的特征,形成工艺属性文本表征向量,解码器根据表征向量逐步生成工艺过程。在钣金零件制造与装配两个专业工艺大纲文件数据上,比较研究了24种编码器—解码器结构,最高准确率分别达到0.8287和0.6973,即生成的工艺过程有82.87%和69.73%可直接接受,不需要后续修改。这一方面表明所提出方法能够有效地从数据中学习工艺属性与工艺方法间的关系,从而生成工艺过程;另一方面,在两个专业采用相同编码器—解码器结构,表明所提方法对于不同专业的适用性,具有迁移能力。 展开更多
关键词 工艺过程生成 编码器—解码器 深度学习 制造与装配
下载PDF
融入知识的工艺文本命名实体识别方法
5
作者 杨洪鹏 王裴岩 +2 位作者 蔡东风 张桂平 朱永康 《沈阳航空航天大学学报》 2023年第1期67-77,共11页
针对工艺制造领域文本提出一种融入知识的命名实体识别方法,旨在能够准确地识别工艺文本中的12类实体。该方法依据工艺领域知识设计正则规则,对文本序列进行实体的预识别,形成预识别特征矩阵,并使用编码器对预识别特征矩阵编码,再将识... 针对工艺制造领域文本提出一种融入知识的命名实体识别方法,旨在能够准确地识别工艺文本中的12类实体。该方法依据工艺领域知识设计正则规则,对文本序列进行实体的预识别,形成预识别特征矩阵,并使用编码器对预识别特征矩阵编码,再将识别到的结果保存于词典中,然后对输入文本分词训练基于词的知识表示,最后加入基于神经网络的实体识别模型中。使用BiLSTM为预识别特征矩阵编码器和BiLSTM-CRF神经网络模型的F1值达到92.55%。实验结果表明,融入知识的工艺文本命名实体识别方法能够有效提高工艺文本实体的识别效果。 展开更多
关键词 工艺制造 正则规则 神经网络 命名实体识别 特征矩阵编码器 BiLSTM
下载PDF
基于多核学习的装配工艺过程重用 被引量:4
6
作者 王裴岩 张桂平 +1 位作者 翟顺龙 蔡东风 《计算机集成制造系统》 EI CSCD 北大核心 2018年第7期1850-1857,共8页
为了最大程度复用历史工艺过程,提高工艺设计效率,对装配工艺过程重用问题进行了研究,提出了一种基于多核学习的方法。该方法利用了工艺规程名称、规程编号、设计人与装配零件表等直接获取特征,不需要人工确定特征的表达符号集与标注数... 为了最大程度复用历史工艺过程,提高工艺设计效率,对装配工艺过程重用问题进行了研究,提出了一种基于多核学习的方法。该方法利用了工艺规程名称、规程编号、设计人与装配零件表等直接获取特征,不需要人工确定特征的表达符号集与标注数据;通过定义多个核函数,从不同视角衡量工艺过程的可重用性,并利用工艺大纲文件间的重用度作为指导信息,优化多核组合参数。在47 828份飞机装配工艺规程数据上,多核学习方法能够有效地对工艺规程文件进行筛选与排序,能够保证排序靠前的结果具有较高的重用度,Top 1重用度可达0.3811。实验结果证明了规程文件命名规律、企业工艺文件管理规则、装配零件表等信息在工艺过程复用中的有效性。 展开更多
关键词 装配工艺过程重用 核函数 多核学习 飞机装配
下载PDF
一种基于核距离的核函数度量方法 被引量:4
7
作者 王裴岩 蔡东风 《计算机科学》 CSCD 北大核心 2014年第2期72-75,共4页
核方法的效果依赖于所使用的核,因此核的选择和其参数的确定是至关重要的。从特定的数据中学习核需要核度量方法评价核的质量。核排列度量核与学习任务的一致性,因为它具有高效性和有效性,是目前应用最为广泛的核度量方法。然而,有研究... 核方法的效果依赖于所使用的核,因此核的选择和其参数的确定是至关重要的。从特定的数据中学习核需要核度量方法评价核的质量。核排列度量核与学习任务的一致性,因为它具有高效性和有效性,是目前应用最为广泛的核度量方法。然而,有研究表明,核排列仅是最优核函数的充分非必要条件。其主要原因是核排列在特征空间中不具有线性变换不变性。提出了一种新的核度量方法用于核选择,称其为核距离排列。该方法能够克服核排列的局限性,并且同样具有高效性和简单的形式。对比实验表明,该方法能够有效地对核进行度量。 展开更多
关键词 核方法 核度量 核距离
下载PDF
普适性核度量标准比较研究 被引量:2
8
作者 王裴岩 蔡东风 《软件学报》 EI CSCD 北大核心 2015年第11期2856-2868,共13页
核方法是一类应用较为广泛的机器学习算法,已被应用于分类、聚类、回归和特征选择等方面.核函数的选择与参数优化一直是影响核方法效果的核心问题,从而推动了核度量标准,特别是普适性核度量标准的研究.对应用最为广泛的5种普适性核度量... 核方法是一类应用较为广泛的机器学习算法,已被应用于分类、聚类、回归和特征选择等方面.核函数的选择与参数优化一直是影响核方法效果的核心问题,从而推动了核度量标准,特别是普适性核度量标准的研究.对应用最为广泛的5种普适性核度量标准进行了分析与比较研究,包括KTA,EKTA,CKTA,FSM和KCSM.发现上述5种普适性度量标准的度量内容为特征空间中线性假设的平均间隔,与支持向量机最大化最小间隔的优化标准存在偏差.然后,使用模拟数据分析了上述标准的类别分布敏感性、线性平移敏感性、异方差数据敏感性,发现上述标准仅是核度量的充分非必要条件,好的核函数可能获得较低的度量值.最后,在9个UCI数据集和20Newsgroups数据集上比较了上述标准的度量效果,发现CKTA是度量效果最好的普适性核度量标准. 展开更多
关键词 核方法 核选择 核参数优化 普适性核度量标准
下载PDF
基于统计检验的核函数度量方法研究 被引量:2
9
作者 王裴岩 蔡东风 《计算机科学》 CSCD 北大核心 2015年第4期199-205,共7页
将统计检验方法应用于核函数度量。以核函数、规范化核函数、中心化核函数和核距离作为样本在特征空间中的几何关系度量,使用t检验和F检验等7种统计检验方法检验特征空间中同类样本间几何关系度量值与异类样本间几何关系度量值的分布差... 将统计检验方法应用于核函数度量。以核函数、规范化核函数、中心化核函数和核距离作为样本在特征空间中的几何关系度量,使用t检验和F检验等7种统计检验方法检验特征空间中同类样本间几何关系度量值与异类样本间几何关系度量值的分布差异,以此反映特征空间中同类样本间内聚性与异类样本间分离性间的差异。在11个UCI数据集上进行的核函数选择实验表明,基于统计检验的核度量方法达到或超过了核校准与特征空间核度量标准等方法的效果,适用于核函数度量;并且发现两类数据分布差异主要体现在了方差差异上。此外,对核函数的处理(规范化或中心化)会改变特征空间,使得度量结果失真。 展开更多
关键词 核函数 核函数度量 统计检验
下载PDF
一种用于专利主题词抽取的模板自动生成方法 被引量:4
10
作者 王裴岩 张桂平 +2 位作者 蔡东风 白宇 叶娜 《沈阳航空工业学院学报》 2010年第3期46-49,共4页
专利主题词是用以表述发明或实用新型名称的技术关键词,专利主题词的抽取是专利技术方案信息抽取的第一步,是填充信息抽取结果模板的有效依据和填充子之一。将信息抽取技术应用于中文专利摘要文本,在充分分析了专利摘要文本和专利标题... 专利主题词是用以表述发明或实用新型名称的技术关键词,专利主题词的抽取是专利技术方案信息抽取的第一步,是填充信息抽取结果模板的有效依据和填充子之一。将信息抽取技术应用于中文专利摘要文本,在充分分析了专利摘要文本和专利标题特点的基础上,采用无指导的方法构建信息抽取模板,进而完成专利主题词的抽取。实验表明,该方法获得了较好的抽取效果。 展开更多
关键词 中文专利摘要文本 专利主题词 无指导 模板
下载PDF
航空术语语义知识库ATHowNet的构建 被引量:4
11
作者 王裴岩 张桂平 蔡东风 《中国科技术语》 2021年第3期26-32,共7页
语义知识库在自然语言处理的许多领域中起着重要的作用。现有的语义知识库主要面向常识知识,特定领域的语义知识库则很少。文章将知网(HowNet)的理论体系与概念表示方法扩展至航空领域,提出了一个航空领域术语语义知识库——ATHowNet,... 语义知识库在自然语言处理的许多领域中起着重要的作用。现有的语义知识库主要面向常识知识,特定领域的语义知识库则很少。文章将知网(HowNet)的理论体系与概念表示方法扩展至航空领域,提出了一个航空领域术语语义知识库——ATHowNet,并介绍了构建过程。该知识库包含3700个概念、3959个概念关系和3864个术语。在航空术语相似度计算及词类比任务上应用与验证了ATHowNet,结果证实了其在航空领域概念语义描述及基于概念关系推理上的有效性。 展开更多
关键词 语义知识库 航空术语 概念 概念关系
下载PDF
基于HowNet的航空术语语义知识库的构建 被引量:8
12
作者 张桂平 刁丽娜 王裴岩 《中文信息学报》 CSCD 北大核心 2014年第5期92-101,共10页
语义知识库的构建是自然语言处理基础性工作,对于语言信息的处理有重要的作用,但面向特定领域的语义知识库的构建还是一个难点。该文在分析了航空术语的基本特点的基础上,根据HowNet和KDML描述语言构建了面向航空领域的术语语义知识库,... 语义知识库的构建是自然语言处理基础性工作,对于语言信息的处理有重要的作用,但面向特定领域的语义知识库的构建还是一个难点。该文在分析了航空术语的基本特点的基础上,根据HowNet和KDML描述语言构建了面向航空领域的术语语义知识库,并在构建航空术语知识库的过程中总结形成了构建航空术语知识库的基础规则、动态角色/特征的选择规则。在文章最后对所构建的术语进行了相似度的计算,取得了较好的结果。 展开更多
关键词 航空术语 HOWNET 语义知识库 KDML
下载PDF
一种融合用户主题兴趣与用户行为的文档推荐方法 被引量:8
13
作者 张桂平 翟顺龙 王裴岩 《中文信息学报》 CSCD 北大核心 2017年第3期147-155,共9页
针对单一角度描述用户兴趣存在片面性的问题,该文提出一种融合用户主题兴趣和用户行为的文档推荐方法。一方面从主题兴趣的角度,构建反映用户主题兴趣的主题向量用户模型;另一方面从用户行为的角度,构建反映用户行为兴趣的打分矩阵用户... 针对单一角度描述用户兴趣存在片面性的问题,该文提出一种融合用户主题兴趣和用户行为的文档推荐方法。一方面从主题兴趣的角度,构建反映用户主题兴趣的主题向量用户模型;另一方面从用户行为的角度,构建反映用户行为兴趣的打分矩阵用户模型。然后,基于上述用户模型提出了两种文档推荐方法,并采用线性加权的方式融合这两种方法,从而实现对用户主题兴趣与用户行为的融合。实验结果表明,该方法的推荐结果好于协同过滤推荐方法和基于内容的推荐方法。 展开更多
关键词 用户模型 主题兴趣 用户行为 文档推荐
下载PDF
基于主动学习的本体概念关系判断 被引量:1
14
作者 张桂平 李文博 王裴岩 《中文信息学报》 CSCD 北大核心 2013年第4期37-43,共7页
该文依据关系判断任务特点将主动学习应用到本体概念关系的辅助判断中,对边缘采样、熵采样、最不确信采样等主动学习查询生成策略进行了比较研究。在此基础上,从实际应用角度出发,讨论了在三种不同样本初始情况下主动学习技术的应用。... 该文依据关系判断任务特点将主动学习应用到本体概念关系的辅助判断中,对边缘采样、熵采样、最不确信采样等主动学习查询生成策略进行了比较研究。在此基础上,从实际应用角度出发,讨论了在三种不同样本初始情况下主动学习技术的应用。对于初始样本正反例充足的情况,采用基于熵采样和边缘采样产生查询;对于初始样本仅有正例的情况,依据样本相似度主动的学习策略生成候选反例;对于缺乏初始样本的情况,使用概念在样本间距离等统计信息,同时生成候选正例和候选反例。从而,实现了在概念关系判定过程中对用户反馈信息的有效利用。 展开更多
关键词 本体 概念关系 辅助判断 主动学习
下载PDF
基于马尔科夫逻辑网的中文专利最大名词短语识别 被引量:2
15
作者 蔡东风 赵奇猛 +1 位作者 饶齐 王裴岩 《中文信息学报》 CSCD 北大核心 2016年第4期21-28,共8页
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔... 缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。 展开更多
关键词 最大名词短语 马尔科夫逻辑网 中文专利
下载PDF
专利信息检索技术 被引量:1
16
作者 白宇 王裴岩 +1 位作者 蔡东风 董燕举 《沈阳航空工业学院学报》 2010年第4期50-53,共4页
专利信息检索作为快速获取专利信息的主要手段,在专利信息应用过程中发挥重要作用。本文在分析当前专利信息检索涉及的关键技术的基础上,进一步阐述了基于概念的专利信息检索技术。本文以对专利文献的内容分析为基础,按照文献中各部分... 专利信息检索作为快速获取专利信息的主要手段,在专利信息应用过程中发挥重要作用。本文在分析当前专利信息检索涉及的关键技术的基础上,进一步阐述了基于概念的专利信息检索技术。本文以对专利文献的内容分析为基础,按照文献中各部分的功能进行组织表示,对不同部分制定相应的特征选择策略。同时,对基于概念的专利信息检索技术中的两个关键问题即查询扩展和专利文献相似度计算方法进行了阐述。 展开更多
关键词 专利 信息检索 查询扩展 相似度计算
下载PDF
面向中文专利SAO结构抽取的文本特征比较研究 被引量:14
17
作者 饶齐 王裴岩 张桂平 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期349-356,共8页
针对中文专利文本中SAO结构实体关系抽取问题,使用支持向量机的机器学习方法进行关系抽取实验,分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明,基本的词法信息能... 针对中文专利文本中SAO结构实体关系抽取问题,使用支持向量机的机器学习方法进行关系抽取实验,分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明,基本的词法信息能够明显提高关系抽取性能,而句法信息没有显著提高关系抽取效果。此外,也验证了词向量在SAO结构关系抽取中的可行性。 展开更多
关键词 SAO结构 关系抽取 特征有效性 词向量
下载PDF
面向中文专利的开放式实体关系抽取研究 被引量:3
18
作者 赵奇猛 王裴岩 +1 位作者 冯好国 蔡东风 《计算机工程与应用》 CSCD 北大核心 2015年第1期125-129,171,共6页
针对传统实体关系抽取需要预先指定关系类型和制定抽取规则等无法胜任大规模文本的情况,开放式信息抽取(Open Information Extraction,OIE)在以英语为代表的西方语言中取得了重大进展,但对于汉语的研究却显得不足。为此,研究了在组块层... 针对传统实体关系抽取需要预先指定关系类型和制定抽取规则等无法胜任大规模文本的情况,开放式信息抽取(Open Information Extraction,OIE)在以英语为代表的西方语言中取得了重大进展,但对于汉语的研究却显得不足。为此,研究了在组块层次标注基础上应用马尔可夫逻辑网分层次进行中文专利开放式实体关系抽取的方法。实验表明:以组块为出发点降低了对句子理解的难度,外层和内层组块可以统一处理,减少了工程代价;而且在相同特征条件下与支持向量机相比,基于马尔可夫逻辑网的关系抽取效果更理想,外层和内层识别结果的F值分别可达到77.92%和69.20%。 展开更多
关键词 中文专利依存树库 开放式实体关系抽取 MARKOV逻辑网
下载PDF
航空术语语义知识库辅助构建方法 被引量:3
19
作者 王思博 王裴岩 张桂平 《中文信息学报》 CSCD 北大核心 2018年第12期57-66,共10页
语义知识库是自然语言处理任务的基础性资源,广泛应用于语义计算和语义推理等任务。现有的大规模语义知识库基本都是通用型知识库,缺乏特定领域的语义知识。为了弥补这种不足,该文基于HowNet的语义理论体系,提出了一种辅助构建航空术语... 语义知识库是自然语言处理任务的基础性资源,广泛应用于语义计算和语义推理等任务。现有的大规模语义知识库基本都是通用型知识库,缺乏特定领域的语义知识。为了弥补这种不足,该文基于HowNet的语义理论体系,提出了一种辅助构建航空术语语义知识库的方法。该方法根据航空术语的特点将辅助构建分成四个关键过程,构建了2 000条术语概念描述(DEF)。最后通过对人工标注的术语间相似度与根据术语DEF计算的术语间相似度结果的对比,验证了该构建方法的有效性。 展开更多
关键词 航空术语 语义知识库 知网 概念描述
下载PDF
面向工艺文本的命名实体识别方法研究 被引量:1
20
作者 贾猛 王裴岩 +1 位作者 张桂平 蔡东风 《中文信息学报》 CSCD 北大核心 2022年第3期54-63,共10页
面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别。该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,... 面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别。该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,将预识别实体特征加入CNN-BiLSTM-CRF神经网络模型,指导训练与预测。实验结果表明,该方法在工艺文本中能较好地完成命名实体识别任务,在提高词典及规则覆盖的实体识别效果的同时,还能够提高其他类实体的识别效果,通过加入预识别实体特征,使得F_(1)值从90.99%提升到93.03%,验证了该文方法的有效性。 展开更多
关键词 工艺文本 命名实体识别 领域词典及规则 CNN-BiLSTM-CRF
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部