-
题名机械装配工艺文本的实体关系抽取方法研究
- 1
-
-
作者
尹昱东
王保建
李珂嘉
王紫平
刘洁
-
机构
西安交通大学机械工程学院
-
出处
《计算机测量与控制》
2024年第6期198-205,219,共9页
-
基金
陕西省自然科学基础研究计划项目(2021M-169)
陕西省自然科学基础研究计划项目(2023-JC-YB-477)
2022年西安交通大学本科实验实践与创新创业教育教学改革研究专项项目(22SJZX10)。
-
文摘
机械装配过程常常需要人工阅读并理解大量装配工艺文本,从而耗费大量时间,并且由于装配工艺文本书写人员和装配人员能力的差异,可能会导致装配人员错误理解装配文本,产生零部件错装、漏装等问题;机械装配矩阵以矩阵形式存储零部件的装配实体关系,可以直接、有效表达装配关系,不仅易于工人理解装配关系,也便于计算机识别,可以显著提高装配效率。自然语言处理作为研究计算机理解人类语言的工具,在根据装配文本生成装配矩阵的任务中可以起到关键的作用;文章采用自然语言处理的方法,对装配文本进行断句、分词、词性标注等文本预处理操作,采用机械装配名词语料库辅助以提高对装配零件的分词、词性标注时的准确率;用语法依存关系分析和语法模板匹配两种方法生成每个句子的主语、谓语、宾语三元组,其中采用机械装配名词语料库进行匹配,以判断其中的装配零部件名;之后提取出主语及宾语都为装配零件的三元组作为一个装配关系,对其进行去除冗余词、实体对齐等后处理操作;最后根据零部件数量组成一个空矩阵,将装配关系填入接触矩阵,并根据零部件类型判断生成装配关系的接触-连接矩阵。
-
关键词
装配工艺文本
实体关系
自然语言处理
词性标注
三元组
装配关系矩阵
-
Keywords
assembly process text
entity relationship
natural language processing
part of speech tagging
triplet
assembly relation matrix
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向工艺文本的命名实体识别方法研究
被引量:6
- 2
-
-
作者
贾猛
王裴岩
张桂平
蔡东风
-
机构
沈阳航空航天大学人机智能研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2022年第3期54-63,共10页
-
基金
辽宁省重点研发计划(2019JH2/10100020)
辽宁省自然科学基金(20170540705)
沈阳市重大科技创新研发计划(Y19-1-011)。
-
文摘
面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别。该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,将预识别实体特征加入CNN-BiLSTM-CRF神经网络模型,指导训练与预测。实验结果表明,该方法在工艺文本中能较好地完成命名实体识别任务,在提高词典及规则覆盖的实体识别效果的同时,还能够提高其他类实体的识别效果,通过加入预识别实体特征,使得F_(1)值从90.99%提升到93.03%,验证了该文方法的有效性。
-
关键词
工艺文本
命名实体识别
领域词典及规则
CNN-BiLSTM-CRF
-
Keywords
process text
named entity recognition
domain dictionaries and rules
CNN-BiLSTM-CRF
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文工艺规范文本分词语料的构建与研究
被引量:1
- 3
-
-
作者
王裴岩
张莹欣
付小强
陈佳欣
徐楠
蔡东风
-
机构
沈阳航空航天大学人机智能研究中心
中国商飞上海飞机制造有限公司航空制造技术研究所
-
出处
《计算机科学》
CSCD
北大核心
2023年第S02期63-68,共6页
-
基金
辽宁省应用基础研究计划(2022JH2/101300248)。
-
文摘
中文分词是处理工艺规范文本的一项基本任务,并且在工艺知识图谱与智能问答等下游任务中发挥着重要作用。工艺规范文本分词面临的一个挑战是缺乏高质量标注的语料,特别是面向术语、名词短语、工艺参数、数量词等特殊语言现象的分词规范。文中面向工艺规范文本制定了专用分词规范,收集并标注了一个中文工艺规范文本分词语料(WS-MPST),含11900个句子与255160个词,4名标注者分词标注一致性达95.25%。在WS-MPST语料上对著名的BiLSTM-CRF与BERT-CRF模型进行了对比实验,F1值分别达到92.61%与93.69%。实验结果表明,构建专用的工艺规范分词语料是必要的。对实验结果的深入分析揭示了未登录词与中文非中文字符混合构成的词是工艺规范文本分词的难点,也为今后工艺规范文本及相关领域的分词研究提供了一定的指导。
-
关键词
中文分词
工艺规范文本
分词规范
分词语料
分词模型
-
Keywords
Chinese word segmentation
Process specification text
Word segmentation specification
Word segmentation corpus
Word segmentation model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向工艺实体识别的双向神经概率转换器
- 4
-
-
作者
李瑞婷
王裴岩
王立帮
杨丹清忻
-
机构
沈阳航空航天大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2024年第S01期248-255,共8页
-
基金
辽宁省应用基础研究计划(2022JH2/101300248)
全国科技名词审定委员会科研项目(YB2022015)
国家自然科学基金(U1908216)。
-
文摘
工艺实体识别旨在识别出产品制造中所遵照或是产生的文本中蕴含的零件、材料、属性和属性值等实体。目前,工艺等领域实体识别大多加入词典或正则规则等领域实体先验知识,修正神经网络模型识别结果或是生成预识别特征加入模型中。但上述方法未能实现领域实体识别的先验知识与神经网络模型统一建模,领域知识的加入没有减小模型训练代价,仍需大量标注数据。为解决上述问题,提出了面向工艺实体识别的双向神经概率转换器(Bi-NPT),将工艺实体识别先验知识建模为正则规则,然后将正则规则转化为参数化的概率有限状态转换器,使得模型在训练前带有实体识别的先验知识,同时具有可训练性。通过在标注数据上的训练,模型能够习得正则规则未覆盖实体的识别能力。实验结果表明,提出的Bi-NPT在未训练的情况下与正则规则实体识别效果相当,这表明未经过训练的初始模型即携带了实体识别知识。在小样本条件下,Bi-NPT优于PER,Template-based BART和NNShot方法;在充足样本条件下,Bi-NPT优于BiLSTM与TENER等方法。
-
关键词
工艺文本
实体识别
正则规则
概率有限状态转换器
-
Keywords
Process text
Entity recognition
Regular rules
Probabilistic finite state transducer
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-