针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句...针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句子编码。针对传统的实体关系抽取方法存在错误传播、实体冗余、交互缺失等问题,以及旅游评论中的实体关系存在一词多义、关系重叠等特征,提出直接对三元组建模,利用句子编码抽取头实体,根据关系类别抽取尾实体,并建立级联结构和指针网络解码输出三元组。基于Neo4j图数据库存储三元组构建旅游知识图谱。实验在建立的旅游数据集上进行,融合BERT-WWM与指针网络的实体关系联合抽取模型的准确率、召回率和F1值分别为93.42%、86.59%和89.88%,与现有模型相比三项指标均显示出优越性,验证了该方法进行实体关系联合抽取的有效性。构建的旅游知识图谱实现了旅游景区信息的整合与存储,对进一步促进旅游业发展具有一定的实际参考意义。展开更多
针对工业设备故障领域训练数据少、实体结构复杂和实体分布不均匀等问题,文中构建了工业设备故障命名实体识别语料库。为解决字符级命名实体识别模型难以表示工业设备故障领域的专业词汇信息问题,文中提出一种基于字符增强的工业设备故...针对工业设备故障领域训练数据少、实体结构复杂和实体分布不均匀等问题,文中构建了工业设备故障命名实体识别语料库。为解决字符级命名实体识别模型难以表示工业设备故障领域的专业词汇信息问题,文中提出一种基于字符增强的工业设备故障命名实体识别模型。在嵌入层,直接在RoBERTa-WWM(Robustly Optimized BERT Pretraining Approach with Whole Word Masking)的Transformer层之间融入专业词汇信息,将单词信息分配给其包含的每个字来达到增强语义的目的,通过BiLSTM(Bidirectional Long Short-Term Memory)获得全局语义信息,利用CRF(Conditional Random Field)学习相邻标签之间的依赖关系,以获得最佳句子级标签序列。实验结果证明,所提模型对工业设备故障命名实体识别任务具有良好的效果,平均F1值达到了92.403%。展开更多
为充分挖掘专利文本中已有的解决方案和技术知识,依据发明问题解决理论(theory of inventive problem solving,TRIZ),提出了一种基于预训练语言模型的方法,将其用于面向TRIZ发明原理的中文专利分类研究中。基于整词掩码技术,使用不同数...为充分挖掘专利文本中已有的解决方案和技术知识,依据发明问题解决理论(theory of inventive problem solving,TRIZ),提出了一种基于预训练语言模型的方法,将其用于面向TRIZ发明原理的中文专利分类研究中。基于整词掩码技术,使用不同数量的专利数据集(标题和摘要)对中文RoBERTa模型进一步预训练,生成特定于专利领域的RoBERTa_patent1.0和RoBERTa_patent2.0两个模型,并在此基础上添加全连接层,构建了基于RoBERTa、RoBERTa_patent1.0和RoBERTa_patent2.0的三个专利分类模型。然后使用构建的基于TRIZ发明原理的专利数据集对以上三个分类模型进行训练和测试。实验结果表明,RoBERTa_patent2.0_IP具有更高的准确率、宏查准率、宏查全率和宏F 1值,分别达到96%、95.69%、94%和94.84%,实现了基于TRIZ发明原理的中文专利文本自动分类,可以帮助设计者理解与应用TRIZ发明原理,实现产品的创新设计。展开更多
The objective was to measure the effect of various face masks on speech recognition threshold and the word recognition score in the presence of varying background noise levels.20 normal-hearing adult subjects(a total ...The objective was to measure the effect of various face masks on speech recognition threshold and the word recognition score in the presence of varying background noise levels.20 normal-hearing adult subjects(a total of 40 ears)participated.Pure tone audiometry followed by speech recognition threshold and word recognition score at the most comfortable level in varying signal-to-noise ratios(SNR0,SNR10,and SNR15)using surgical,pleated cloth,and N95 masks.Using surgical,cloth,and N95 masks,speech recognition thresholds increased by 1.8 dB,4.4 dB,and 5.05 dB,respectively.Word recognition scores decreased by 32%without a mask,43.7%in a surgical mask,46.3%in a cloth mask,and 46.7%in N95 mask conditions,between SNR15 and SNR0.The speech recognition threshold was negatively affected with cloth and N95 masks.Surgical masks do not affect the word recognition scores at lower background noise levels.However,as the signal-to-noise ratio decreased,even the surgical,cloth,and N95 masks significantly impacted the word recognition score even in normal-hearing individuals.展开更多
为揭示形态结构对二语词汇加工的影响,本研究采用掩蔽启动实验考察了我国学习者对英语派生词的实时加工状况。研究发现,派生词对其词干的识别存在显著的启动效应,且该启动效应不受大脑对其熟悉程度的影响。该结果表明,二语派生词的加工...为揭示形态结构对二语词汇加工的影响,本研究采用掩蔽启动实验考察了我国学习者对英语派生词的实时加工状况。研究发现,派生词对其词干的识别存在显著的启动效应,且该启动效应不受大脑对其熟悉程度的影响。该结果表明,二语派生词的加工和一语加工一样,也受到形态结构的影响,存在形态分解。该结论支持"目标语特征决定其加工机制"(Diependaele et al.2011:354)的观点。本研究进一步指出,影响复杂词加工机制的主要因素为其构成词素的特征,而非其整词的特征。展开更多
文摘针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句子编码。针对传统的实体关系抽取方法存在错误传播、实体冗余、交互缺失等问题,以及旅游评论中的实体关系存在一词多义、关系重叠等特征,提出直接对三元组建模,利用句子编码抽取头实体,根据关系类别抽取尾实体,并建立级联结构和指针网络解码输出三元组。基于Neo4j图数据库存储三元组构建旅游知识图谱。实验在建立的旅游数据集上进行,融合BERT-WWM与指针网络的实体关系联合抽取模型的准确率、召回率和F1值分别为93.42%、86.59%和89.88%,与现有模型相比三项指标均显示出优越性,验证了该方法进行实体关系联合抽取的有效性。构建的旅游知识图谱实现了旅游景区信息的整合与存储,对进一步促进旅游业发展具有一定的实际参考意义。
文摘针对工业设备故障领域训练数据少、实体结构复杂和实体分布不均匀等问题,文中构建了工业设备故障命名实体识别语料库。为解决字符级命名实体识别模型难以表示工业设备故障领域的专业词汇信息问题,文中提出一种基于字符增强的工业设备故障命名实体识别模型。在嵌入层,直接在RoBERTa-WWM(Robustly Optimized BERT Pretraining Approach with Whole Word Masking)的Transformer层之间融入专业词汇信息,将单词信息分配给其包含的每个字来达到增强语义的目的,通过BiLSTM(Bidirectional Long Short-Term Memory)获得全局语义信息,利用CRF(Conditional Random Field)学习相邻标签之间的依赖关系,以获得最佳句子级标签序列。实验结果证明,所提模型对工业设备故障命名实体识别任务具有良好的效果,平均F1值达到了92.403%。
文摘为充分挖掘专利文本中已有的解决方案和技术知识,依据发明问题解决理论(theory of inventive problem solving,TRIZ),提出了一种基于预训练语言模型的方法,将其用于面向TRIZ发明原理的中文专利分类研究中。基于整词掩码技术,使用不同数量的专利数据集(标题和摘要)对中文RoBERTa模型进一步预训练,生成特定于专利领域的RoBERTa_patent1.0和RoBERTa_patent2.0两个模型,并在此基础上添加全连接层,构建了基于RoBERTa、RoBERTa_patent1.0和RoBERTa_patent2.0的三个专利分类模型。然后使用构建的基于TRIZ发明原理的专利数据集对以上三个分类模型进行训练和测试。实验结果表明,RoBERTa_patent2.0_IP具有更高的准确率、宏查准率、宏查全率和宏F 1值,分别达到96%、95.69%、94%和94.84%,实现了基于TRIZ发明原理的中文专利文本自动分类,可以帮助设计者理解与应用TRIZ发明原理,实现产品的创新设计。
文摘The objective was to measure the effect of various face masks on speech recognition threshold and the word recognition score in the presence of varying background noise levels.20 normal-hearing adult subjects(a total of 40 ears)participated.Pure tone audiometry followed by speech recognition threshold and word recognition score at the most comfortable level in varying signal-to-noise ratios(SNR0,SNR10,and SNR15)using surgical,pleated cloth,and N95 masks.Using surgical,cloth,and N95 masks,speech recognition thresholds increased by 1.8 dB,4.4 dB,and 5.05 dB,respectively.Word recognition scores decreased by 32%without a mask,43.7%in a surgical mask,46.3%in a cloth mask,and 46.7%in N95 mask conditions,between SNR15 and SNR0.The speech recognition threshold was negatively affected with cloth and N95 masks.Surgical masks do not affect the word recognition scores at lower background noise levels.However,as the signal-to-noise ratio decreased,even the surgical,cloth,and N95 masks significantly impacted the word recognition score even in normal-hearing individuals.
文摘为揭示形态结构对二语词汇加工的影响,本研究采用掩蔽启动实验考察了我国学习者对英语派生词的实时加工状况。研究发现,派生词对其词干的识别存在显著的启动效应,且该启动效应不受大脑对其熟悉程度的影响。该结果表明,二语派生词的加工和一语加工一样,也受到形态结构的影响,存在形态分解。该结论支持"目标语特征决定其加工机制"(Diependaele et al.2011:354)的观点。本研究进一步指出,影响复杂词加工机制的主要因素为其构成词素的特征,而非其整词的特征。