为解决构建知识图谱过程中由于上下文环境复杂、现有模型字向量语义表征相对单一导致领域专业实体识别率低的问题,该研究提出了来自转换器的双向编码器表征量(bi-directional encoder representation from transformer,BERT)和残差结构(...为解决构建知识图谱过程中由于上下文环境复杂、现有模型字向量语义表征相对单一导致领域专业实体识别率低的问题,该研究提出了来自转换器的双向编码器表征量(bi-directional encoder representation from transformer,BERT)和残差结构(residual structure,RS)融合的命名实体识别模型(bert based named entity recognition with residual structure,BBNER-RS)。通过BERT模型将文本映射为字符向量,利用双向长短时记忆网络(bi-directional long-short term memory,BiLSTM)提取局部字符向量特征,并采用RS保留BERT提供的全局字符向量特征,以提高字向量的语义丰富度,最后通过条件随机场(conditional random field,CRF)模型对特征向量解码,获取全局最优序列标注。与其他命名实体识别模型相比,提出的BBNER-MRS模型在葡萄数据集上表现较好,在葡萄人民日报、玻森、简历和微博数据集上F1值分别达到89.89%、95.02%、83.21%、96.15%和72.51%。最后该研究依托BBNER-MRS模型,提出基于深度学习的两阶段式领域知识图谱构建方法,成功构建了葡萄知识图谱,研究结果可为相关从业人员提供技术和数据支持。展开更多
超扩展规则是对扩展规则的扩充,基于超扩展规则能够求得任意两个非互补且不相互蕴含的子句所能扩展出极大项集的交集、差集和并集,并将所得结果以EPCCL(each pair of clauses contains complementary literals)理论的形式保存.基于超扩...超扩展规则是对扩展规则的扩充,基于超扩展规则能够求得任意两个非互补且不相互蕴含的子句所能扩展出极大项集的交集、差集和并集,并将所得结果以EPCCL(each pair of clauses contains complementary literals)理论的形式保存.基于超扩展规则的性质,提出一种EPCCL理论编译算法:求交知识编译算法IKCHER(intersection approach to knowledge compilation based on hyper extension rule).该算法适合难解类SAT问题的知识编译,也是一种可并行的知识编译算法.研究了如何实现多个EPCCL理论的求交操作,证明了EPCCL理论的求交过程是可并行执行的,并设计了相应的并行求交算法PIAE(parellel intersection of any number of EPCCL).通过对输入EPCCL理论对应普通子句集的利用,设计了一种高效的并行求交算法imp-PIAE(improvement of PIAE).基于上述算法,还设计了两种并行知识编译算法P-IKCHER(IKCHER with PIAE)和imp P-IKCHER(IKCHER with imp-PIAE),分别采用PIAE并行合并算法和imp-PUAE并行合并算法.最后,通过实验验证了,大部分情况下,IKCHER算法的编译质量是目前为止所有EPCCL理论编译器中最优的,P-IKCHER算法所使用的合并策略并没有起到加速的效果,反而使得编译效率和编译质量有所下降;imp P-IKCHER算法提高了IKCHER算法的编译效率,CPU四核环境下最高可提高2倍.展开更多
DKCHER算法是基于超扩展规则的求差知识编译算法.本文首先研究了DKCHER算法的执行流程,并定义了互补量的概念,然后设计了启发式策略MACR(maximum complementary amount of clauses with middle result),用于动态选择与中间结果互补量最...DKCHER算法是基于超扩展规则的求差知识编译算法.本文首先研究了DKCHER算法的执行流程,并定义了互补量的概念,然后设计了启发式策略MACR(maximum complementary amount of clauses with middle result),用于动态选择与中间结果互补量最大的子句.针对互补展开过程,设计了动态启发式策略CAL(optimal sequence sorted by complementary amount of literals),将互补展开中的文字按照与输入公式互补量的大小进行排序并展开.将上述两种启发式策略与DKCHER算法相结合,分别设计了MACR_DKCHER算法、CAL_DKCHER算法和MACR_CAL_DKCHER算法.实验结果表明,MACR启发式策略能够提升DKCHER算法的编译效率和编译质量,编译效率最高可提升9倍,编译质量最高可提升1.9倍;CAL启发式策略在子句数和变量数比值较大的实例上,能够提高DKCHER算法的编译效率,但会降低DKCHER算法的编译质量;MACR_CAL启发式最高可将DKCHER算法的编译效率提高12倍,但会导致DKCHER算法的编译质量有所降低.展开更多
ERACC(Extension Rule Based on Accurate Configuration Checking)算法由杨洋等人基于扩展规则和格局检测提出,具有较高的推理效率.为进一步提高ERACC算法在大规模SAT(Satisfiability)问题求解上的性能,本文在搜索由极大项组成的空间时...ERACC(Extension Rule Based on Accurate Configuration Checking)算法由杨洋等人基于扩展规则和格局检测提出,具有较高的推理效率.为进一步提高ERACC算法在大规模SAT(Satisfiability)问题求解上的性能,本文在搜索由极大项组成的空间时,首先利用IMOM(Improved Maximum Occurrences on Clauses of Maximum Size)思想生成初始极大项,接着设计了适用于扩展规则推理的CCA_ER(Configuration Checking with Aspiration for Extension Rule-Based Reasoning)启发式策略,为极大项中格局信息未发生变化的变量对应文字提供一定的翻转机会.同时,为进一步提高扩展规则推理算法在k-SAT问题求解上的性能,设计了适用于扩展规则推理的PAWS_ER(Pure Additive Weighting Scheme for Extension Rule-Based Reasoning)策略,并且给出变量的Subscore_ER(Subscore for Extension Rule-Based Reasoning),CScore_ER(Comprehensive Score for Extension Rule-Based Reasoning)和HScore_ER(Hybrid Score for Extension Rule-Based Reasoning)属性.在此基础上,提出了ERACC_IAPS(ERACC with IMOM,CCA_ER,PAWS_ER and Subscore_ER)和CERACC_IAPS(ERACC with IMOM,CCA_ER,PAWS_ER,CScore_ER and HScore_ER)算法.实验结果表明:ERACC_IAPS和CERACC_IAPS算法的效率明显优于ERACC算法,最高可将其求解效率提高1000多倍.展开更多
基于超扩展规则,证明了EPCCL(Each Pair Contains Complementary Literal)理论的合并过程是可并行执行的,并设计了针对多个EPCCL理论的并行合并算法PUAE(Parallel computing Union of Any number of EPCCL).通过对EPCCL理论原始子句集...基于超扩展规则,证明了EPCCL(Each Pair Contains Complementary Literal)理论的合并过程是可并行执行的,并设计了针对多个EPCCL理论的并行合并算法PUAE(Parallel computing Union of Any number of EPCCL).通过对EPCCL理论原始子句集的利用,提出了另一种高效的EPCCL理论并行合并算法imp-PUAE(improvement of PUAE).UKCHER(computing Union sets of maximum terms for Knowledge Compilation based on Hyper Extension Rule)是一种可并行的EPCCL理论编译算法,分别利用PUAE和imp-PUAE设计了两个并行知识编译算法P-UKCHER(UKCHER with PUAE)和imp P-UKCHER(UKCHER with imp-PUAE).实验结果表明:P-UKCHER算法虽然没有提升UKCHER算法的效率,但能够提升UKCHER算法编译结果的质量,最好情况下可提升4倍;而imp P-UKCHER算法能够提高UKCHER算法的效率,同时也能够提升编译结果的质量,同样最好情况下可提升4倍.展开更多
利用规约规则可以约简EPCCL理论的规模,从而提高扩展规则知识编译算法的编译质量。为此,设计了约简EPCCL理论相邻子句的算法(reducing adjacent clauses in EPCCL,RACE),用于约简EPCCL理论中满足规约规则的相邻子句,进而降低了基于超扩...利用规约规则可以约简EPCCL理论的规模,从而提高扩展规则知识编译算法的编译质量。为此,设计了约简EPCCL理论相邻子句的算法(reducing adjacent clauses in EPCCL,RACE),用于约简EPCCL理论中满足规约规则的相邻子句,进而降低了基于超扩展规则的求差知识编译算法(computing the difference set for knowledge compilation based on hyper extension rule,DKCHER)的中间结果EPCCL理论和最终结果EPCCL理论的规模。结合RACE算法和DKCHER算法,设计并实现了改进的DKCHER算法(improved DKCHER,imp-DKCHER)。实验结果表明:imp-DKCHER算法能够显著提高DKCHER算法的编译质量,平均可提高17.3%,并在大部分实例上能够提高DKCHER算法的编译效率。展开更多
DKCHER算法是基于超扩展规则的求差知识编译算法,也是目前为止表现最好的EPCCL理论编译算法.本文通过研究DKCHER算法的执行流程,设计了一种新的启发式策略MOVR(maximum occurrence number of variables in middle result),用于动态地从...DKCHER算法是基于超扩展规则的求差知识编译算法,也是目前为止表现最好的EPCCL理论编译算法.本文通过研究DKCHER算法的执行流程,设计了一种新的启发式策略MOVR(maximum occurrence number of variables in middle result),用于动态地从输入子句集中选择所包含变量在中间结果中出现次数最多的子句.将MOVR启发式策略与DKCHER算法相结合,设计了MOVR_DKCHER算法.实验结果表明,MOVR启发式策略能够显著提高DKCHER算法的编译效率和编译质量,编译效率平均可提升70倍左右,最高可以提高237倍.展开更多
文摘为解决构建知识图谱过程中由于上下文环境复杂、现有模型字向量语义表征相对单一导致领域专业实体识别率低的问题,该研究提出了来自转换器的双向编码器表征量(bi-directional encoder representation from transformer,BERT)和残差结构(residual structure,RS)融合的命名实体识别模型(bert based named entity recognition with residual structure,BBNER-RS)。通过BERT模型将文本映射为字符向量,利用双向长短时记忆网络(bi-directional long-short term memory,BiLSTM)提取局部字符向量特征,并采用RS保留BERT提供的全局字符向量特征,以提高字向量的语义丰富度,最后通过条件随机场(conditional random field,CRF)模型对特征向量解码,获取全局最优序列标注。与其他命名实体识别模型相比,提出的BBNER-MRS模型在葡萄数据集上表现较好,在葡萄人民日报、玻森、简历和微博数据集上F1值分别达到89.89%、95.02%、83.21%、96.15%和72.51%。最后该研究依托BBNER-MRS模型,提出基于深度学习的两阶段式领域知识图谱构建方法,成功构建了葡萄知识图谱,研究结果可为相关从业人员提供技术和数据支持。
文摘超扩展规则是对扩展规则的扩充,基于超扩展规则能够求得任意两个非互补且不相互蕴含的子句所能扩展出极大项集的交集、差集和并集,并将所得结果以EPCCL(each pair of clauses contains complementary literals)理论的形式保存.基于超扩展规则的性质,提出一种EPCCL理论编译算法:求交知识编译算法IKCHER(intersection approach to knowledge compilation based on hyper extension rule).该算法适合难解类SAT问题的知识编译,也是一种可并行的知识编译算法.研究了如何实现多个EPCCL理论的求交操作,证明了EPCCL理论的求交过程是可并行执行的,并设计了相应的并行求交算法PIAE(parellel intersection of any number of EPCCL).通过对输入EPCCL理论对应普通子句集的利用,设计了一种高效的并行求交算法imp-PIAE(improvement of PIAE).基于上述算法,还设计了两种并行知识编译算法P-IKCHER(IKCHER with PIAE)和imp P-IKCHER(IKCHER with imp-PIAE),分别采用PIAE并行合并算法和imp-PUAE并行合并算法.最后,通过实验验证了,大部分情况下,IKCHER算法的编译质量是目前为止所有EPCCL理论编译器中最优的,P-IKCHER算法所使用的合并策略并没有起到加速的效果,反而使得编译效率和编译质量有所下降;imp P-IKCHER算法提高了IKCHER算法的编译效率,CPU四核环境下最高可提高2倍.
文摘DKCHER算法是基于超扩展规则的求差知识编译算法.本文首先研究了DKCHER算法的执行流程,并定义了互补量的概念,然后设计了启发式策略MACR(maximum complementary amount of clauses with middle result),用于动态选择与中间结果互补量最大的子句.针对互补展开过程,设计了动态启发式策略CAL(optimal sequence sorted by complementary amount of literals),将互补展开中的文字按照与输入公式互补量的大小进行排序并展开.将上述两种启发式策略与DKCHER算法相结合,分别设计了MACR_DKCHER算法、CAL_DKCHER算法和MACR_CAL_DKCHER算法.实验结果表明,MACR启发式策略能够提升DKCHER算法的编译效率和编译质量,编译效率最高可提升9倍,编译质量最高可提升1.9倍;CAL启发式策略在子句数和变量数比值较大的实例上,能够提高DKCHER算法的编译效率,但会降低DKCHER算法的编译质量;MACR_CAL启发式最高可将DKCHER算法的编译效率提高12倍,但会导致DKCHER算法的编译质量有所降低.
文摘ERACC(Extension Rule Based on Accurate Configuration Checking)算法由杨洋等人基于扩展规则和格局检测提出,具有较高的推理效率.为进一步提高ERACC算法在大规模SAT(Satisfiability)问题求解上的性能,本文在搜索由极大项组成的空间时,首先利用IMOM(Improved Maximum Occurrences on Clauses of Maximum Size)思想生成初始极大项,接着设计了适用于扩展规则推理的CCA_ER(Configuration Checking with Aspiration for Extension Rule-Based Reasoning)启发式策略,为极大项中格局信息未发生变化的变量对应文字提供一定的翻转机会.同时,为进一步提高扩展规则推理算法在k-SAT问题求解上的性能,设计了适用于扩展规则推理的PAWS_ER(Pure Additive Weighting Scheme for Extension Rule-Based Reasoning)策略,并且给出变量的Subscore_ER(Subscore for Extension Rule-Based Reasoning),CScore_ER(Comprehensive Score for Extension Rule-Based Reasoning)和HScore_ER(Hybrid Score for Extension Rule-Based Reasoning)属性.在此基础上,提出了ERACC_IAPS(ERACC with IMOM,CCA_ER,PAWS_ER and Subscore_ER)和CERACC_IAPS(ERACC with IMOM,CCA_ER,PAWS_ER,CScore_ER and HScore_ER)算法.实验结果表明:ERACC_IAPS和CERACC_IAPS算法的效率明显优于ERACC算法,最高可将其求解效率提高1000多倍.
文摘基于超扩展规则,证明了EPCCL(Each Pair Contains Complementary Literal)理论的合并过程是可并行执行的,并设计了针对多个EPCCL理论的并行合并算法PUAE(Parallel computing Union of Any number of EPCCL).通过对EPCCL理论原始子句集的利用,提出了另一种高效的EPCCL理论并行合并算法imp-PUAE(improvement of PUAE).UKCHER(computing Union sets of maximum terms for Knowledge Compilation based on Hyper Extension Rule)是一种可并行的EPCCL理论编译算法,分别利用PUAE和imp-PUAE设计了两个并行知识编译算法P-UKCHER(UKCHER with PUAE)和imp P-UKCHER(UKCHER with imp-PUAE).实验结果表明:P-UKCHER算法虽然没有提升UKCHER算法的效率,但能够提升UKCHER算法编译结果的质量,最好情况下可提升4倍;而imp P-UKCHER算法能够提高UKCHER算法的效率,同时也能够提升编译结果的质量,同样最好情况下可提升4倍.
文摘利用规约规则可以约简EPCCL理论的规模,从而提高扩展规则知识编译算法的编译质量。为此,设计了约简EPCCL理论相邻子句的算法(reducing adjacent clauses in EPCCL,RACE),用于约简EPCCL理论中满足规约规则的相邻子句,进而降低了基于超扩展规则的求差知识编译算法(computing the difference set for knowledge compilation based on hyper extension rule,DKCHER)的中间结果EPCCL理论和最终结果EPCCL理论的规模。结合RACE算法和DKCHER算法,设计并实现了改进的DKCHER算法(improved DKCHER,imp-DKCHER)。实验结果表明:imp-DKCHER算法能够显著提高DKCHER算法的编译质量,平均可提高17.3%,并在大部分实例上能够提高DKCHER算法的编译效率。
文摘DKCHER算法是基于超扩展规则的求差知识编译算法,也是目前为止表现最好的EPCCL理论编译算法.本文通过研究DKCHER算法的执行流程,设计了一种新的启发式策略MOVR(maximum occurrence number of variables in middle result),用于动态地从输入子句集中选择所包含变量在中间结果中出现次数最多的子句.将MOVR启发式策略与DKCHER算法相结合,设计了MOVR_DKCHER算法.实验结果表明,MOVR启发式策略能够显著提高DKCHER算法的编译效率和编译质量,编译效率平均可提升70倍左右,最高可以提高237倍.