为高效地自动挖掘开源异构大数据中的威胁情报实体和关系,提出一种威胁情报实体关系抽取(TIERE)方法。首先,通过分析开源网络安全报告的特点,研究并提出一种数据预处理方法;然后,针对网络安全领域文本复杂度高、标准数据样本集少的问题...为高效地自动挖掘开源异构大数据中的威胁情报实体和关系,提出一种威胁情报实体关系抽取(TIERE)方法。首先,通过分析开源网络安全报告的特点,研究并提出一种数据预处理方法;然后,针对网络安全领域文本复杂度高、标准数据样本集少的问题,提出基于改进自举法的命名实体识别(NER-IBS)算法和基于语义角色标注的关系抽取(RE-SRL)算法。利用少量样本和规则构建初始种子,通过迭代训练挖掘非结构化文本中的实体,并通过构建语义角色的策略挖掘实体之间的关系。实验结果表明,在少样本网络安全信息抽取数据集上,NER-IBS算法的F1值为84%,与RDF-CRF(Regular expression and Dictionary combined with Feature templates as well as Conditional Random Field)算法相比提高了2个百分点,且RE-SRL算法对于无类别关系抽取的F1值为94%,说明TIERE方法具有高效的实体关系抽取能力。展开更多
研究了中文名词性谓词的语义角色标注(semantic role labeling,简称SRL).在使用传统动词性谓词SRL相关特征的基础上,进一步提出了名词性谓词SRL相关的特征集.此外,探索了中文动词性谓词SRL对中文名词性谓词SRL的影响,并且联合谓词自动...研究了中文名词性谓词的语义角色标注(semantic role labeling,简称SRL).在使用传统动词性谓词SRL相关特征的基础上,进一步提出了名词性谓词SRL相关的特征集.此外,探索了中文动词性谓词SRL对中文名词性谓词SRL的影响,并且联合谓词自动识别实现了全自动的中文名词性谓词SRL.在中文NomBank上的实验结果表明,中文动词性谓词的SRL合理使用能够大幅度提高中文名词性谓词的SRL性能;基于正确句法树和正确谓词识别,中文名词性谓词的SRL性能F1值达到了72.67,大大优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1值为55.14.展开更多
提出一种基于特征组合和支持向量机(support vector machine,简称SVM)的语义角色标注(semantic role labeling,简称SRL)方法.该方法以句法成分作为基本标注单元,首先从当前基于句法分析的语义角色标注系统中选出高效特征,构成基本特征集...提出一种基于特征组合和支持向量机(support vector machine,简称SVM)的语义角色标注(semantic role labeling,简称SRL)方法.该方法以句法成分作为基本标注单元,首先从当前基于句法分析的语义角色标注系统中选出高效特征,构成基本特征集合.然后提出一种基于统计的特征组合方法.该方法能够根据正反例中组合特征的分布状况,以类间距离和类内距离之比作为统计量来衡量组合特征对分类所产生的效果,保留分类效果较好的组合特征.最后,在Chinese PropBank(CPB)语料上利用支持向量机进行分类实验,结果表明,引入该特征组合方法后,语义角色标注整体F值达91.81%,提高了近2%.展开更多
文摘为高效地自动挖掘开源异构大数据中的威胁情报实体和关系,提出一种威胁情报实体关系抽取(TIERE)方法。首先,通过分析开源网络安全报告的特点,研究并提出一种数据预处理方法;然后,针对网络安全领域文本复杂度高、标准数据样本集少的问题,提出基于改进自举法的命名实体识别(NER-IBS)算法和基于语义角色标注的关系抽取(RE-SRL)算法。利用少量样本和规则构建初始种子,通过迭代训练挖掘非结构化文本中的实体,并通过构建语义角色的策略挖掘实体之间的关系。实验结果表明,在少样本网络安全信息抽取数据集上,NER-IBS算法的F1值为84%,与RDF-CRF(Regular expression and Dictionary combined with Feature templates as well as Conditional Random Field)算法相比提高了2个百分点,且RE-SRL算法对于无类别关系抽取的F1值为94%,说明TIERE方法具有高效的实体关系抽取能力。
文摘研究了中文名词性谓词的语义角色标注(semantic role labeling,简称SRL).在使用传统动词性谓词SRL相关特征的基础上,进一步提出了名词性谓词SRL相关的特征集.此外,探索了中文动词性谓词SRL对中文名词性谓词SRL的影响,并且联合谓词自动识别实现了全自动的中文名词性谓词SRL.在中文NomBank上的实验结果表明,中文动词性谓词的SRL合理使用能够大幅度提高中文名词性谓词的SRL性能;基于正确句法树和正确谓词识别,中文名词性谓词的SRL性能F1值达到了72.67,大大优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1值为55.14.