随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整...随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整合利用的方法。针对以上问题,该文基于BERT(bidirectional encoder representation from transformers)模型对命名实体抽取技术展开研究。一方面,增加了双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)层进一步提取文本语义信息;另一方面,采用条件随机场(conditional random field,CRF)替换了BERT的输出层,克服了预测标签的局部最优问题。最后融合以上2种策略提出了改进BERT算法,即将BERT与双向长短记忆网络和条件随机场相结合,实现了缺陷文本的命名实体抽取。实验结果表明,改进BERT算法在7类实体上均取得了较高的F1值(精确率和召回率的加权调和平均值)。与BERT相比,实体抽取的总体精确率和召回率分别提升了0.94%和0.95%。展开更多
In the digital age, phishing attacks have been a persistent security threat leveraged by traditional password management systems that are not able to verify the authenticity of websites. This paper presents an approac...In the digital age, phishing attacks have been a persistent security threat leveraged by traditional password management systems that are not able to verify the authenticity of websites. This paper presents an approach to embedding sophisticated phishing detection within a password manager’s framework, called PhishGuard. PhishGuard uses a Large Language Model (LLM), specifically a fine-tuned BERT algorithm that works in real time, where URLs fed by the user in the credentials are analyzed and authenticated. This approach enhances user security with its provision of real-time protection from phishing attempts. Through rigorous testing, this paper illustrates how PhishGuard has scored well in tests that measure accuracy, precision, recall, and false positive rates.展开更多
针对推荐系统中用户评分数据稀疏所导致推荐结果不精确的问题,本文尝试将用户评分、信任关系和项目评论文本信息融合在概率矩阵分解方法中以缓解评分数据稀疏性问题.首先以共同好友数目及项目流行度改进皮尔逊用户偏好相似程度并将其作...针对推荐系统中用户评分数据稀疏所导致推荐结果不精确的问题,本文尝试将用户评分、信任关系和项目评论文本信息融合在概率矩阵分解方法中以缓解评分数据稀疏性问题.首先以共同好友数目及项目流行度改进皮尔逊用户偏好相似程度并将其作为用户间的直接信任值,然后考虑用户间信任传播过程中所有路径的影响构建新的信任网络;其次通过BERT预训练(Pre-training of Deep Bidirectional Transformers for Language Understanding)模型提取项目的评论文本向量,构造项目的评论文本特征矩阵;最后基于概率矩阵分解(Probabilistic Matrix Factorization,PMF)模型融合用户的评分数据、用户的信任关系以及项目的评论文本信息进行推荐.通过不断的理论分析并在真实的Yelp数据集上进行实验验证,均表明本文算法的有效性.展开更多
文摘随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整合利用的方法。针对以上问题,该文基于BERT(bidirectional encoder representation from transformers)模型对命名实体抽取技术展开研究。一方面,增加了双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)层进一步提取文本语义信息;另一方面,采用条件随机场(conditional random field,CRF)替换了BERT的输出层,克服了预测标签的局部最优问题。最后融合以上2种策略提出了改进BERT算法,即将BERT与双向长短记忆网络和条件随机场相结合,实现了缺陷文本的命名实体抽取。实验结果表明,改进BERT算法在7类实体上均取得了较高的F1值(精确率和召回率的加权调和平均值)。与BERT相比,实体抽取的总体精确率和召回率分别提升了0.94%和0.95%。
基金国家自然科学基金青年科学基金项目“基于多数据源融合的新兴技术创新路径识别与动态选择研究”(71704139)中国留学基金管理委员会中法“蔡元培”交流合作项目“Technology driven transfer modes:innovation impact and mechanisms for implementation in companies”(留金欧[2020] 639,202006965024)。
文摘专利分析作为评判科技创新能力、识别市场转化趋势的有力工具,是国家新一轮科技革命与产业变革先手布局的重要依据,而制定合理、高效的专利检索策略是实现专利分析的有效前提。本文提出了一套基于深度学习算法的检索策略,补足了已有研究动态性不足、智能化不够的短板。本文模型主要包括检索策略的制定和检索结果的修正两个部分。在检索策略构建方面,本文旨在系统剖析技术组成原理的基础上,融合深度学习算法,从通用语料与领域语料两个维度训练模型,以完成检索要素的筛选,并基于此,依据要素间的语义关联进行初始检索策略的构建;在检索结果修正方面,综合聚类分析、文献计量与BERT (bidirectional encoder representations from transformers)深度学习算法,进一步采用动态修正策略,对检索结果进行多轮迭代修正,有效提升检索结果的精准性与全面性。本文以“微波无线能量传输”领域为例展开实证分析,验证了本文方案的可行性与通用性,为科技数据的精准获取提供了有意义的研究方案。
文摘In the digital age, phishing attacks have been a persistent security threat leveraged by traditional password management systems that are not able to verify the authenticity of websites. This paper presents an approach to embedding sophisticated phishing detection within a password manager’s framework, called PhishGuard. PhishGuard uses a Large Language Model (LLM), specifically a fine-tuned BERT algorithm that works in real time, where URLs fed by the user in the credentials are analyzed and authenticated. This approach enhances user security with its provision of real-time protection from phishing attempts. Through rigorous testing, this paper illustrates how PhishGuard has scored well in tests that measure accuracy, precision, recall, and false positive rates.
文摘针对推荐系统中用户评分数据稀疏所导致推荐结果不精确的问题,本文尝试将用户评分、信任关系和项目评论文本信息融合在概率矩阵分解方法中以缓解评分数据稀疏性问题.首先以共同好友数目及项目流行度改进皮尔逊用户偏好相似程度并将其作为用户间的直接信任值,然后考虑用户间信任传播过程中所有路径的影响构建新的信任网络;其次通过BERT预训练(Pre-training of Deep Bidirectional Transformers for Language Understanding)模型提取项目的评论文本向量,构造项目的评论文本特征矩阵;最后基于概率矩阵分解(Probabilistic Matrix Factorization,PMF)模型融合用户的评分数据、用户的信任关系以及项目的评论文本信息进行推荐.通过不断的理论分析并在真实的Yelp数据集上进行实验验证,均表明本文算法的有效性.