语义角色标注的传统方法采用基于句法特征的统计机器学习方法。由于依存句法可以表示词语之间的语义关系,故在语义角色标注中取得了较好的性能;但该方法存在特征抽取过程繁琐,难以捕捉句子中长距离依赖等问题。随着深度学习的兴起,研究...语义角色标注的传统方法采用基于句法特征的统计机器学习方法。由于依存句法可以表示词语之间的语义关系,故在语义角色标注中取得了较好的性能;但该方法存在特征抽取过程繁琐,难以捕捉句子中长距离依赖等问题。随着深度学习的兴起,研究者将基于双向长短时记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)神经网络模型用于语义角色标注。该模型可以自动学习特征,并对词与词之间的远距离依赖关系进行有效建模。本文提出融合Bi-LSTM-CRF模型与依存句法特征的方法,并且引入Gate过滤机制对词向量表示进行调整,以达到利用句法特征提高语义角色标注精度的同时,规避特征工程的繁琐。CPB上的实验结果表明,利用本文所提方法的汉语语义角色标注的F1值达到79.53%,比前人的方法有了较为显著的提升。展开更多
面对国家电网公司电子招投标业务的快速扩展,供应商在海量的招标文件中迅速而精确地提取相关信息变得尤为重要。本研究开发了一种适配国网招标文件特征的解析技术,旨在将数据结构化和可视化,以帮助供应商及时锁定投标机会并支持决策制...面对国家电网公司电子招投标业务的快速扩展,供应商在海量的招标文件中迅速而精确地提取相关信息变得尤为重要。本研究开发了一种适配国网招标文件特征的解析技术,旨在将数据结构化和可视化,以帮助供应商及时锁定投标机会并支持决策制定。通过对招标文件进行篇章分析、表格检测和文本纠错处理,获取了有效的数据输入。采用五种不同的解析算法模型对数据进行分析,并基于标注数据评估各模型性能。利用国网招标文件样本,经过模型定制与调优,构建了一个集成双向长短记忆网络(Bi-directional long short-term memory,Bi-LSTM)、条件随机场(conditional random fields,CRF)的解析模型。使用823份实际招标文件样本对模型进行了训练和对比测试,结果显示双向长短记忆融合模型的性能指标优于BERT+Bi-LSTM模型。此外,CRF层能够通过学习自动引入的约束条件来确保预测结果的准确性,从而显著提升解析效果。展开更多
文摘语义角色标注的传统方法采用基于句法特征的统计机器学习方法。由于依存句法可以表示词语之间的语义关系,故在语义角色标注中取得了较好的性能;但该方法存在特征抽取过程繁琐,难以捕捉句子中长距离依赖等问题。随着深度学习的兴起,研究者将基于双向长短时记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)神经网络模型用于语义角色标注。该模型可以自动学习特征,并对词与词之间的远距离依赖关系进行有效建模。本文提出融合Bi-LSTM-CRF模型与依存句法特征的方法,并且引入Gate过滤机制对词向量表示进行调整,以达到利用句法特征提高语义角色标注精度的同时,规避特征工程的繁琐。CPB上的实验结果表明,利用本文所提方法的汉语语义角色标注的F1值达到79.53%,比前人的方法有了较为显著的提升。
文摘面对国家电网公司电子招投标业务的快速扩展,供应商在海量的招标文件中迅速而精确地提取相关信息变得尤为重要。本研究开发了一种适配国网招标文件特征的解析技术,旨在将数据结构化和可视化,以帮助供应商及时锁定投标机会并支持决策制定。通过对招标文件进行篇章分析、表格检测和文本纠错处理,获取了有效的数据输入。采用五种不同的解析算法模型对数据进行分析,并基于标注数据评估各模型性能。利用国网招标文件样本,经过模型定制与调优,构建了一个集成双向长短记忆网络(Bi-directional long short-term memory,Bi-LSTM)、条件随机场(conditional random fields,CRF)的解析模型。使用823份实际招标文件样本对模型进行了训练和对比测试,结果显示双向长短记忆融合模型的性能指标优于BERT+Bi-LSTM模型。此外,CRF层能够通过学习自动引入的约束条件来确保预测结果的准确性,从而显著提升解析效果。