针对民航旅客机上接打电话、扰乱其他乘客等各种不循规行为,提出了一种Tag+Bi-LSTM+CRF神经网络模型,可识别出不文明旅客实体信息。考虑到民航文本记录中一条语句中有多个实体,实体出现在句子中的模式可能包含有用的语义信息,将命名实...针对民航旅客机上接打电话、扰乱其他乘客等各种不循规行为,提出了一种Tag+Bi-LSTM+CRF神经网络模型,可识别出不文明旅客实体信息。考虑到民航文本记录中一条语句中有多个实体,实体出现在句子中的模式可能包含有用的语义信息,将命名实体识别任务中的字符通过BIOES标记方法标记后与词嵌入、位置嵌入串联,以丰富输入表示。首先,利用Yedda工具对民航旅客随机记录文本中的实体进行标注,结合词嵌入、位置嵌入作为模型输入,其次,采用双向长短时记忆网络(Bi-LSTM,bi-directional long short-term memory)模型获取序列文本的上下文特征,然后,通过条件随机场(CRF,conditional random field)模型获得序列标注结果,最后,分别在输入层和Bi-LSTM层添加dropout层,防止数据过拟合。实验结果表明,该模型在民航不文明旅客实体识别中精确率、召回率和F1均高达96%以上,能有效获取不文明旅客行为、等级、处罚、期限等信息。展开更多
文摘针对民航旅客机上接打电话、扰乱其他乘客等各种不循规行为,提出了一种Tag+Bi-LSTM+CRF神经网络模型,可识别出不文明旅客实体信息。考虑到民航文本记录中一条语句中有多个实体,实体出现在句子中的模式可能包含有用的语义信息,将命名实体识别任务中的字符通过BIOES标记方法标记后与词嵌入、位置嵌入串联,以丰富输入表示。首先,利用Yedda工具对民航旅客随机记录文本中的实体进行标注,结合词嵌入、位置嵌入作为模型输入,其次,采用双向长短时记忆网络(Bi-LSTM,bi-directional long short-term memory)模型获取序列文本的上下文特征,然后,通过条件随机场(CRF,conditional random field)模型获得序列标注结果,最后,分别在输入层和Bi-LSTM层添加dropout层,防止数据过拟合。实验结果表明,该模型在民航不文明旅客实体识别中精确率、召回率和F1均高达96%以上,能有效获取不文明旅客行为、等级、处罚、期限等信息。