现有的医学健康问句数据大多数都是短文本,但短文本存在特征稀疏的局限性。对此,提出一种融合特征的方法,首先通过基于变换器的双向编码器表征技术(Bidirectional Encoder Representations from Transformers,BERT)字符级特征的输出取...现有的医学健康问句数据大多数都是短文本,但短文本存在特征稀疏的局限性。对此,提出一种融合特征的方法,首先通过基于变换器的双向编码器表征技术(Bidirectional Encoder Representations from Transformers,BERT)字符级特征的输出取平均并与BERT句子级特征的输出进行拼接,然后使用分类器进行分类。实验结果表明,本模型可以有效地提高模型提取特征的能力,在处理Kesci公众健康问句分类数据集上F1值达到83.92%,在处理中文健康公众问句数据集时F1值达到87%。展开更多
文摘现有的医学健康问句数据大多数都是短文本,但短文本存在特征稀疏的局限性。对此,提出一种融合特征的方法,首先通过基于变换器的双向编码器表征技术(Bidirectional Encoder Representations from Transformers,BERT)字符级特征的输出取平均并与BERT句子级特征的输出进行拼接,然后使用分类器进行分类。实验结果表明,本模型可以有效地提高模型提取特征的能力,在处理Kesci公众健康问句分类数据集上F1值达到83.92%,在处理中文健康公众问句数据集时F1值达到87%。