在科学研究过程中,科研人员需要考虑针对不同的研究问题选择合适的研究方法,有时还会对研究方法进行优化,从而更好地解决研究问题。因此,研究方法往往是解决研究问题的关键,是学术文献的重要知识。帮助科研人员快速发现学术文献全文内...在科学研究过程中,科研人员需要考虑针对不同的研究问题选择合适的研究方法,有时还会对研究方法进行优化,从而更好地解决研究问题。因此,研究方法往往是解决研究问题的关键,是学术文献的重要知识。帮助科研人员快速发现学术文献全文内容中蕴含的方法实体,为其推荐适用于自身研究问题的关键解决方法提供实践参考,可以提高科研人员解决问题的效率。当前相关研究缺乏对方法实体之间共现关系的分析,未充分挖掘学术文献中蕴含的丰富知识。为此,本研究以自然语言处理领域为例,将方法实体细分为算法、数据集、指标以及工具4种类型,并标注了50篇论文作为训练语料。本研究构建了CRF(conditional random field)、BiLSTM(bi-directional long short-term memory)+CRF等4种实体抽取模型。研究结果表明,SciBERT(scientific bidirectional encoder representations from transformers)+CRF模型的性能最优。以ACL年会(Annual Meeting of the Association for Computational Linguistics)在2001—2020年共20年收录的论文全文数据为基础,进一步分析抽取出的方法实体的使用情况。本研究结合经典关联规则挖掘算法Apriori和卡方值构建方法实体共现数据集,并分析方法实体的演化。研究结果揭示了方法实体间的共现关系及其整体演化情况,可辅助特定领域的科研人员寻找合适的研究方法。展开更多
文摘在科学研究过程中,科研人员需要考虑针对不同的研究问题选择合适的研究方法,有时还会对研究方法进行优化,从而更好地解决研究问题。因此,研究方法往往是解决研究问题的关键,是学术文献的重要知识。帮助科研人员快速发现学术文献全文内容中蕴含的方法实体,为其推荐适用于自身研究问题的关键解决方法提供实践参考,可以提高科研人员解决问题的效率。当前相关研究缺乏对方法实体之间共现关系的分析,未充分挖掘学术文献中蕴含的丰富知识。为此,本研究以自然语言处理领域为例,将方法实体细分为算法、数据集、指标以及工具4种类型,并标注了50篇论文作为训练语料。本研究构建了CRF(conditional random field)、BiLSTM(bi-directional long short-term memory)+CRF等4种实体抽取模型。研究结果表明,SciBERT(scientific bidirectional encoder representations from transformers)+CRF模型的性能最优。以ACL年会(Annual Meeting of the Association for Computational Linguistics)在2001—2020年共20年收录的论文全文数据为基础,进一步分析抽取出的方法实体的使用情况。本研究结合经典关联规则挖掘算法Apriori和卡方值构建方法实体共现数据集,并分析方法实体的演化。研究结果揭示了方法实体间的共现关系及其整体演化情况,可辅助特定领域的科研人员寻找合适的研究方法。