【目的】面向学术文献全文本抽取方法论实体,识别其在全文本中的标引特征及使用环境。【方法】基于字典、规则及人工标注的方式抽取包含方法论知识的特征句及方法论实体,借助Visual Studio 2012及SQL Server 2012实现方法论实体抽取核...【目的】面向学术文献全文本抽取方法论实体,识别其在全文本中的标引特征及使用环境。【方法】基于字典、规则及人工标注的方式抽取包含方法论知识的特征句及方法论实体,借助Visual Studio 2012及SQL Server 2012实现方法论实体抽取核心功能模块。【结果】方法论特征句抽取的准确率为76%,召回率大于42%;每个特征句中约包含1.42个方法论实体,方法论实体的正式标引比率低于27%,对特征句的正式标引比率低于35%,学科专用工具的正式标引率较低。【局限】系统特征句抽取准确率及召回率均较低,虽提供了人工标注界面加以辅助,但工作量较大,未基于语句关系等方法论知识的语义特征进行命名实体识别。【结论】学科专用方法论知识的学术价值被忽视;本研究所设计的方法论特征句及实体抽取方法具备多学科通用性,可进一步探讨方法论驱动的跨学科知识扩散路径。展开更多
文摘【目的】面向学术文献全文本抽取方法论实体,识别其在全文本中的标引特征及使用环境。【方法】基于字典、规则及人工标注的方式抽取包含方法论知识的特征句及方法论实体,借助Visual Studio 2012及SQL Server 2012实现方法论实体抽取核心功能模块。【结果】方法论特征句抽取的准确率为76%,召回率大于42%;每个特征句中约包含1.42个方法论实体,方法论实体的正式标引比率低于27%,对特征句的正式标引比率低于35%,学科专用工具的正式标引率较低。【局限】系统特征句抽取准确率及召回率均较低,虽提供了人工标注界面加以辅助,但工作量较大,未基于语句关系等方法论知识的语义特征进行命名实体识别。【结论】学科专用方法论知识的学术价值被忽视;本研究所设计的方法论特征句及实体抽取方法具备多学科通用性,可进一步探讨方法论驱动的跨学科知识扩散路径。