期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种自动发现、分割与标注引文元数据的方法 被引量:2
1
作者 高良才 汤帜 +1 位作者 陶欣 房婧 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第6期893-900,共8页
在总结现有的引文元数据抽取方法的基础上,针对引文的排版惯例——引文在文档内部风格一致,提出了一种新的引文元数据抽取方法。重点描述了以往研究中很少涉及的引文元数据的自动发现和分割,探讨了风格一致性在引文元数据标注中的应用... 在总结现有的引文元数据抽取方法的基础上,针对引文的排版惯例——引文在文档内部风格一致,提出了一种新的引文元数据抽取方法。重点描述了以往研究中很少涉及的引文元数据的自动发现和分割,探讨了风格一致性在引文元数据标注中的应用。实验结果表明此方法在引文元数据发现、分割和标注方面均取得了较好的效果。 展开更多
关键词 引文元数据 风格一致性 数据抽取 数字图书馆
下载PDF
引文元数据的自动发现和标注方法研究——以外文引文为例 被引量:3
2
作者 姜霖 王东波 《数据分析与知识发现》 CSSCI CSCD 2017年第1期47-54,共8页
【目的】在总结当前引文元数据抽取方法的基础上,结合语义学知识和机器学习方法,对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量... 【目的】在总结当前引文元数据抽取方法的基础上,结合语义学知识和机器学习方法,对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象,通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中,本文方法取得了较高的准确率和召回率,特别是针对引文中含有多种语言和缩写的现象,具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明,此方法在引文元数据的自动发现和标注上具有良好的效果,并能很大程度地提高方法的适用性和容错率。 展开更多
关键词 引文元数据 数据抽取 机器学习 神经网络
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部