-
题名采用开放语料库的跨领域模式自动获取
被引量:1
- 1
-
-
作者
曾兴杰
李芳
张冬茉
-
机构
上海交通大学计算机系
-
出处
《计算机仿真》
CSCD
2005年第4期259-263,293,共6页
-
文摘
信息抽取模式的自动获取不仅能极大地减少所需的工作量,而且对于信息抽取系统的可扩充性和可移植性都至关重要。该文提出的采用开放语料库的跨领域模式自动获取方法是采用开放的训练语料库来自动生成领域无关的抽取模式,借助模式和实例之间的二元性,不断获取新的语料对系统进行训练,从而克服以往训练语料库规模较小的缺点。该方法尽可能减少了领域相关性,领域移植的代价很小。由于采用开放语料,该文提出了一种通过机器学习使用统计模型来自动选取用于模式生成和评价的正反实例的方法。根据在投资领域的测试结果,该方法获得了较好的效果,模式抽取的平均查准率达到92%,平均召回率达到42.4%。
-
关键词
模式自动获取
开放语料库
跨领域
模式和实例的二元性
统计判断模型
正反实例判断
-
Keywords
Pattern acquisition
Dynamic training corpus
Domain portable
Duality between patterns and instances
Statistical model
Machine lea rning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名开放引文语料库实践案例及启示
被引量:3
- 2
-
-
作者
宋丹辉
-
机构
河南科技大学图书馆
-
出处
《数字图书馆论坛》
CSSCI
2017年第7期47-53,共7页
-
基金
国家社会科学基金青年项目"基于引文内容标注的引文数据开放关联模型及发布流程研究"(编号:17CTQ005)资助
-
文摘
开放引文数据作为一种新的开放关联数据,在国外已取得长足发展,而在国内还未开始建设。为缩小差距,本文以国外已发挥重要作用的开放引文项目为学习案例,深入分析其在数据规模、技术路线、元数据模型和工作流程方面的建设与实践,详细阐述其在解决引文数据不易获取、不一致、语义缺乏等问题的方法与特征,并从发展理念、关键步骤等方面总结经验,以期为我国引文数据开放关联建设提供建议。
-
关键词
引文数据
开放关联
开放引文语料库
-
Keywords
Citation Information
Openness and Relevance
Open Citations Corpus
-
分类号
G353.1
[文化科学—情报学]
-
-
题名基于统计的开放式汉语自动分词
- 3
-
-
作者
吴东峥
-
机构
集美大学计算机工程学院
-
出处
《福建电脑》
2009年第3期85-85,61,共2页
-
文摘
汉语自动分词在面向大规模真实文本时,仍然存在很多困难。本文在传统的语料库方法的基础上,提出一种基于开放性语料库的汉语自动分词方法。建立开放性语料库,并引入开放式知识库学习和评价机制。实验结果表明,开放机制的引入能有效提高汉语自动分词的精确率。
-
关键词
汉语自动分词
机器学习
开放式语料库
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP391.12
[自动化与计算机技术—计算机应用技术]
-