期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
面向非结构化文本的开放式实体属性抽取 被引量:11
1
作者 曾道建 来斯惟 +2 位作者 张元哲 刘康 赵军 《江西师范大学学报(自然科学版)》 CAS 北大核心 2013年第3期279-283,305,共6页
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取... 从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性. 展开更多
关键词 属性抽取 非结构化 信息框 百度百科
下载PDF
基于Wiki技术的标准术语库的设计与实现 被引量:2
2
作者 王莉 梁冰 +2 位作者 郝春云 朱晓华 白海燕 《数字图书馆论坛》 2011年第3期44-51,共8页
Wiki在知识协作方面的便利性,使其逐渐成为人类历史上一种崭新的、高效率的知识积累方式。文章提出基于Wiki技术构建标准术语数据库建设方案,旨在集合大众力量进行知识共建;同时,利用Wiki自定义信息模板功能,在wiki用户界面下模拟... Wiki在知识协作方面的便利性,使其逐渐成为人类历史上一种崭新的、高效率的知识积累方式。文章提出基于Wiki技术构建标准术语数据库建设方案,旨在集合大众力量进行知识共建;同时,利用Wiki自定义信息模板功能,在wiki用户界面下模拟实现了数据的结构化存储与查询,以及自动抽取批量发布的功能,并在实际应用中取得了良好效果,对充分发挥标准术语的知识价值、促进标准的宣贯具有积极作用。建设实践中数据质量通过术语描述规范和术语提交审订流程控制,文章对其闻可能涉及的知识产权风险进行了说明。 展开更多
关键词 标准术语 标准术语数据库 WIKI MediaWiki 信息模板 知识产权
下载PDF
中文维基百科的实体分类研究 被引量:1
3
作者 徐志浩 惠浩添 +1 位作者 钱龙华 朱巧明 《中文信息学报》 CSCD 北大核心 2015年第5期91-97,124,共8页
维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来... 维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。 展开更多
关键词 维基百科 实体分类 半结构化信息 信息框
下载PDF
基于序列到序列模型的文本到信息框生成的研究 被引量:1
4
作者 鲍军威 周明 赵铁军 《智能计算机与应用》 2019年第3期1-5,10,共6页
本文展示了一种序列到序列的模型(Seq2Seq)来基于文本生成信息框(Infobox),信息框指的是一组"属性-值"对。该模型以端到端的方式工作,可利用一个编码器将一个文本段落表示成一个隐向量序列,然后通过解码器来生成信息框。本文... 本文展示了一种序列到序列的模型(Seq2Seq)来基于文本生成信息框(Infobox),信息框指的是一组"属性-值"对。该模型以端到端的方式工作,可利用一个编码器将一个文本段落表示成一个隐向量序列,然后通过解码器来生成信息框。本文在WIKIBIO数据集上进行实验。研究提出的序列到序列模型取得了58.2的F1值,该结果比流水线式的基准方法显著提升了21.0个百分点。实验结果表明,本模型具有以生成序列的方式来生成"属性-值"对的能力。引入注意力与拷贝机制可以提升模型的准确率。更重要的是,研究观察到该拷贝机制有能力从输入文本中拷贝稀有词来生成目标端信息框中的"值"。 展开更多
关键词 文本到信息框生成 序列到序列模型 注意力机制 拷贝机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部