-
题名开放域上基于深度语义计算的复述模板获取方法
被引量:4
- 1
-
-
作者
刘明童
张玉洁
徐金安
陈钰枫
-
机构
北京交通大学计算机与信息技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2018年第2期94-101,共8页
-
基金
北京交通大学人才基金(KKRC11001532)
国家自然科学基金(61370130
+1 种基金
61473294)
北京市自然科学基金(4172047)
-
文摘
利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先设计基于统计特征的模板裁剪方法,从非复述语料中获取高质量的关系模板,然后设计基于深度语义计算的关系模板聚类方法获取高精度的复述模板。我们在四类实体关系数据上的实验结果表明,该方法实现了关系模板的自动获取与自动聚类,可以获得语义相近度更高、表现形式多样的复述模板。
-
关键词
关系模板
复述模板
深度语义计算
自动聚类
-
Keywords
relational pattern
paraphrasing pattern
deep semantic computing
automatic clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合深度语义表示的开放域复述模板抽取
被引量:1
- 2
-
-
作者
金波
刘明童
张玉洁
徐金安
陈钰枫
-
机构
北京交通大学计算机与信息技术学院
-
出处
《情报工程》
2021年第5期40-50,共11页
-
基金
国家自然科学基金(61876198,61976015,61370130,61473294)
北京市自然科学基金(4172047)
科学技术部国际科技合作计划(K11F100010)
-
文摘
[目的/意义]复述知识在自然语言处理领域应用广泛,例如复述生成、自动问答、复述数据构建等,复述模板是复述知识的一种抽象表现形式。[方法/过程]早期复述模板抽取方法依赖复述实例和可比语料,近年来,有研究在人工给定种子实体对的基础上,利用实体关系,通过自举迭代的方式获取复述模板,规避对特定语料依赖,但是只能获得语义受限的复述模板,且迭代过程中存在语义偏移现象。因此本文提出从英文维基百科的大规模开放域文本中自动获取复述模板的思路,针对问题,设计融合深度语义表示学习的复述模板抽取方法,从大规模开放域文本中抽取高精度多样化的复述模板。[结果/结论]实验结果表明,本文所提方法可以获取高质量、语义一致、形式多样的复述模板。
-
关键词
复述模板
语义表示
自动聚类
-
Keywords
Paraphrase template
semantic representation
automatic clustering
-
分类号
G35
[文化科学—情报学]
TP391
[自动化与计算机技术—计算机应用技术]
-