-
题名基于领域本体的文本分割方法研究
被引量:5
- 1
-
-
作者
刘耀
帅远华
龚幸伟
黄毅
-
机构
中国科学技术信息研究所
北京大学
-
出处
《计算机科学》
CSCD
北大核心
2018年第1期128-132,156,共6页
-
文摘
文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。
-
关键词
文本分割
领域本体
语义标注
语义段落
-
Keywords
Text segmentation
Domain ontology
Semantic annotation
Semantic paragraph
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-