-
题名支持实体识别的XML编码方案
- 1
-
-
作者
李天辉
穆宝良
-
机构
沈阳师范大学科信软件学院
-
出处
《沈阳师范大学学报(自然科学版)》
CAS
2016年第4期473-478,共6页
-
基金
辽宁省教育厅科学研究一般项目(L2012388)
-
文摘
提出了XML文档的一种start-end-type(SET)编码方法,SET编码基于起止编码的思想,并把起止编码的三元组(start,end,level)改进为四元组(start,end,level,type),增加了表示XML文档中结点类型的type值。对四元组中的前3个值提出了新的实现算法,而第4个元素type值由前3个元素的值自动计算出来。SET编码不仅可以快速判断出结点之间的祖先/后代、父亲/孩子关系,而且还可以根据type值快速判断出XML文档中各结点的类型。经过实验测试,SET编码不仅具有良好的编码性能,还能根据各结点类型对XML数据进行实体识别,为进一步研究根据实体类型对XML数据进行查询提供条件。
-
关键词
大数据
起止编码
SET编码
深度优先遍历
实体结点
-
Keywords
big data
start-end coding
SET coding
depth first traversal
entity node
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-