期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于DIV标签分段的藏文网页正文提取研究 被引量:4
1
作者 才让叁智 赵栋材 《西藏大学学报(社会科学版)》 CSSCI 2016年第2期70-77,共8页
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实... 文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。 展开更多
关键词 藏文网页 分段 正文信息 div元素 标签
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部