期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于DIV标签分段的藏文网页正文提取研究
被引量:
4
1
作者
才让叁智
赵栋材
《西藏大学学报(社会科学版)》
CSSCI
2016年第2期70-77,共8页
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实...
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。
展开更多
关键词
藏文网页
分段
正文信息
div元素
标签
下载PDF
职称材料
题名
基于DIV标签分段的藏文网页正文提取研究
被引量:
4
1
作者
才让叁智
赵栋材
机构
西藏大学藏文信息技术研究中心
出处
《西藏大学学报(社会科学版)》
CSSCI
2016年第2期70-77,共8页
基金
2015年度西藏自治区自然科学基金项目"藏文搜索引擎关键技术研究"(项目号:2015ZR-14-9)
2015年度西藏自治区自然科学基金项目"基于逐字匹配的藏文分词技术与未登录词研究"(项目号:2015ZR-14-10)
2013年度国家自然科学基金重大项目"跨语言社会舆情分析基础理论与关键技术研究"(项目号:61331013)阶段性成果
文摘
文章针对藏文电子文献资源匮乏、文本资源不规整、收集困难等问题,提出了基于DIV标签分段的藏文网页正文提取算法,该算法将原始网页信息分割为页面信息中与DIV元素等量的信息段,再对段中标签等非正文信息进行删除,最终形成该页正文。实验表明,正文提取结果准确、通用性强,适用于互联网上不同模型的藏文网页。
关键词
藏文网页
分段
正文信息
div元素
标签
Keywords
Tibetan webpage
paragraphing
main body text information
div
element
tagging
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于DIV标签分段的藏文网页正文提取研究
才让叁智
赵栋材
《西藏大学学报(社会科学版)》
CSSCI
2016
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部