期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于正文相关度的维吾尔网页正文提取
被引量:
2
1
作者
王瑞
周喜
李晓
《计算机工程》
CAS
CSCD
2012年第21期153-156,160,共5页
网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点...
网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。
展开更多
关键词
正文
提取
正文相关度
信息安全
自然语言处理
正文
密度
下载PDF
职称材料
题名
基于正文相关度的维吾尔网页正文提取
被引量:
2
1
作者
王瑞
周喜
李晓
机构
中国科学院新疆理化技术研究所
中国科学院研究生院
出处
《计算机工程》
CAS
CSCD
2012年第21期153-156,160,共5页
基金
新疆维吾尔自治区高技术研究发展基金资助项目(201012112)
新疆维吾尔自治区电子发展专项基金资助项目(XJDZZXZJ20109)
文摘
网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。
关键词
正文
提取
正文相关度
信息安全
自然语言处理
正文
密度
Keywords
content extraction
content correlativity
information security
natural language processing
content density
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于正文相关度的维吾尔网页正文提取
王瑞
周喜
李晓
《计算机工程》
CAS
CSCD
2012
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部