期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于正文相关度的维吾尔网页正文提取 被引量:2
1
作者 王瑞 周喜 李晓 《计算机工程》 CAS CSCD 2012年第21期153-156,160,共5页
网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点... 网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。 展开更多
关键词 正文提取 正文相关度 信息安全 自然语言处理 正文密度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部