期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
汉维主题网页自动获取技术的研究 被引量:2
1
作者 梁建飞 吐尔根.依布拉音 +1 位作者 田生伟 赛依旦.阿不力米提 《计算机应用与软件》 CSCD 北大核心 2012年第1期42-45,共4页
为了获得大量用于机器翻译研究的汉维(维吾尔)文语料,提出一种从网页中自动获取主题信息的方法。考虑到有主题网页中主题信息分布相对集中、文本密度较高,并且这类网页中大量的噪音信息是由链接引入的,提出的算法首先将链接分为噪音链... 为了获得大量用于机器翻译研究的汉维(维吾尔)文语料,提出一种从网页中自动获取主题信息的方法。考虑到有主题网页中主题信息分布相对集中、文本密度较高,并且这类网页中大量的噪音信息是由链接引入的,提出的算法首先将链接分为噪音链接和非噪音链接,并在源码中删除噪音链接的锚文本和非噪音链接的HTML标签,然后利用容器标签将源码划分为若干部分并删除文本长度和文本密度均小于各自阈值的源码块。针对汉维网页做了实验,实验结果表明,算法在设置合适的阈值的情况下良好率达到90%以上。 展开更多
关键词 有主题网页 主题信息 噪音信息
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部