-
题名面向文本检索的语义计算
被引量:28
- 1
-
-
作者
赵军
金千里
徐波
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2005年第12期2068-2078,共11页
-
基金
国家自然科学基金(60372016)
北京市自然科学基金(4052027)资助.
-
文摘
随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高.作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.将语义计算技术应用于文本检索,是智能检索的重要方向.文中在文本检索的两个关键技术(“标引”和“相似度计算”)中引入语义计算技术,用浅层语义来指导检索过程,提高检索准确率.针对“标引”技术,提出了语义树模型;针对“相似度计算”,基于语义张量的概念,结合自然语言处理的一些技术,提出三个可计算的窗口模型来近似语义张量的核心思想.以上工作在一定程度上实现了语义计算的功能.利用TREC数据集进行的评测表明,采用了语义计算技术后,文本检索的准确率可以提高10%左右.
-
关键词
文本检索
自然语言处理
语义计算
语义树
语义张量
trec评测
-
Keywords
text retrieval
natural language processing
semantic computation
semantic tree
semantic tensor
trec evaluation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名关于“中文网页自动分类竞赛”结果的分析
被引量:6
- 2
-
-
作者
冯是聪
王继民
-
机构
北京大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2003年第5期34-40,共7页
-
基金
国家973重大基础研究项目资助(G1999032706)
-
文摘
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。
-
关键词
计算机应用
中文信息处理
机器学习
中文网页自动分类
trec评测
-
Keywords
computer application
Chinese information processing
machine learning
Chinese Web page automatic categorization
trec evaluation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向垃圾短信过滤的亚文档集成学习
被引量:1
- 3
-
-
作者
刘伍颖
王琳
-
机构
广东外语外贸大学语言工程与计算实验室
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2017年第3期59-64,共6页
-
基金
国家语言文字工作委员会重点项目(ZDI 135-26)
广东省高校特色创新项目(2015KTSCX035)
-
文摘
针对垃圾短信过滤问题,提出了一种亚文档集成学习方法.该方法采用亚文档集成学习框架将短文本在线二值分类问题转化成若干个子分类问题,并通过线性组合多个子问题的分类结果得出最终的分类预测.利用基于串频索引的文本分类算法实现了一种有效的弱分类器.实验数据表明亚文档集成学习框架能够提高现有文本分类算法的效能,而在亚文档集成学习框架下,基于串频索引的弱分类器过滤效果最佳.
-
关键词
垃圾短信过滤
亚文档集成学习
串频索引
trec评测
-
Keywords
SMS spam filtering
subdocument ensemble learning
string-frequency index
trec evaluation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-