期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于词表和N-gram算法的新词识别实验 被引量:7
1
作者 曹艳 杜慧平 +1 位作者 刘竟 侯汉清 《情报科学》 CSSCI 北大核心 2007年第11期1687-1691,1695,共6页
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键... 目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。 展开更多
关键词 N-gram算法 未登录词 新词识别 停用词典 过滤词典
下载PDF
基于词表和N-gram算法的新词识别实验 被引量:1
2
作者 曹艳 杜慧平 +1 位作者 刘竟 侯汉清 《中国索引》 2008年第1期49-54,共6页
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键... 目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。 展开更多
关键词 N-gram算法 未登录词 新词识别 停用词典 过滤词典
下载PDF
中文信息检索利器——TRS 4内容服务器
3
《中国计算机用户》 2000年第42期74-74,共1页
所谓全文检索(Full Text Retrieval),就是以各类数据诸如文字、声音、图像等为主要处理对象,提供根据数据资料的内容,而不是外在特征来实现的信息检索手段。它能提供快捷的数据管理工具和强大的数据查询手段,快速帮助人们进行大量文档... 所谓全文检索(Full Text Retrieval),就是以各类数据诸如文字、声音、图像等为主要处理对象,提供根据数据资料的内容,而不是外在特征来实现的信息检索手段。它能提供快捷的数据管理工具和强大的数据查询手段,快速帮助人们进行大量文档资料的整理和管理工作,使人们能快速方便地查到他们想要的任何信息。 展开更多
关键词 服务器 TRS 4 中文信息检索 分词词典 全文检索 机器检索 停用词典
下载PDF
基于N-Gram文本表达的新闻领域关键词词典构建研究 被引量:3
4
作者 吕美香 何琳 +2 位作者 李玥 杨敏 张越 《情报科学》 CSSCI 北大核心 2010年第4期571-574,615,共5页
在互联网环境下,新闻数量以海量方式增长,对其进行智能化分类、知识提取处理迫在眉睫。基于此,主要研究了如何在原有关键词词典的基础上,提出一种发现新词的方法,并将提取出的未登录词添加到原始词库中,从而构造一部数量适当、覆盖面全... 在互联网环境下,新闻数量以海量方式增长,对其进行智能化分类、知识提取处理迫在眉睫。基于此,主要研究了如何在原有关键词词典的基础上,提出一种发现新词的方法,并将提取出的未登录词添加到原始词库中,从而构造一部数量适当、覆盖面全、更新方便的关键词词典。基于大规模的新闻语料作为实验资源,采用了一种利用N-gram算法切分,用关键词抽词词典、停用词词典等过滤筛选非专名的新词识别方法。实验结果的测评表明这一方法是简便易行的。 展开更多
关键词 新闻领域 N-gram算法 新词识别 关键词词典 停用词典
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部