期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于汉明距离的文本相似度计算 被引量:58
1
作者 张焕炯 王国胜 钟义信 《计算机工程与应用》 CSCD 北大核心 2001年第19期21-22,共2页
传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式... 传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式,得到了一种全新的文本相似度的计算方法,与传统的方法相比较,它具有简便,快速等优点。 展开更多
关键词 INTERNET 汉明距离 文本相似度 信息检索 信息论
下载PDF
文本相似度计算的一种新方法 被引量:6
2
作者 张焕炯 李玉鉴 钟义信 《计算机科学》 CSCD 北大核心 2002年第7期92-93,共2页
1引言 目前信息检索技术已应用于许多领域,尤其广泛应用在Intcrnet网络、图书馆等领域,为快速查阅文本信息提供极大便利.文本信息检索利用文本相似度描述文本与查询式之间的匹配程度.
关键词 INTERNET 文本相似度计算 信息检索 向量空间模型 信息论
下载PDF
基于竞争分类的Web信息抽取 被引量:2
3
作者 李向阳 陆建江 张亚非 《电子学报》 EI CAS CSCD 北大核心 2004年第11期1915-1917,共3页
提出一种基于竞争分类的Web信息抽取方法 ,以信息片段与样本之间的相似度作为竞争力 ,通过信息片段对信息模板槽的竞争实现对信息片段的分类和噪声信息的过滤 ,直接从分类的角度抽取Web信息 .较之基于规则的信息抽取方法 ,竞争分类法只... 提出一种基于竞争分类的Web信息抽取方法 ,以信息片段与样本之间的相似度作为竞争力 ,通过信息片段对信息模板槽的竞争实现对信息片段的分类和噪声信息的过滤 ,直接从分类的角度抽取Web信息 .较之基于规则的信息抽取方法 ,竞争分类法只需用户提供少量的标记样本 .测试表明 ,该方法在没有用户提供特征提示信息的情况下 ,抽取信息仍能保持较高的准确率 ,适应性强 ;对数据项缺失和顺序变化较大的数据源 。 展开更多
关键词 信息抽取 竞争分类 特征提取 包装器生成
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部