-
题名基于汉明距离的文本相似度计算
被引量:58
- 1
-
-
作者
张焕炯
王国胜
钟义信
-
机构
北京邮电大学信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2001年第19期21-22,共2页
-
基金
国家自然科学基金资助项目(编号:69982001)
-
文摘
传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系。该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式,得到了一种全新的文本相似度的计算方法,与传统的方法相比较,它具有简便,快速等优点。
-
关键词
INTERNET
汉明距离
文本相似度
信息检索
信息论
-
Keywords
tests classification,information retrieval,hamming distance
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
-
-
题名文本相似度计算的一种新方法
被引量:6
- 2
-
-
作者
张焕炯
李玉鉴
钟义信
-
机构
北京邮电大学信息工程学院
-
出处
《计算机科学》
CSCD
北大核心
2002年第7期92-93,共2页
-
基金
国家自然科学基金(项目编号69982001)
-
文摘
1引言
目前信息检索技术已应用于许多领域,尤其广泛应用在Intcrnet网络、图书馆等领域,为快速查阅文本信息提供极大便利.文本信息检索利用文本相似度描述文本与查询式之间的匹配程度.
-
关键词
INTERNET
文本相似度计算
信息检索
向量空间模型
信息论
-
Keywords
tests classification. information retrieval, hamming distance
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354
[文化科学—情报学]
-
-
题名基于竞争分类的Web信息抽取
被引量:2
- 3
-
-
作者
李向阳
陆建江
张亚非
-
机构
解放军理工大学通信工程学院
东南大学计算机科学与工程系
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2004年第11期1915-1917,共3页
-
基金
国家自然科学基金 (No .60 30 30 2 4 )
-
文摘
提出一种基于竞争分类的Web信息抽取方法 ,以信息片段与样本之间的相似度作为竞争力 ,通过信息片段对信息模板槽的竞争实现对信息片段的分类和噪声信息的过滤 ,直接从分类的角度抽取Web信息 .较之基于规则的信息抽取方法 ,竞争分类法只需用户提供少量的标记样本 .测试表明 ,该方法在没有用户提供特征提示信息的情况下 ,抽取信息仍能保持较高的准确率 ,适应性强 ;对数据项缺失和顺序变化较大的数据源 。
-
关键词
信息抽取
竞争分类
特征提取
包装器生成
-
Keywords
Algorithms
classification (of information)
Data processing
Feature extraction
information retrieval
Testing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-