-
题名基于概念扩充的中文文本过滤模型
被引量:7
- 1
-
-
作者
林鸿飞
战学刚
姚天顺
-
机构
东北大学计算机科学研究所
-
出处
《计算机科学》
CSCD
北大核心
2000年第2期88-90,82,共4页
-
基金
国家自然科学基金 编号:69675019
国家教委博士点基金
-
文摘
1 前言今天,以因特网为主体的信息高速公路仍在不断普及和发展,因特网上蕴涵的海量信息远远超过人们的想象,面对这样的信息汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”问题。如何帮助人们有效地选择和利用所感兴趣的信息,同时保证人们在信息选择方面的个人隐私权利?这已成为学术界和企业界所十分关注的焦点。因此。
-
关键词
中文文本
文本过滤模型
概念扩充
信息过滤
-
Keywords
text filtering,Boolean constrains,Vector space model,Concept expansion,passage match-ing, User profiles,Fuzzy logic
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于段落匹配和分布密度的偏重摘要实现机制
被引量:1
- 2
-
-
作者
林鸿飞
杨志豪
赵晶
-
机构
大连理工大学计算机系
-
出处
《中文信息学报》
CSCD
北大核心
2007年第1期43-48,共6页
-
基金
国家自然科学基金资助项目(6037309560673039)
-
文摘
本文提出了基于段落匹配和分布密度的偏重文本摘要实现机制,旨在满足摘要的个性化要求。首先在关键字同义扩充的基础上,利用基于侧面相似度的段落匹配方法,获取相关的文本段落集合。然后通过计算文本窗口的分布密度函数,获取关键字集聚区域,依据覆盖区域的句子权重,输出的最终偏重摘要。最后进行了评价实验,通过问答测验和相似比较,效果良好,而且表明偏重摘要对于多主题文本更为有效。
-
关键词
计算机应用
中文信息处理
文本摘要
偏重摘要
同义扩充
段落匹配
分布密度
-
Keywords
computer application
Chinese information processing
text summarization
query-biased summarization
synonymous expansion
passage match
density distribution
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名双语交叉分类模型的设计与实现
- 3
-
-
作者
林鸿飞
王剑峰
-
机构
大连理工大学计算机系
大连外国语学院计算机中心
-
出处
《中文信息学报》
CSCD
北大核心
2001年第6期27-32,共6页
-
文摘
利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法 ,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注 ,利用文本特征抽取机制提取类别特征项和文本特征项 ,通过基于概念扩充的对译映射规则自动生成类别和文本特征向量 ,在此基础上利用潜在语义分析 ,将双语文本在语义层面上统一起来 ,通过类别与文本的语义相似度进行分类。
-
关键词
双语交叉文本分类
概念扩充
潜在语义分析
空间向量模型
知识挖掘
语义相似度
文本特征抽取机制
-
Keywords
bi linguistic text categorization
conceptual expansion
latent semantic indexing
vector space model
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于段落匹配的文本分类机制
被引量:3
- 4
-
-
作者
郑海
林鸿飞
-
机构
海军大连水面舰艇学院航海系
大连理工大学计算机系
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第28期174-176,共3页
-
文摘
文本分类是海量文本组织和管理的重要方法,文章提出了基于段落匹配的文本分类机制。其基本思想是:对于文本特征向量进行概念扩充,减少特征项之间的相关性,增强特征项的表现能力。选取文本段落作为分类的基本要素,通过段落匹配的约束,防止由发散特征引起的假相关现象,从而获取较高精度的文本分类结果。
-
关键词
文本分类
概念扩充
段落匹配
-
Keywords
text categorization,conceptual expansion,passage match
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-