维基百科(Wikipedia)现有搜索模块采用关键词匹配方式导致搜索效率相对低下.为了提高Wikipedia中的知识获取效率,提出基于链接分析的词间距算法(TDL,TermDistance based on Linkage).利用可扩展的计算模型,通过内部链接结构分析发现词簇...维基百科(Wikipedia)现有搜索模块采用关键词匹配方式导致搜索效率相对低下.为了提高Wikipedia中的知识获取效率,提出基于链接分析的词间距算法(TDL,TermDistance based on Linkage).利用可扩展的计算模型,通过内部链接结构分析发现词簇,并且引入排序和推荐机制.基于Wikipedia 2009年5月快照数据的实验表明,TDL有效增强了Wiki-pedia知识检索的准确性,经由用户评判检验证实TDL算法能有效提高用户意图识别度达7%.展开更多
研究了一种能够实现对数据型网页中信息实施实时采集的信息技术。该技术能够智能识别表格结构,自动分离数据项,在对数据项的分析判断过程中,采用从单词上分类(By W ords)和从表格排列方式(ByStructure)划分相结合的方法,以Ontology思想...研究了一种能够实现对数据型网页中信息实施实时采集的信息技术。该技术能够智能识别表格结构,自动分离数据项,在对数据项的分析判断过程中,采用从单词上分类(By W ords)和从表格排列方式(ByStructure)划分相结合的方法,以Ontology思想为支撑,融合支持向量机算法(SVM)和隐马尔可夫模型(HMM)等一系列成熟模型。最后通过测试并将该技术应用于TBT预警信息动态采集子系统中,收到良好效果。展开更多
文摘维基百科(Wikipedia)现有搜索模块采用关键词匹配方式导致搜索效率相对低下.为了提高Wikipedia中的知识获取效率,提出基于链接分析的词间距算法(TDL,TermDistance based on Linkage).利用可扩展的计算模型,通过内部链接结构分析发现词簇,并且引入排序和推荐机制.基于Wikipedia 2009年5月快照数据的实验表明,TDL有效增强了Wiki-pedia知识检索的准确性,经由用户评判检验证实TDL算法能有效提高用户意图识别度达7%.
文摘研究了一种能够实现对数据型网页中信息实施实时采集的信息技术。该技术能够智能识别表格结构,自动分离数据项,在对数据项的分析判断过程中,采用从单词上分类(By W ords)和从表格排列方式(ByStructure)划分相结合的方法,以Ontology思想为支撑,融合支持向量机算法(SVM)和隐马尔可夫模型(HMM)等一系列成熟模型。最后通过测试并将该技术应用于TBT预警信息动态采集子系统中,收到良好效果。