期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于路径学习的信息自动抽取方法 被引量:7
1
作者 于琨 蔡智 +1 位作者 糜仲春 蔡庆生 《小型微型计算机系统》 CSCD 北大核心 2003年第12期2147-2149,共3页
针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习... 针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习的信息自动抽取方法 ,并采用该方法编制了一个商品价格信息自动抽取系统 .实验结果表明 ,该方法具有用户负担较轻 (只需用户提供 2~ 4个学习实例 )、查全率 (97.0 4~ 10 0 % )与查准率 (99~ 10 0 % )高、可实现大样本量信息抽取和时间资源耗费少 (抽取时间 <1秒 )等特点 ,能基本满足网页信息自动抽取的要求 . 展开更多
关键词 信息自动抽取 路径学习 互联网 网页结构分析 归纳学习
下载PDF
网络招聘文本技能信息自动抽取研究 被引量:9
2
作者 俞琰 陈磊 +1 位作者 姜金德 赵乃瑄 《图书情报工作》 CSSCI 北大核心 2019年第13期105-113,共9页
[目的/意义]针对目前网络招聘文本手工抽取技能信息无法满足大数据量分析要求的问题,提出一种针对大量网络招聘文本的技能信息自动抽取方法。[方法/过程]根据网络招聘文本的特点,利用依存句法分析选取候选技能,然后提出领域相关性指标... [目的/意义]针对目前网络招聘文本手工抽取技能信息无法满足大数据量分析要求的问题,提出一种针对大量网络招聘文本的技能信息自动抽取方法。[方法/过程]根据网络招聘文本的特点,利用依存句法分析选取候选技能,然后提出领域相关性指标衡量候选技能,将其融入传统的术语抽取方法之中,形成一种网络招聘文本技能信息自动抽取方法。[结果/结论]实验表明,本文提出的方法能够从网络招聘文本中自动、快速、准确地抽取技能信息。 展开更多
关键词 网络招聘文本 技能信息自动抽取 术语抽取
原文传递
半结构化网页中多记录信息的自动抽取方法 被引量:2
3
作者 朱明 王庆伟 《计算机仿真》 CSCD 2005年第12期95-97,142,共4页
从多记录网页中准确的自动抽取出需要的信息,是Web信息处理中的一个重要研究课题。针对现有方法对噪声敏感的缺点,该文提出了基于记录子树的最大相似度发现记录模式的思想,以在同类记录的表现模式存在一定差异的情况下正确识别记录。在... 从多记录网页中准确的自动抽取出需要的信息,是Web信息处理中的一个重要研究课题。针对现有方法对噪声敏感的缺点,该文提出了基于记录子树的最大相似度发现记录模式的思想,以在同类记录的表现模式存在一定差异的情况下正确识别记录。在此基础上,实现了多记录网页自动抽取系统,该系统可以从多个学术论文检索网站中,自动获取结果网页,并自动抽取其中的记录。对常见论文检索网站的实验表明了该系统具有较好的有效性和准确性。 展开更多
关键词 互联网挖掘 信息集成 自动信息抽取
下载PDF
一种基于维基百科的多语种翻译词汇自动抽取方法
4
作者 温家凯 《企业科技与发展》 2016年第7期129-133,共5页
多语种翻译词汇是解决跨语言信息检索中未登录词问题的有效途径,而高质量的翻译词汇特别是专有名词、新词和命名实体难以在普通词典中找到。文章提出一种从维基百科中自动抽取出多语种翻译词汇的方法,主要通过在维基百科离线数据文件中... 多语种翻译词汇是解决跨语言信息检索中未登录词问题的有效途径,而高质量的翻译词汇特别是专有名词、新词和命名实体难以在普通词典中找到。文章提出一种从维基百科中自动抽取出多语种翻译词汇的方法,主要通过在维基百科离线数据文件中根据其文件结构特征进行抽取。实验证明,该方法能够有效获取高质量的多语种翻译词汇。 展开更多
关键词 多语种翻译词汇 信息自动抽取 维基百科
下载PDF
基于机器学习的科技文摘关键词自动提取方法 被引量:15
5
作者 刘佳宾 陈超 +1 位作者 邵正荣 吉翔华 《计算机工程与应用》 CSCD 北大核心 2007年第14期170-172,共3页
提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取... 提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。 展开更多
关键词 信息自动抽取 决策树 词性分析 n_grams方法
下载PDF
基于脚本代码和局部数据匹配的网页抽取研究
6
作者 高永平 《计算机光盘软件与应用》 2014年第15期124-124,126,共2页
随着科技的进步互联网的普及,InYXrnXY逐渐成为我们日常生活中的重要角色,变成学习和社会生活中的一部分。随着网络的高速发展,导致用户对信息的需求量也越来越高。HYML作为WXD信息的主要载体在发展中逐渐变得复杂,内容变得丰富。WXD普... 随着科技的进步互联网的普及,InYXrnXY逐渐成为我们日常生活中的重要角色,变成学习和社会生活中的一部分。随着网络的高速发展,导致用户对信息的需求量也越来越高。HYML作为WXD信息的主要载体在发展中逐渐变得复杂,内容变得丰富。WXD普遍以HYML语言的形式出现,不用直接进行分析处理。WXD信息在网页信息抽取上可以分为手工抽取、半自动抽取、全自动抽取三种,对于网页信息抽取来说其发展的结果就是将逐步被全自动化网页信息抽取技术所取代。通过新方案对网页信息抽取上市进行总结,第一步网页控制代码树可以从网页脚本代码的嵌入转换而来,通过对网页信息抽取的最小编辑距离来动态的规划网页信息抽取的算法,并且将同类阈值的网页结合在一起,最后再根据网页自动生成的规则采取相应的容错性策略,完成对同类网页的抽取。 展开更多
关键词 自动网页信息抽取 脚本代码 控制代码树
下载PDF
用XML构造网络化多媒体课件 被引量:15
7
作者 杨静 顾君忠 刘盈盈 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2000年第2期28-36,共9页
在计算机辅助教育领域 ,传统的孤立的 (Individual)多媒体教育软件正在逐步失去市场 ,基于计算机网络尤其是基于Internet/Intranet的计算机辅助教学 (CAI)正在兴起。和传统的方法相比 ,网络化的CAI朝着分布化、结构化、协同化方向发展... 在计算机辅助教育领域 ,传统的孤立的 (Individual)多媒体教育软件正在逐步失去市场 ,基于计算机网络尤其是基于Internet/Intranet的计算机辅助教学 (CAI)正在兴起。和传统的方法相比 ,网络化的CAI朝着分布化、结构化、协同化方向发展。为了适应这种发展 ,需要新的课件 (Courseware)建模与构造方法。该文引入XML(ExtensibleMarkupLanguage)语言 ,提出利用其简洁、开放、可扩充等特征构造网络化多媒体课件的思想 ,从而合理而有效地解决多媒体课件中的资源共享、信息自动抽取等问题。 展开更多
关键词 多媒体课件 XML CAI 信息自动抽取 网络化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部