期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于启发式规则的多记录页面分隔符识别方法 被引量:1
1
作者 胡大洋 《软件导刊》 2009年第9期50-51,共2页
从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符,如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,能够很好... 从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符,如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,能够很好地解决多记录页面记录分割的问题。 展开更多
关键词 信息提取 半结构化信息 非结构化信息 记录边界 记录分隔符
下载PDF
一种发现多记录Web文档记录分隔符的方法
2
作者 胡大洋 陈金鑫 《计算机与信息技术》 2008年第8期10-12,共3页
从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符。如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。本文主要介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,... 从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符。如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。本文主要介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,能够很好地解决多记录页面记录分割的问题。实验证明该方法具有很高的准确性。 展开更多
关键词 信息提取 半结构化信息 非结构化信息 记录边界 记录分隔符
原文传递
采用CNMARC格式著录时应注意的几个问题
3
作者 翟可菊 《晋图学刊》 1997年第1期48-49,共2页
关键词 CNMARC格式著录 子字段 并列题名 指示符 200字段 机读目录 标识系统 功能块 记录分隔符 著录项目
下载PDF
巧用AWK编制查询程序
4
作者 张玉海 辛晓春 《中国金融电脑》 1996年第6期59-60,共2页
巧用AWK编制查询程序工商银行河北省张家口市分行科技科张玉海建设银行河北省张家口市分行人事处辛晓春XENIX系统是目前国内外比较流行的多用户分时操作系统,特别在金融界的应用日益广泛。银行业务由于其特殊性,大量“无用”... 巧用AWK编制查询程序工商银行河北省张家口市分行科技科张玉海建设银行河北省张家口市分行人事处辛晓春XENIX系统是目前国内外比较流行的多用户分时操作系统,特别在金融界的应用日益广泛。银行业务由于其特殊性,大量“无用”数据仍须长期保存,以备需要时查询使... 展开更多
关键词 字段分隔符 记录分隔符 命令文件 河北省张家口市 查询程序 动作语句 正则表达式 数据库 命令行 当前记录
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部