期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于 Regex 网页去噪 Hash 比对的网络爬虫无登陆微博采集技术 被引量:1
1
作者 陈宇 孟凡龙 +1 位作者 刘培玉 朱振方 《山东师范大学学报(自然科学版)》 CAS 2015年第3期14-17,20,共5页
针对当前微博采集无精确去噪方法和微博无法无登陆采集现象,笔者提出了基于 Regex 网页去噪 Hash 对比的网络爬虫采集方案并利用插件采集实现了无登陆采集。该方法通过 Regex 构建 DFA 和 NFA 模型来去除网页噪声,通过 Hash 对比对确... 针对当前微博采集无精确去噪方法和微博无法无登陆采集现象,笔者提出了基于 Regex 网页去噪 Hash 对比的网络爬虫采集方案并利用插件采集实现了无登陆采集。该方法通过 Regex 构建 DFA 和 NFA 模型来去除网页噪声,通过 Hash 对比对确定采集页面,并通过插件权限提升实现无登陆技术。有效的避免了 Hash 值的变化与网页内容变化产生偏离的现象,解决了网络爬虫虚拟登录时多次对 URL 采集造成的身份认证问题。实验表明,该方法可以实时快速的获取微博信息,为舆情数据分析提供批量精准的数据。 展开更多
关键词 regex Hash对比 网络去噪
下载PDF
Boost.Regex——C++正则表达式快速入门 被引量:4
2
作者 曹光琦 《程序员》 2004年第4期78-81,共4页
正则表达式如今在各种语言体系中都有广泛的应用,Boost.Rege×是 C++中最出色的正则表达式库。从本文中我们不光可以学习到正则表达式的使用,更能体会到泛型技术精妙所在。
关键词 正则表达式 泛型技术 C++ Boost.regex
下载PDF
基于Boost.Regex的网页信息抽取 被引量:1
3
作者 吴鹏飞 马凤娟 《电脑编程技巧与维护》 2009年第15期49-52,63,共5页
正则表达式是一种用于字符串模式匹配和替换的强有力工具。介绍了在VC++中如何配置Boost.Regex,实现基于正则表达式网页信息抽取类CHtmlcodeIE,从而完成了网页信息高效抽取。
关键词 正则表达式 Boost.regex 网页 信息抽取 VC++
下载PDF
基于词模式规则的轻量级日志模板提取方法
4
作者 顾兆军 张智凯 +1 位作者 刘春波 叶经纬 《现代电子技术》 北大核心 2024年第21期156-164,共9页
传统基于规则的日志解析方法针对每类日志需单独编写规则,且随着系统更新,出现新的日志模式时,需人工再次干预;基于深度学习的日志解析方法虽准确率高,但计算复杂度高。为解决日志解析方法人力成本和计算复杂度高的问题,文中提出一种基... 传统基于规则的日志解析方法针对每类日志需单独编写规则,且随着系统更新,出现新的日志模式时,需人工再次干预;基于深度学习的日志解析方法虽准确率高,但计算复杂度高。为解决日志解析方法人力成本和计算复杂度高的问题,文中提出一种基于词模式规则的轻量级日志模板提取方法,该方法由初始规则集生成、词模式规则应用、潜在错误样本发掘三个部分构成。首先,原始日志基于自适应随机抽样获取彼此间相似度较低的代表性日志;然后,基于专家反馈提取初始词模式规则集,在词模式规则应用模块对原始日志进行处理并提取日志模板;最后,在潜在错误样本发掘模块检查生成的日志模板聚类,发现潜在的错误分类样本并对其进行规则集更新。经过实验验证,在16个公开日志数据集上,文中方法的平均准确度达到97.8%,与基于深度学习的日志解析算法准确度基本持平;在计算效率方面,文中方法的单线程解析速度达到每秒20000条,且随着可用内核数量的增加,性能持续提升,满足系统日志的故障诊断和安全分析需求。 展开更多
关键词 日志解析 模板提取 词模式规则 正则匹配 启发式策略 规则集
下载PDF
C#中利用正则表达式提高数据录入效率 被引量:3
5
作者 张雪冰 韦璐 《安徽建筑工业学院学报(自然科学版)》 2007年第6期92-94,共3页
以家庭财务管理软件为例,探讨了在C#中运用正则表达式对用户输入的字符串进行处理,把用户以自然语言方式录入的数据正确地转换成数据库能识别的标准格式,从而提高数据库录入的效率。
关键词 C# 正则表达式 regex 数据录入
下载PDF
基于Python的Web数据采集技术 被引量:33
6
作者 齐鹏 李隐峰 宋玉伟 《电子科技》 2012年第11期118-120,共3页
针对Web数据采集技术进行了介绍,分析了Web数据采集技术在将非结构化数据转换为结构化数据方面的优势:速度快、准确性高。从HTTP协议层分析了Web数据抓取的原理,并重点介绍了如何实现基于Python的Web数据采集方案。Web数据采集系统可以... 针对Web数据采集技术进行了介绍,分析了Web数据采集技术在将非结构化数据转换为结构化数据方面的优势:速度快、准确性高。从HTTP协议层分析了Web数据抓取的原理,并重点介绍了如何实现基于Python的Web数据采集方案。Web数据采集系统可以分为:HTTP交互和数据解析两个模块。 展开更多
关键词 Web数据抓取 屏幕抓取 HTTP协议 PYTHON 正则表达式 XPATH
下载PDF
一种基于C++的CIS格式读取方法 被引量:1
7
作者 刘平 龚景海 《钢结构》 2009年第4期69-72,共4页
一种软件对数据标准的支持实际上就是支持对数据的读写,CIS(钢结构集成设计标准)标准作为一种新兴的、但相对稳定的标准数据结构也必然需要一种快速、有效的方法来实现其读写过程,但是目前国内对此研究的还非常少。基于此,在介绍CIS的同... 一种软件对数据标准的支持实际上就是支持对数据的读写,CIS(钢结构集成设计标准)标准作为一种新兴的、但相对稳定的标准数据结构也必然需要一种快速、有效的方法来实现其读写过程,但是目前国内对此研究的还非常少。基于此,在介绍CIS的同时,阐述了EXPRESS语言所对应的文本形式,并描述了其映射为文本文档的规则。着重讲述了如何把EXPRESS语言的文档解析成C++语言能够识别的数据。同时给出了读取CIS数据格式的具体实现方法,并以CIS系统中坐标点元素为例,详细说明了如何读取EXPRESS文档的方法及使用技巧,填补了国内空白,可供参考。 展开更多
关键词 EXPRESS语言 CIS标准 正则表达式 boost::regex IFC
下载PDF
基于正则表达式构建学习的网页信息抽取方法 被引量:9
8
作者 朱文琰 郑肖雄 《计算机应用与软件》 2017年第2期14-19,79,共7页
正则表达式作为信息抽取领域中的一种常用方法已经被广泛应用多年。然而构建高质量并且复杂度较高的正则表达式通常需要耗费大量人工成本,为此,提出一种基于正则表达式状态转换的算法来学习复杂正则表达式的构建过程。该算法需要给定输... 正则表达式作为信息抽取领域中的一种常用方法已经被广泛应用多年。然而构建高质量并且复杂度较高的正则表达式通常需要耗费大量人工成本,为此,提出一种基于正则表达式状态转换的算法来学习复杂正则表达式的构建过程。该算法需要给定输入初始正则以及正反例样本,初始正则表达式在经过析取分离与合并交叉两大类正则表达式状态转换之后,得到候选正则表达式集合,利用F值评估候选项的信息抽取效果,通过贪心的启发式策略选择一个最优正则表达式作为输出。在多种数据集上对算法进行测评。实验表明,该算法性能与准确度均优于常规的机器学习方法。尤其在较小规模训练集和跨数据集上依然有较好的效果。 展开更多
关键词 正则表达式构建 状态转换 WEB信息抽取
下载PDF
一种可扩展的格式化文件内容检查方法
9
作者 高宁 庞立会 《计算机工程与科学》 CSCD 北大核心 2012年第6期32-37,共6页
许多业务应用系统将数据以约定格式存放在文件中,通过文件传输实现远距离业务数据传送和处理。通过分析该类业务应用系统存在的安全威胁,本文首次提出了一种可扩展的格式化文件内容检查方法,设计并实现了格式化文件内容检查的原型系统FF... 许多业务应用系统将数据以约定格式存放在文件中,通过文件传输实现远距离业务数据传送和处理。通过分析该类业务应用系统存在的安全威胁,本文首次提出了一种可扩展的格式化文件内容检查方法,设计并实现了格式化文件内容检查的原型系统FFC-CIS。FFC-CIS使用正则表达式构造内容格式模板,在业务系统的数据处理之前实现文件内容的安全检查,很好地消除了数据文件被恶意篡改、非法文件传递等安全威胁。为了使内容格式模板的构建快速而便捷,本文还给出了一个基于字符串近似匹配技术的内容格式模板自动生成方法。 展开更多
关键词 正则表达式 字符串近似匹配 格式化文件 模式自动生成 可扩展
下载PDF
正则表达式在测量数据处理中的应用 被引量:2
10
作者 王成 杨建华 蒋光伟 《测绘科学》 CSCD 北大核心 2011年第2期208-209,220,共3页
本文介绍了正则表达式的基础知识,阐述了正则表达库regex在VC6.0开发平台下的使用,并结合C++语言编写了常用测量数据信息的提取。将正则表达式引入到测量数据处理中可以充分发挥正则表达式的强大功能,大大简化了数据处理的过程,提高了... 本文介绍了正则表达式的基础知识,阐述了正则表达库regex在VC6.0开发平台下的使用,并结合C++语言编写了常用测量数据信息的提取。将正则表达式引入到测量数据处理中可以充分发挥正则表达式的强大功能,大大简化了数据处理的过程,提高了工作效率,同时使代码更具有普遍性和可维护性。 展开更多
关键词 正则表达式 C++ BOOST regex 数据处理
原文传递
基于正则表达式和条件分支的大坝监测相关点计算模型
11
作者 郭曈曈 刘传武 +2 位作者 钱志金 朱志丹 花胜强 《水电自动化与大坝监测》 2013年第3期40-42,共3页
针对大坝安全监测系统中存在的相关点测值实时计算问题,提出了一种基于正则表达式和条件分支的本地化的用户自定义公式计算方法,即首先通过基于栈的正则表达式,分析与检验自定义公式的合法性和结构,确定运算顺序,然后迭代地匹配出本点... 针对大坝安全监测系统中存在的相关点测值实时计算问题,提出了一种基于正则表达式和条件分支的本地化的用户自定义公式计算方法,即首先通过基于栈的正则表达式,分析与检验自定义公式的合法性和结构,确定运算顺序,然后迭代地匹配出本点嵌套引用的其他测点测值定义、用户自定义函数符,并替换成数值或者系统函数调用,从而完成整个公式的运算。同时,实现基于条件分支的计算功能,使相关点计算过程中,可以按指定的条件选择相应的分支自定义公式进行计算。实践证明,本方法具有任意层相关点嵌套计算、常见数学函数支持、支持条件分支计算等优点,是一种具有良好工程应用价值的轻量级的计算方法。 展开更多
关键词 大坝监测 相关点计算 正则表达式
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部