隐私政策文档声明了应用程序需要获取的隐私信息,但不能保证清晰且完全披露应用获取的隐私信息类型,目前对应用实际敏感行为与隐私政策一致性分析的研究仍存在不足。针对上述问题,提出一种Android应用敏感行为与隐私政策一致性分析方法...隐私政策文档声明了应用程序需要获取的隐私信息,但不能保证清晰且完全披露应用获取的隐私信息类型,目前对应用实际敏感行为与隐私政策一致性分析的研究仍存在不足。针对上述问题,提出一种Android应用敏感行为与隐私政策一致性分析方法。在隐私政策分析阶段,基于Bi-GRU-CRF(Bi-directional Gated Recurrent Unit Conditional Random Field)神经网络,通过添加自定义标注库对模型进行增量训练,实现对隐私政策声明中的关键信息的提取;在敏感行为分析阶段,通过对敏感应用程序接口(API)调用进行分类、对输入敏感源列表中已分析过的敏感API调用进行删除,以及对已提取过的敏感路径进行标记的方法来优化IFDS(Interprocedural,Finite,Distributive,Subset)算法,使敏感行为分析结果与隐私政策描述的语言粒度相匹配,并且降低分析结果的冗余,提高分析效率;在一致性分析阶段,将本体之间的语义关系分为等价关系、从属关系和近似关系,并据此定义敏感行为与隐私政策一致性形式化模型,将敏感行为与隐私政策一致的情况分为清晰的表述和模糊的表述,将不一致的情况分为省略的表述、不正确的表述和有歧义的表述,最后根据所提基于语义相似度的一致性分析算法对敏感行为与隐私政策进行一致性分析。实验结果表明,对928个应用程序进行分析,在隐私政策分析正确率为97.34%的情况下,51.4%的Android应用程序存在应用实际敏感行为与隐私政策声明不一致的情况。展开更多
针对覆盖引导的模糊测试(CGF)中存在大量无效变异且造成性能浪费的问题,提出一种自适应敏感区域变异算法。首先,根据变异出的测试用例是否执行新路径将对应的变异位置分为有效变异位置集合和无效变异位置集合;然后,基于有效变异位置确...针对覆盖引导的模糊测试(CGF)中存在大量无效变异且造成性能浪费的问题,提出一种自适应敏感区域变异算法。首先,根据变异出的测试用例是否执行新路径将对应的变异位置分为有效变异位置集合和无效变异位置集合;然后,基于有效变异位置确定敏感区域,将后续的变异集中在敏感区域内。在后续的模糊测试过程中,根据测试用例的执行结果自适应地调整对应种子的敏感区域,减少无效变异。此外,设计新的种子选择策略配合敏感区域变异。将自适应敏感区域算法集成至美国模糊循环(AFL),并将它命名为SMAFL(Sensitive-region-based Mutation American Fuzzy Lop)。在12个流行的应用程序上评估SMAFL,实验结果表明,与AFL相比,当初始种子数为1时,SMAFL发现的路径数平均提升了31.4%,模糊次数增加了3.4倍;并且在12个程序中都实现了更高的代码覆盖率。在对LAVA-M数据集的测试中,SMAFL比AFL多发现2个bug,并且发现相同bug所用时间更短。整体地,自适应敏感区域变异算法能提升模糊测试器的探索效率。展开更多
文摘隐私政策文档声明了应用程序需要获取的隐私信息,但不能保证清晰且完全披露应用获取的隐私信息类型,目前对应用实际敏感行为与隐私政策一致性分析的研究仍存在不足。针对上述问题,提出一种Android应用敏感行为与隐私政策一致性分析方法。在隐私政策分析阶段,基于Bi-GRU-CRF(Bi-directional Gated Recurrent Unit Conditional Random Field)神经网络,通过添加自定义标注库对模型进行增量训练,实现对隐私政策声明中的关键信息的提取;在敏感行为分析阶段,通过对敏感应用程序接口(API)调用进行分类、对输入敏感源列表中已分析过的敏感API调用进行删除,以及对已提取过的敏感路径进行标记的方法来优化IFDS(Interprocedural,Finite,Distributive,Subset)算法,使敏感行为分析结果与隐私政策描述的语言粒度相匹配,并且降低分析结果的冗余,提高分析效率;在一致性分析阶段,将本体之间的语义关系分为等价关系、从属关系和近似关系,并据此定义敏感行为与隐私政策一致性形式化模型,将敏感行为与隐私政策一致的情况分为清晰的表述和模糊的表述,将不一致的情况分为省略的表述、不正确的表述和有歧义的表述,最后根据所提基于语义相似度的一致性分析算法对敏感行为与隐私政策进行一致性分析。实验结果表明,对928个应用程序进行分析,在隐私政策分析正确率为97.34%的情况下,51.4%的Android应用程序存在应用实际敏感行为与隐私政策声明不一致的情况。
文摘针对覆盖引导的模糊测试(CGF)中存在大量无效变异且造成性能浪费的问题,提出一种自适应敏感区域变异算法。首先,根据变异出的测试用例是否执行新路径将对应的变异位置分为有效变异位置集合和无效变异位置集合;然后,基于有效变异位置确定敏感区域,将后续的变异集中在敏感区域内。在后续的模糊测试过程中,根据测试用例的执行结果自适应地调整对应种子的敏感区域,减少无效变异。此外,设计新的种子选择策略配合敏感区域变异。将自适应敏感区域算法集成至美国模糊循环(AFL),并将它命名为SMAFL(Sensitive-region-based Mutation American Fuzzy Lop)。在12个流行的应用程序上评估SMAFL,实验结果表明,与AFL相比,当初始种子数为1时,SMAFL发现的路径数平均提升了31.4%,模糊次数增加了3.4倍;并且在12个程序中都实现了更高的代码覆盖率。在对LAVA-M数据集的测试中,SMAFL比AFL多发现2个bug,并且发现相同bug所用时间更短。整体地,自适应敏感区域变异算法能提升模糊测试器的探索效率。