摘要
社交网络用户的规模日益增加,数以亿计的信息在网站交互和保存。高昂的信息泄露成本和严重的泄露后果使得评估社交网络用户的隐私评价变得更加迫切。目前,国内外现有的隐私检测机制多是针对特定事件、位置或用户社区设计的,目前还没有工具或标准方法来检测用户生成内容中是否存在隐私信息,并提醒用户丢失其私人数据的可能性或漏洞。 针对目前存在的问题,本文选取了容易出现高度隐私披露的私人、职业和健康三个领域,以领域内五十三个关键词作为查询词获取对应的微博文本,通过数据清洗和人工打标,选择文本分类效果更好的Text-CNN算法构建了用户生成内容的隐私评价模型。本文的模型可以用来识别和评估隐私泄露影响的程度(社交网站的风险敞口水平)并帮助政府或平台确定来对抗隐私泄露影响的措施。