披上AI战衣的中国APP,正在让印度节节败退
https://www.toutiao.com/a6651824862673240589/
2019-01-29 15:57:44
本文内容来自学术空间ScholarSpace(ID:C-DBLP)
近日,抖音发布公告表示新用户无法以微信授权登录,也即抖音登陆被微信封杀了。而微信回应称,这么做是为了保护用户隐私。
这一事件无疑给愈演愈烈的“头腾”大战加了一把火,也将互联网时代的用户隐私话题再一次被提上了风口浪尖。
大规模数据收集问题日益严重,造成诸多隐私风险,并引发了大量社会问题。政府立法立规和企业隐私治理是解决该问题的重要途径。然而,目前政策法规和企业规范的制定仍亟需客观依据。
基于此,中国人民大学网络与移动数据管理实验室与国内最大的移动大数据服务商极光合作(由极光提供数据支持),基于3000万移动设备的App数据构建隐私风险量化模型,制定了中国隐私风险指数体系并总结形成2018年度《中国隐私风险指数分析报告》,可以为我国相应的法律法规和行业规范制定提供客观依据。
针对这次抖音和微信的争端,报告主创团队表示,“大战”的双方——“今日头条”和“腾讯”两家互联网巨头都是国内用户数据获取量比较多的App主体公司。
从整体上来看,该报告试图揭示以下问题真相:
- 数据都去哪儿了?
- 隐私换服务?哪些App更容易泄露用户隐私?
- 看看你的家乡排第几?中国地域隐私风险呈现何种差异?
- 你中枪了吗?高隐私风险职业有哪些?
- 网上冲浪需谨慎?哪些行为正加剧用户隐私风险?
中国隐私风险指数
中国人民大学信息学院孟小峰教授团队(网络与移动数据管理实验室)经过近一年的深入研究,发布了2018年度《中国隐私风险指数分析报告》,这是国内乃至世界上首例对大规模移动用户隐私风险量化的研究成果。
中国隐私风险指数是一个反映我国在特定时段内数据拥有者(移动用户)因个人数据被收集者(App开发者)获取而面临的隐私风险及数据收集者造成的隐私风险相对数的宏观指标,用来反映不同移动用户个体或群体面临隐私风险的差异。
模型思想
本报告对移动场景下的隐私风险进行分析并量化,以具体数值揭示隐私风险程度相对大小。隐私风险量化指通过识别用户的泄露数据源,基于从该数据源泄露数据的可能性及泄露后对用户隐私产生的危害综合评估用户的隐私风险程度。
通过调研,权限分析是最简单有效的App隐私风险分析方法,其基本思想是移动用户数据是通过App权限请求而泄露的,相应地,数据收集者也是基于App权限权限来获取用户数据的。进而,该报告从移动场景下两大数据主体——数据拥有者(移动用户)、数据收集者(本报告仅讨论App开发者)角度入手,构建基于权限的隐私风险量化模型。
指数体系
基于数据拥有者(移动用户)和数据收集者(App开发者)的隐私风险量化结果,本报告进一步制定中国隐私风险指数体系,从数据收集者角度揭示移动用户数据的流向,并从自然属性、社会属性、行为属性等维度揭示不同数据拥有者群体的隐私风险特征,最终分析汇总成《中国隐私风险指数分析报告》。
数据集
本报告数据集由基于中国现有333个地级行政区分层抽样的约3000万(30,907, 758)样本用户的App使用数据、162个维度的用户属性画像数据(自然属性、社会属性、地域信息及行为属性等)、通过爬取第三方应用网站得到近30万( 294,358 )个App数据(App名称、类别、开发者、版本、权限、大小、评分等)组成。
注:本报告中的用户数据均来源于匿名处理后的移动设备数据。
中国隐私风险指数分析流程
数据都去哪儿了?前10%数据收集者获取99%权限数据
截至2018年6月,数据集中全部用户通过使用App共产生约131.98亿份权限数据。信息完备的约16.47万款App对应约12.23万数据收集者,这些数据收集者共获取约90亿份权限数据。从获取隐私权限数据份数量级上可将数据收集者划分为亿级、千万级、百万级直至个级权限数据获取收集者,对上述不同级别的数据收集者进行统计分析,前10%数据收集者获取了99%的权限数据!
现实世界中常见的“二八定律”反映在虚拟世界中更为残酷,数据收集的垄断现象极为严重。数据“巨头”的统治地位相比经济“巨头”更加明显。
数据收集者权限数据获取分布
前0.01%、前0.1%、前1%、前5%、前10%
隐私换服务?这几类App最容易泄露你的隐私
本报告内App共有21类(不包括“其他类”),不同类别App由于自身功能的需要而请求不同的权限。此外,再加上不同人群偏向使用App的不同,使得不同人群隐私风险指数呈现差异。
因此本报告对21类App固有的权限请求状况进行分析,并对其在用户集内的权限数据获取状况进行统计,结果表明,社交类、旅游出行类、工具类、购物类和理财类App平均获取用户数据最多,更容易泄露用户隐私。相反地,儿童类、娱乐类、安全类App则较为安全。
看看你的家乡排第几?全国各省隐私风险排名出炉!
据2016年国务院发展研究中心《地区协调发展的战略和政策》提出的八大综合经济区(东北综合经济区、北部沿海综合经济区、东部沿海综合经济区、黄河中游综合经济区、大西北综合经济区、大西南综合经济区、长江中游综合经济区和南部沿海经济区)构想,本报告对各经济区隐私风险指数进行分析,结果表明,东部、南部沿海以及大西南地区隐私风险指数偏高,黄河中游、北部及西北地区隐私风险则偏低。
八大综合经济区隐私风险
进一步,本报告具体分析全国34个省级行政区和333个地级行政区隐私风险指数后发现,经济发达省份和旅游省份隐私风险相对较高,中等发达省份隐私风险普遍较低。
除港澳台地区外,高隐私风险的省份前三位依次为:上海市、云南省、浙江省;低隐私风险的省份前三位依次为:河南省、甘肃省、山西省。港澳台地区隐私风险排名为香港特别行政区>澳门特别行政区>台湾省,考虑到这三个地区App使用偏好与内地存在差异(如社交软件常用Facebook,Instagram等)的原因,故不与内地各省市进行比较。
中国隐私风险指数地图
你中枪了吗?十大高隐私风险职业
基于2015版《中华人民共和国职业分类大典》,本报告将用户职业按粒度划分为三级。一级职业是粒度最大的职业划分,包括5大类:(1)专业技术人员;(2)办事人员和有关人员;(3)商业/服务业人员;(4)农/林/牧/渔/水利业生产人员;(5)生产/运输设备操作人员及有关人员。二级职业是粒度中等的职业划分,每个一级职业均对应多个二级职业。三级职业是粒度最小的职业划分,本报告的数据集中涉及其中25类。
对于五类一级职业,隐私风险指数由高到低依次为生产/运输设备操作人员及有关人员、商业服务人员、农/林/牧/渔/水利业生产人员、专业技术人员、办事人员和有关人员;二级职业中,工程技术人员隐私风险指数最高,运输服务人员的隐私风险指数最低;而十大高隐私风险的三级职业由高到低依次为IT工作者、销售人员、律师、司机、人力资源人员、保险代理人、建筑人员、个人店主、装修人员和会计。
网上冲浪要小心!这些行为正在加剧你的隐私风险
本报告通过对购物偏好、教育行为、直播行为、社交习惯、贷款倾向、游戏爱好、彩票倾向、阅读倾向、新闻倾向、理财对象、住宿习惯和出行方式这12类共计91种用户行为的隐私风险指数加以分析后发现,具有外宿、贷款倾向行为的人群隐私风险普遍较高,而爱好游戏、阅读的人群隐私风险偏低;此外,不同教育行为、直播行为和新闻倾向的人群隐私风险指数差异较大。
12类行为属性隐私风险指数总体分析
社交习惯
偏好与陌生人互动的社交人群隐私风险普遍偏高,而熟人社交、校园社交人群隐私风险较低。
社交习惯指人们经常使用的社交App类型,包括人脉社交、匿名社交、陌生人社交、同志社交、情侣社交、妈妈社区、同城交友、校园社交、熟人社交、婚恋交友10种属性。偏好与陌生人互动的社交人群隐私风险偏高,如同城社交、匿名社交及婚恋交友等,且这些社交方式的隐私风险差异不大,熟人社交、校园社交人群隐私风险偏低。
直播行为
喜欢收看旅游直播、美妆直播节目的人群隐私风险指数偏高,收看电视直播的人群隐私风险指数最低。
直播行为指移动用户常收看的网络视频直播类型,包括旅游直播、体育直播、明星直播、美妆直播、cos直播、秀场直播、社交直播、电视直播、教育直播、游戏直播10种属性。分析发现,喜欢收看旅游直播、美妆直播节目的人群隐私风险指数偏高,收看电视直播的人群隐私风险指数最低。cos直播、体育直播行为隐私风险分列三、四位,而收看明星、教育、秀场、社交和游戏直播的人群隐私风险差异不大。
总结
本报告从数据拥有者(移动用户)和数据收集者(App开发者)两个角度定量评估隐私风险,并基于分层抽样得到的约3000万移动设备数据集构建出中国隐私风险指数体系,形成《中国隐私风险指数分析报告》。本报告主要结论如下:
大规模数据收集现状:数据收集垄断现象极为严重。前10%的数据收集者获取了99%的权限数据,比现实世界财富获取的“二八定律”更为残酷。
App类别数据收集特征:社交类、旅游出行类、工具类、购物类和理财类App平均获取用户数据最多,更容易泄露用户隐私。相反地,儿童类、娱乐类、安全类App则较为安全。
区域隐私风险指数:东部、南部沿海以及大西南地区隐私风险指数偏高,黄河中游、北部及西北地区隐私风险则偏低。经济发达省份和旅游省份隐私风险相对较高,中等发达省份隐私风险普遍较低。
人群隐私风险指数:高隐私风险职业前三名依次为IT工作者、销售人员、律师。高收入高消费人群隐私风险最高,低收入中等消费人群隐私风险最低。
行为隐私风险指数:具有外宿、贷款倾向行为的人群隐私风险普遍较高,而爱好游戏、阅读的人群隐私风险偏低;此外,不同教育行为、直播行为和新闻倾向人群隐私风险指数差异较大。
披上AI战衣的中国APP,正在让印度节节败退相关推荐
- 它身上的飞秋 战衣给他添上了英武的气势
今天的在一家歌剧院的飞秋,它足有一股绅士的味道,它身上的飞秋战衣给他添上了英武的气势,走进广场正门,动感十足的轨道灯管及金鸡拜年图案构成背景的欢度春节饰景台,红蚂蚁身披红色的外衣个头相当于黑蚂蚁的二分 ...
- 百度AI战疫五十天:三场战役与一次胜利
3月16日,中国大陆地区新增的21例新冠肺炎确诊病例中,仅有武汉1例原生病例,余下都是境外输入病例.至此,我们应该可以确信,中国疫情已经得到了基本控制,防疫主战场发生了重要转移. 面对疫情,众多不容忽 ...
- 百度宣布AI语音调用登顶中国第一,自研芯片+最新端到端模型颠覆传统语音识别算法...
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2019年,NLP和语音技术取得了多项技术突破,但是科技公司考虑更多的是AI的"场景",如何在各种场景中都能方便地集成语 ...
- 中国 App 出海“变形记”
作者 | 0016 来源 | 出海瞭望(ID:Globalinsights) "我知道工具会退潮,从2015年就知道.但我们从来没有想到,变化会是断崖式的."这是在猎豹经历了谷歌大 ...
- 突发!印度封禁抖音、微信、快手等 59 款中国 App
作者 | 唐小引 责编 | 屠敏 头图 | CSDN 下载自东方 IC 出品 | CSDN(ID:CSDNnews) 北京时间 6 月 30 日消息,据 TechCrunch 报道,印度电子信息技术部 ...
- 猎豹全球智库执行院长:中国App出海的三大规律和最具代表的五大垂直品类
https://36kr.com/p/5100078 中国出海还是处于一个黄金时代. "国内互联网公司的竞争越来越白热化,出海的时间点变得越来越紧迫,"在36氪日前举办的" ...
- “AI”战疫在行动,一文盘点百度大脑增援疫情防控的AI操作
2020年春节,注定将刻进每个人的记忆.面对突如其来的新型冠状病毒感染的肺炎疫情,除了一线医护人员的日夜奋战,"人工智能"也在特殊时期走向前沿,接受了抗疫洗礼. 3月13日,今年第 ...
- 百度「AI战疫」:首次开源肺炎CT影像分析AI模型,让诊断从分钟到秒
自疫情爆发以来,多家科技公司纷纷加入了抗击疫情的战役中. 其中,排查疫情是这场战役的重中之重,而 CT 影像已成为新冠肺炎筛查和病情诊疗的重要依据. 然而,在当前疫情诊疗的关键时期,存量患者和新增患者 ...
- 【云周刊】第132期:走近40+世界级AI专家!第三届中国人工智能大会资料分享...
本期头条 [演讲实录+视频]走近40+世界级AI专家!第三届中国人工智能大会资料分享(不断更新) 中国人工智能大会(CCAI),由中国人工智能学会发起,目前已成功举办两届,是中国国内级别最高.规模最大 ...
最新文章
- 【数据结构与算法】之深入解析“买卖股票的最好时机III”的求解思路与算法示例
- Java关键字protected详解
- [CDLinux]安装向导
- Kali安装使用文泉驿字体
- 学习HTML 笔记A3 :HTML标题、段落、文本格式化
- 陈强教授《机器学习及R应用》课程 第十七章作业
- 丁火生于未月命理分析_日主丁、未月出生五行喜用分析-丁日未月生《晶灵八字算命》...
- Java 在PPT中添加文本水印的简易方法(单一/平铺水印)
- 扫描文档SDK ocr识别技术
- mysql 查询不等于问题
- 用jQuery--实现todolist待办事项清单
- 从苹果ATT新政第一年,看全球数据主权之争与治理规则的变迁
- python小论文范文3000字_完整的论文范文3000字
- 2018-2019 ACM-ICPC沈阳(C,J)
- 中小学数学卷子自动生成程序——结队编程队友互相评价
- python爬取知乎热搜_Python知乎热门话题数据的爬取实战
- BIM一级建模师考试试题及答案
- ECS服务器选择SSD云盘和高效云盘选择哪个好?
- c语言链表结点的插入
- 联想 Linux下 装win10 双系统(免坑)
热门文章
- 人机语言(MML: Man-Machine Language)
- php文章排序,PHP+Ajax实现后台文章快速排序
- igstk 学习笔记
- 如何在TensorFlow中用深度学习修复图像
- AAAI2022最新「关系数据因果推理」报告,181页PPT阐述因果推理在网络数据中研究进展...
- 合作|中国人寿财险联合清华大学共同推出危化品知识图谱智能工具
- 概述:机器学习和大数据技术在信贷风控场景中的应用
- 机器学习在信道建模中的应用综述
- 独家|深度学习训练和推理之间有什么差异?
- 近期活动盘点:心电数据标注系统和深度学习诊断算法研究、2019年第六届清华大学大数据社会科学讲习班...