夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI

一个“史无前例”的恶意软件感染数据集亮相了。

这个数据集来自微软,毕竟,他们的重要产品Windows,大概是全球遭受病虫害最频繁的软件了。

同时推出的,还有一场Kaggle竞赛:让你训练机器学习算法,来预测一台电脑是不是感染了恶意软件,俗称“中毒了没”。

我们先来看看这份数据集究竟有多“史无前例”。

它包含的信息相当全面,共有60多项。

每一行数据都对应着一个MachineIdentifier,相当于设备ID,也都包含一个代表着真实值的标签HasDetections,显示这台设备有没有感染恶意软件。

同时,还包含大量可能能用来判断中没中毒的信息,比如设备的运行状况指标,以及本身软硬件环境,比如:系统、防火墙版本、装了几个杀毒软件、默认浏览器是哪一款、是个电脑还是个手机、显示器分辨率多少、处理器几核什么架构、内存多大、用的是不是固态硬盘……

甚至还包含这台机器是不是用来打游戏的、是不是触摸屏、带不带手写笔,以及代表国家和城市的数字代码等等。

这样的数据一共有多少条呢?答案是,在训练集里有近900万条测试集里近800万条。也就是说,微软提供了来自1600万台设备的信息,给你训练算法。

如果你对这么大的数字不敏感……我们换个衡量大小的方式。这个数据集以csv形态存储,一共8.47GB

这些数据,都来自Windows用户,由Windows系统本身记录和默认防火墙Windows Defender采集而来。当然,数据经过清洗,并不包含隐私信息。

庞大的数据集准备就绪,办竞赛也顺理成章。于是,也就有了Kaggle上的微软恶意软件预测竞赛

这个竞赛,由微软、美国东北大学、佐治亚理工大学联合主办。

参赛者需要做的,就是训练一个算法,为测试集里的每一台电脑,预测一个感染恶意软件的概率,范围在[0, 1]区间。

竞赛设置了2.5万美元(大约17万元)的奖金池。其中,第一名奖金1.2万美元,第二名7000美元,第三四五名分别是3000、2000、1000美元。

这个奖金设置,对安全界人士来说可能太低了点。英特尔安全研究员Marco Figueroa就在Twitter上说:

微软你是认真的吗?一个恶意软件预测竞赛才给2.5万美元奖金?应该至少30万美元起!

不过,参赛者们依然很热情。

从上周启动到量子位发稿时,已经有551支队伍参加了。

现在距离竞赛结束,还有两个多月,新队伍还在源源不断地涌进来。昨天才杀入战局的南京大学小哥哥(队名叫“杀”的那位),一次提交就排到了榜首。

感兴趣?竞赛地址在这里:

https://www.kaggle.com/c/microsoft-malware-prediction/

年度评选报名

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

微软发布“史无前例”的恶意软件数据集,设17万奖金征集预测算法相关推荐

  1. 中科院发布了目标追踪数据集,1万多条视频,150万个边界框 | 快来下载

    动栗 发自 凹非寺  量子位 出品 | 公众号 QbitAI 中科院发布了一个目标追踪数据集,叫做Got-10k.很大,很精致. 它包含了超过10,000条视频,主角都是在现实世界里移动的物体,分成5 ...

  2. 微软发布 Visual Studio 2022 版本 17.3:支持.NET MAUI 正式版,提高 C++ 性能

    微软今天发布了 Visual Studio 2022 版本 17.3.此更新带来了对 .NET 多平台应用程序 UI (.NET MAUI) 支持.为 Microsoft Teams 开发应用程序的能 ...

  3. 蚂蚁金服自研数据库打败Oracle拿下世界第一;三星手机全面退出中国;微软发布Windows 10X双屏系统 | 极客头条...

    作者 | 唐小引 出品 | CSDN(ID:CSDNnews) 快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目, ...

  4. 63万张!旷视发布最大物体检测数据集Objects365 | 技术头条

    编辑 | 琥珀 来源 | AI科技大本营(id:rgznai100) 昨日,在旷视科技联合北京智源人工智能研究院举办的发布会上,旷视研究院发布了物体检测数据集 Objects365,包含 63 万张图 ...

  5. IBM发布人脸识别最强工具,多样性数据集,100万张人脸图像!

    https://www.toutiao.com/a6652185404856336908/ 2019-01-30 15:16:49 为了改善既有AI人脸识别存在的偏见问题,IBM发布脸部多样性数据集D ...

  6. 【软件周刊】微软发布 Mac 版 Visual Studio,SQL Server 2016 SP1 紧跟节奏

    2019独角兽企业重金招聘Python工程师标准>>> 上周有不少关于微软的新闻,而且隔三差五就弄个大新闻.先是宣布推出针对苹果 Mac 环境的 Visual Studio for ...

  7. vscode kite插件_微软发布 VS Code Python 插件 7 月更新

    微软发布了 7 月的 Visual Studio Code Python 扩展更新,此版本总共修复了 51 个问题,其中包括: 支持新的语言服务器:Pylance Gather 扩展 将 Notebo ...

  8. 微软发布 Power BI 2020 上半年发行计划

    微软官方与日前发布了 Power BI 在2020上半年的发行计划.本文将在 2020.9 之前都有用,建议收藏查看.从今年开始,我们除了客观描述 Power BI 的特性外,还将加入大量主观观点态度 ...

  9. 时隔两年的重大更新,微软发布.NET Framework 4.8

    微软发布了.NET Framework 4.8,这是两年来.NET 框架的第一个重大更新. 新版本包含多个产品领域的改进,其中包括 Windows 窗体.WCF.WorkFlow 和 WPF.它还在基 ...

最新文章

  1. 解决Cannot convert a symbolic Tensor (lstm/strided_slice:0) to a numpy array.
  2. 自由自在意式手工冰淇淋的清凉之风已“冰”临城下
  3. 大话数据结构之算法 时间复杂度
  4. ubuntu19.10 安装搜狗输入法
  5. 30天自制操作系统 pdf_30天自制操作系统:第四天:系统界面绘制
  6. 运维人员打字耍不要快_法考经验与教训 —— 打字
  7. 基本功 | Litho的使用及原理剖析
  8. CDLL和WinDLL的区别
  9. 小米互联通信服务_时隔六年,小米NFC碰碰贴复活,碰一下自动亮灯、联网、投屏...
  10. 这段百度问答,对我相关有对啊!!!----如何获取Windows系统登陆用户名
  11. ajax如何提交多表单的值_菜狗教程-03-如何解决快速提交两次重复提交表单的问题...
  12. 介绍一篇路端传感器的cooperative perception(3D目标检测)论文
  13. Unity Module Manager 模块管理器
  14. 仿宋GB_2312字体在wps,office中的安装下载使用
  15. 基于FBX SDK的FBX模型解析与加载
  16. Java 生成验证码。随机产生一个四位数的验证码,每位数可能是数字、大写字母或小写字母。
  17. Java实现京东登录
  18. 2.1微信小程序--比较数字大小
  19. Nginx页面报错404及解决办法
  20. STM32之HAL库的Bootloader跳转到APP

热门文章

  1. iPhone 的黄金时代已结束!
  2. 马克·扎克伯格帝国的衰落
  3. 中移互联网副总:创新技术如何赋能企业变现突破
  4. 树莓派python gpio 模仿iic_树莓派高级GPIO库,wiringpi2 for python使用笔记(五)i2c读取测试...
  5. 金三银四我带你去BAT面试现场,干货整理
  6. 一线大厂架构师都推荐的Java零基础大全,附面试答案
  7. php关键技术,基于Apache+MySQL+PHP的关键技术分析
  8. linux centos7.9图形界面版本下载_适合在任何地方使用的 Linux:15 个小型 Linux 发行版...
  9. 微型计算机远程编程微软,用微软的云计算来远程管理自己的电脑
  10. pip设置国内镜像_virtualenv安装、使用、pip国内镜像替换---windows 0117-2020