鱼羊 Pine 发自 凹非寺
量子位 | 公众号 QbitAI

俄罗斯第一大科技巨头,这回遇上了大麻烦:

44.7GB源代码,全被泄露到了网上。

什么概念?

就是这家名为Yandex的公司,几乎所有主要服务的源代码都被挖了个底掉……

要知道,在俄罗斯,Yandex不仅干着搜索引擎的活儿,还把俄国老百姓购物、打车、订外卖、租车这一连串生活服务都给包圆了。

简单来说,约等于俄版百度+淘宝+美团+滴滴。

这么大个事儿,自然引起了全世界网友的围观。

但就在众人纷纷猜测这又是哪家黑客手笔之际,Yandex的声明却有些令人大跌眼镜:

我们没有被黑,就是被前员工给卖了……

44.7GB源代码遭泄露,代码被扒了个底朝天

具体来说,泄密链接最早出现在了一个黑客论坛上。

泄密者称,这份44.7GB的Yandex代码库,包含该公司2022年7月以前,除反垃圾邮件规则之外的所有源代码。

这些被泄露出来的代码信息量到底有多大?

看看网友们热火朝天扒出来的细节就知道了……

Yandex不是以搜索引擎起家,常被称作“俄版百度”/“俄版谷歌”嘛,那就先以搜索引擎部分的代码为例。

一位名叫Alex Buraks的老哥就深扒了下Yandex搜索引擎的排名规则,还戏称这对理解谷歌SEO(搜索引擎优化)有很多有用的信息。

毕竟Yandex和谷歌的搜索结果有70%的匹配度,不少人认为其搜索技术用的就是谷歌同款:如PageRank、BERT等。

(掌握了Yandex的规则不就相当于透了谷歌排名算法的家底,手动狗头)

目前已经有大批吃瓜群众来围观,甚至Alex Buraks的这条线程曾在谷歌搜索“yandex”中排名第8。

有趣的是,在Yandex的排名因素中,排在第一个的就是PageRank

Buraks还直接列出了Yandex的10个排名因素:

(1)链接的创建时间;(2)流量和有机流量的百分比;(3)URL中的数字不利于排名;(4)URL中的斜杠不利于排名;(5)负面情绪过重的PageRank=0;(6)主机可靠性;(7)“维基百科”还单独列了一个因素;(8)用户行为:点击率,跳出率等;(9)文件年龄与上次更新日期;(10)所有查询域名的平均位置……

当然这还只是其中的一部分,Buraks表示后续还会继续分析。

除了Alex Buraks,也有不少营销大师深扒了Yandex的排名因素,甚至有人都详细整理出了完整的1900+个排名因素。

值得一提的是,在各路大神扒代码的过程中,Yandex搜索引擎的一些“潜规则”也被摆上了台面。

就比如说加拿大黑客Aubrey Cottle就在代码中发现了Yandex是容忍种族歧视的。

还有网友在代码中发现,Yandex的广告投放中,普通广告和色情广告是分开计算的。

官方声明:没有被黑,是前员工泄密

这事儿一出,很快还有一份详细的泄密文件目录被整理出来放在了GitHub上。

作者是一位名叫Arseniy Shestakov的软件工程师。据他评估,这些源代码确实涉及了Yandex的所有主要服务。

包括:

  • 搜索引擎和索引机器人

  • 地图服务

  • AI语音助手

  • 打车服务

  • 广告服务

  • 邮件服务

  • 存储服务(类似百度网盘)

  • 电商服务(类似淘宝)

  • 旅游服务

  • 云服务

还包括在线协同办公、支付、数据分析等等业务。

不过,泄露内容并不包括用户数据等敏感信息。

Arseniy Shestakov总结了几个关键细节:

  • 泄露出来的主要是git存储库里的源代码,不包含git历史记录

  • 所有文件日期均可追溯至2022年2月24日

  • 大部分软件都没有预先编译好,只有少数例外

  • 除了一些例外,没有预先训练好的机器学习模型

Yandex办公楼

事情闹得这么大,Yandex官方也坐不住了,很快发表声明表示:其实我们并没有被黑,是前员工出卖了我们!

Yandex没有被黑。我们在公共领域发现了泄露自内部存储库的代码片段,但其内容与Yandex当前使用的代码版本并不相同。

存储库是用来存储和处理代码的工具。大多数公司都采用这种方式来使用代码。

代码库并未存储个人用户数据。

我们正在进行内部调查,但并没有发现该事件给用户数据和平台性能带来了任何威胁。

Yandex倒是信誓旦旦,但外部的专业人士却有不同看法。

据bleepingcomputer消息,前Yandex技术专家Grigory Bakunov对此事做出了回应。

他认为,这次代码泄露确实不会对用户的隐私或安全构成直接风险,也不会直接威胁到Yandex的专有技术。

不过一些文件仍可能会暴露正在运行的服务,比如说“blacklist.txt”,Bakunov还称:

尽管泄密的部分不涉及敏感数据,但黑客针对性利用代码中的安全漏洞,只是时间问题;

(BTW)虽然Yandex官方回应泄露的代码与公司工作服务中使用的当前代码不同,但相似度可能高达90%

泄露代码目录:
https://gist.github.com/ArseniyShestakov/53a80e3214601aa20d1075872a1ea989

参考链接:
[1]https://www.bleepingcomputer.com/news/security/yandex-denies-hack-blames-source-code-leak-on-former-employee/
[2]https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
[3]https://twitter.com/Kirtaner/status/1619007274202329091
[4]https://twitter.com/dom_woodman/status/1619028740201398274
[5]https://twitter.com/alex_buraks/status/1618988134850785280

百度研究院、阿里达摩院、量子位智库

年度十大科技报告

总结2022,预见2023。来自百度研究院、阿里达摩院和量子位智库的年度十大科技报告均已发布,点击下方图片即可跳转查看。

百度研究院

阿里达摩院

量子位智库

点这里

俄版百度44.7G源码泄露!遭前员工背刺,涉及搜索地图打车电商等所有主要服务...相关推荐

  1. shop源码PHP免授权,ShopsN五核全网免费开源电商系统 v2.4.0(拼团)

    ShopsN五核全网免费开源电商系统是一款符合企业级商用标准全功能的真正允许免费商业用途的开源网店全网系统,可以实现PC+WAP+微信+安卓+iOS 客户端商城系统. ShopsN五核全网免费开源电商 ...

  2. 百度对外开放Firefox版百度搜霸源码

    在开源中国社区看到了百度的sobar项目.以下是项目介绍,"本项目是开发基于Firefox浏览器的百度"超级搜霸"搜索工具条,项目使用XUL开发,适合初学者学习该技术.& ...

  3. 计算机实战项目之 [含论文+答辩PPT+源码等]基于javaweb+mysql的促销秒杀竞拍商城|电商购物

    <基于javaweb+mysql数据库实现的促销秒杀竞拍商城>该项目含有源码.论文等资料.配套开发软件.软件安装教程.项目发布教程等 使用技术: 前端使用技术:JSP,HTML5,CSS3 ...

  4. php源代码被公开漏洞,dede目录列表漏洞_页面存在源代码泄露_发现源码泄露

    之前在安全联盟站长平台用检查了一下自己的网,发现了自己的网站有一堆漏洞(页面存在源代码泄露).如图: 然后在百度site的时候也现实中危提示,看起来很不爽,你要知道,自己维护的网站,还出现一个危险提示 ...

  5. xjar加密后运行错误_XJar: Spring-Boot JAR 包加/解密工具,避免源码泄露以及反编译。...

    XJar Spring Boot JAR 安全加密运行工具,同时支持的原生JAR. 基于对JAR包内资源的加密以及拓展ClassLoader来构建的一套程序加密启动,动态解密运行的方案,避免源码泄露或 ...

  6. Java 通用代码生成器光 2.3.0 文明 Beta10 版,支持从源码构建

    Java 通用代码生成器光 2.3.0 文明 Beta10 版,支持从源码构建 Java 通用代码生成器光 2.3.0 文明已发布 Beta10 版,支持从源码构建代码生成器.您可以装好 JDK 和 ...

  7. CTF——Web网站备份源码泄露

    CTF--Web网站备份源码泄露 当遇到提示说到备份时,应该敏感地想到这是需要用到网站备份文件源码的. 一般这类题是和代码审计一起出的,一般都是需要获取到备份文件然后进行分析.下面就介绍一下网站备份的 ...

  8. Windows 10“源码泄露“让我想起微软“开源之路”

    写这篇文章的重点不在于Windows 10"源码泄露"后给微软带来什么损失,又或给黑客带来什么可趁之机(类似文章太多,我就不凑热闹了).因为各种猜测意淫对读者毫无价值,写此类文章无 ...

  9. C++Primer Plus (第六版)阅读笔记 + 源码分析【目录汇总】

    C++Primer Plus (第六版)阅读笔记 + 源码分析[第一章:预备知识] C++Primer Plus (第六版)阅读笔记 + 源码分析[第二章:开始学习C++] C++Primer Plu ...

最新文章

  1. Sql Server 因为触发器问题导致数据库更新报错“在触发器执行过程中引发了错误,批处理已中止”的问题处理...
  2. Qt Creator创建项目
  3. 如何预防食品被新冠病毒污染?国家卫健委权威解答来了
  4. java tic tac toe_请问我这个tic tac toe的游戏代码的问题在哪里
  5. win8如何在已安装多系统的情况下,更改默认开机系统
  6. Python基础(14)_python模块之configparser模块、suprocess
  7. 基础-栈队列简单测试
  8. “全球+”浪潮下,企业出海选择合适的“技术船舶”成关键
  9. ThreadPoolExecutor执行任务,异常日志缺失问题
  10. maven 本地仓库添加jar包
  11. java输出流文件_Java文件输入输出流(封装类)
  12. 中心极限与大数定理律的关系_中心极限定理的最最通俗解释
  13. MATLAB - 线型、Marker点等属性的设置
  14. kubelet liveness probe源码简析
  15. mybatis系列一:入门篇
  16. 为什么要做小程序?90%的商家不知道的好处!
  17. 节省处理HPC数据泛滥开支的可用工具
  18. python list 查找与过滤方法整合
  19. 新站上线完整详细的SEO优化方案
  20. 智能车单车组之平衡控制理论分析篇

热门文章

  1. 再等等,2025 年你就能买到一辆自动驾驶汽车了
  2. SVN上传文件静态库文件.a文件缺失解决方案
  3. 长沙智能驾驶研究院 实现基于5G的人车路云协同V2X应用
  4. 传腾讯寻求增持育碧股份,目标是成为最大股东
  5. AI笔记: 数学基础之数字特征-标准差、协方差、相关系数、中心矩、原点矩、峰度、偏度
  6. numpy 学习汇总33 - 索引切片( 初步学习 tcy)
  7. unity3d碰撞检测之立方体碰撞算法
  8. 通达OA 工作流流转过程中使用系统自带的提醒功能设置(图文)
  9. 在DOS环境下制作Windows启动盘
  10. 李嘉诚留住人才的秘诀