摘要: 快播涉传播淫秽物品案昨日在海淀法院开庭审理。快播公司、王欣、张克东、牛文举均表示认罪悔罪。吴铭表示快播公司犯罪成立。 庭前法院委托鉴定机关,对涉案的四台缓存服务器的硬盘数据是否受到改写污染问题进行了鉴定。

快播涉传播淫秽物品案昨日在海淀法院开庭审理。快播公司、王欣、张克东、牛文举均表示认罪悔罪。吴铭表示快播公司犯罪成立。

庭前法院委托鉴定机关,对涉案的四台缓存服务器的硬盘数据是否受到改写污染问题进行了鉴定。鉴定结论是:未发现硬盘中的视频文件在2013年11月18日被行政机关扣押后,有从外部拷入和修改的痕迹。

再次开庭,王欣的态度和半年前截然不同。在2016年1月的庭审中,王欣则是否认快播传播淫秽视频,王欣称,涉案四台服务器是加速服务器。服务器留存的文件是缓存文件,快播无法轻易辨别。

在整场快播案庭审的剧目中,王欣那句“技术无罪”,博得了无数网友的同情和支持。大数据文摘今日也只从技术角度探讨,从数据规模、基础设施等方面说明,成人网站对技术的要求到底有多高。

◆ ◆ ◆

成人网站对技术的要求到底有多高

上网之人,多少都会接触过成人网站。这是一个举世公认的事实。

不过这是一个难以洞察的领域,因为相关数据少之又少。我们知道成人网站都是那些在互联网上有着超高流量的网站。根据 Google DoubleClick 的 Ad Planner 服务(通过cookie跟踪网民)显示,全球 Top 500 网站中,就有数十个成人网站。全球最大的色情网站 Xvideos 每月网页浏览量(Page Views,PV)高达 44 亿,是 CNN 或 ESPN 新闻网站的 3 倍,是 Reddit 的 2 倍。LiveJasmin 也不小。除了 Google 和 Facebook 等大站,其他网站在YouPorn、Tube8 和 PornHub 面前都是小巫见大巫。

虽然网页浏览量是一个很好的起始点,但它们仅告诉我们某些色情网站比某些非色情网站要受欢迎。40亿的PV,听起来很多,但当我们把那些X站用户实际在做的事考虑进来,成人网站的大小和规模就有点明朗了。

◆ ◆ ◆

规模

色情网站和非色情网站的主页区别是访客的平均停留时间。诸如 Engadget 等新闻网站的平均停留时间是 3 – 6 分钟,大约是是阅读 1 – 2 篇文章。然而色情网站的停留时间,大约是在 15 – 20 分钟。

大部分网站的内容主要是文本和图像,而成人大站则是视频。EXT首页完全加载大约是几兆数据,打开一篇文章,大约是500kb数据。访问色情网站,假设是打开一个 480×200 低分辨率的视频,每秒传输 100 kb 数据。15 分钟的话,那就大约是 90 MB 数据了。

XVDO 每月有 3.5 亿访问次数,乘以 90 MB,那就每月传输大约 29 PB 数据,也就是每秒传送数据约 50 GB。做个对比,你家网络连接可能每秒传送两兆(2 MB),XVDO是你家的 25,000 倍。

简而言之,色情网站是在处理天文数字级别的数据。在原始带宽(Raw Bandwidth)方面,能与之匹敌的网站,也就只有 YouTube 或 Hulu,而 YouPorn 却又是 Hulu 的 6 倍。

◆ ◆ ◆

基础设施

就支持视频所需的资源,数据存储器、CPU 周期、I/O 和带宽,远超过文本和图像所需要的资源。

当然了,虽然每个网站的情况又不一样了,但大部分成人站点都有 50 至 200 TB 的成人资料。对一个网站来说,这是个大数目(Google、Facebook、Blogger 和 Youtube 之流存储的数据比这还要多),好在现在 2 TB 的硬盘便宜。

CPU 周期和 I/O 会影响视频流和 PV 数量。首先,色情网站要提供动态、可搜索的海量视频数据库,然后点播视频时,从硬盘读取文件,再网络上传输。如果你有过在局域网传送大量大文件的经历,你就会知道网络系统的压力有多大了。

硬件设备情况,实际上我们几乎无法知晓,因为色情网站也没公布过。虽然如此,但我们讨论的大型色情网站会有四核服务器、千兆交换机、负载均衡器。在软件方面,大部分大型色情网站都会使用超高吞吐量的数据库(比如 Redis )来存储和提供视频,还有轻量级的 HTTP 服务器(比如 Nginx )。

最后说带宽。还是以 Xvideos 为例(基于 Ad Planner 的数据估测),大型色情网站必须有足够的连通性(connectivity)来支撑每秒 50 GB(400Gbps )。这还只是平均传输速率。在高峰期间,Xvideos 或许要 1,000Gbps  (1Tbps) ,或更高 。在伦敦和纽约直接的连通性也才 15Tbps。

有很多方法来处理高流量:自己搞个数据中心,或者去大数据中心租赁几排架的服务器,或者使用诸如 Amazon AWS 和 Microsoft Azure 之类的云服务。

◆ ◆ ◆

真实案例

YPN是全球第二大的色情网站,足够提供研究数据。另外要说一下,DoubleClick  的 Ad Planner 中的估测数据比实际数据要低很多的。

YPN有“超过 100 TB 的干货”,每天网页浏览量超过 1 亿。总而言,这相当于每天传送 950 TB 数据(大部分都是视频流),每月大约传送 29 PB。Xvideos 肯定不止 28 PB 这个估测值了,它可能是每月 35 – 40 TB。

在高峰期,YPN每秒得响应 4000 个网页,相当于有每秒 100 GB 或(800 Gbps )的突发流量。这相当月每秒传送 10+ 张双层 DVD。

在软件方面,YPN的主数据库是 Redis,用 MySQL 作为管理工具,用于管理和向 Redis 簇中添加数据。后端是 Perl 和 MySQL,不过在 2011 年改成了 PHP + Redis。HTTP 服务器是 Nginx,同时用 HAProxy  和 Varnish  做负载均衡。Redis 服务器可以每秒处理 30 万请求,每小时记录下 8 – 15 GB数据,包括访客日志、行为数据等。据说 Redis 可以抗住 2 亿的日 PV。

(译注:2012年2月份,YPN的技术人员 Eric Pickup 在 Google 群组宣告他们网站改用 Redis DB 后。扛住了每天1亿PV浏览量,每秒30万请求,已经坚持 2 周。Eric 还将去加拿大一个技术大会分享经验。)

令人悲伤的是,YPN拒绝透露硬件设备信息。从 YPN的 CDN 的 IP 地址来看,它应该没有使用云服务,应该托管在某地的大型数据中心。

互联网每天大约处理 1/2 EB 数据,相当于每秒处理 50Tb, YPN的 800Gbps 这个数字,几乎就占了互联网中每秒流量的 2%。而全球有几十个和 YouPorn 规模相当的色情网站。互联网流量中色情内容占据了 30%,这个说法也就不是不现实的哦。

原文发布时间为:2016-09-10

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

原文链接

转载于:https://www.cnblogs.com/jzy996492849/p/6972354.html

快播CEO认罪_成人网站对技术的要求有多高?相关推荐

  1. 超牛叉技术支撑的成人网站

    声明:本文从技术角度讨论成人网站,内容完全健康,其中所涉及的网站名称.网址均作了替换. 原文标题"在整个互联网中,成人网站有多大?" 上网之人,多少都会接触过成人网站.这是一个举世 ...

  2. 快播CEO王欣:流量跌到零也要转型

    曾因免费与快捷而独霸视频播放器行业的快播科技,或许将迎来壮士断腕的艰难时刻. 4月16日晚,快播于新浪微博上先后发布<公告>和<致快播用户书:我们涅槃在即>,表示快播将启动商业 ...

  3. url采集工具_大数据关键技术浅谈之大数据采集

    在前几篇文章中,企通查为大家介绍了大数据处理的基本流程.从大数据的一系列处理过程中(抽取.集成.分析.解释),我们可以发现这一整套流程中涵盖了数据存储.处理.应用等多方面的技术. 大数据价值的完美体现 ...

  4. 企业网站 源码 e-mail_天津seo优化套餐服务收费_天津网站优化关键词价格

    天津华阳在线专注于SEO关键词排名优化,品牌网站建设,营销型网站建设,App.小程序开发,搜索引擎seo优化,竞价托管sem,品牌口碑建设与代运营等服务.企业通过引进前BAT产品经理不断丰富产品线优化 ...

  5. 河南科技大学计算机专业专升本,河南科技大学成人高考计算机应用技术专业的课程有哪些...

    一些在社会上参加工作的人,因为不满足于自己的学历,想要参加成人继续教育的方式提升自己的学历,成人高考就是大家可以选择的方式之一,很那科技大学成人高考的招生专业中,计算机应用技术专业是有很多人报考学习的 ...

  6. 全球最大成人网站公布年度榜单!原来lsp最爱看的是这种片……

    前几天,那个号称全球最大的成人网站P***hub,发布了<2022年度报告>. 别惊讶,这已经是P某发布年度报告的第9个年头了. 正所谓,知己知彼百战不殆.不发年度报告,怎么总结过去,展望 ...

  7. 从网上订火车票的网站12306.cn谈谈网站性能技术

    从网上订火车票的网站12306.cn谈谈网站性能技术 12306.cn网站挂了,被全国人民骂了.我这两天也在思考这个事,我想以这个事来粗略地和大家讨论一下网站性能的问题.因为仓促,而且完全基于 本人有 ...

  8. 由12306.CN谈谈网站性能技术http://coolshell.cn/articles/6470.html

    由12306.CN谈谈网站性能技术 2012年01月16日  陈皓 评论 340 条评论  163,061 人阅读 12306.cn网站挂了,被全国人民骂了.我这两天也在思考这个事,我想以这个事来粗略 ...

  9. 前快播CEO王欣今天发布的这款马桶MT你会用吗?

    戳蓝字"猿大侠"关注我们哦! 今天或许是个黄道吉日,是社交界的大日子,王欣,张一鸣,罗永浩旗下公司三款社交APP产品今天同时发布! 早上10点半在深圳的马桶MT发布会,主讲人员快播 ...

  10. 由 12306.cn 谈谈网站性能技术

    http://www.oschina.net/news/24838/website-performance 原文出处:爱范儿 oschina 配图 12306.cn网站挂了,被全国人民骂了.我这两天也 ...

最新文章

  1. python 根据时间来生成唯一的字符串
  2. oracle 数据不可恢复,Oracle数据恢复:错误叠加导致灾难不可恢复解决办法
  3. 十五、深入Java的数组(上篇)
  4. protobuf windows java_protobuf windows java 环境搭建
  5. highcharts一天时间 与一周时间_一天当中什么时间减肥降重最好的
  6. Android客户端与服务器交互方式-小结
  7. NET问答: 如何实现读写 file 的时候不用锁模式 ?
  8. Flash MX 认证考试(样题)
  9. win10共享其它计算机文件,两台win10间如何文件共享
  10. Infoq专访:Maven中文用户组创始人许晓斌
  11. python constants_Python constants.SUCCESS属性代码示例
  12. 新手小白适合学习什么编程语言
  13. ajax异步请求刷新
  14. [图论]剑鱼行动:kruskal
  15. 各项的语言资源,从入门到精通
  16. 剑指offer面试题(11-20)——java实现
  17. 新沂市一中计算机教室,新沂城市论坛『民意民声』记新沂市第一中学教师苗庆硕 - Powered by Discuz!...
  18. Linux版的led显示屏控制软件,led显示屏控制软件
  19. Web前端 HTML常用标签 文本格式化标签 图像标签
  20. kindle推送设置

热门文章

  1. sm2和sm4加密算法浅析
  2. 计算机报名中的照片审核总不过,软考报名时,照片审核难通过怎么办?
  3. HTML前端数据管理,前端数据管理
  4. latex 分布符号_latex符号大全
  5. 运筹学_化标准型_week2
  6. c语言用数字定义字符串,c语言怎么定义数字字符串 c语言怎么把数字字符定义字符串...
  7. 基于PaddleOCR实现车牌识别
  8. OpenDrive格式高精度地图详细解析及其使用(1.栅格地图、OpenDrive坐标系以及参考线介绍)
  9. 循迹小车三个感应c语言程序,循迹小车的C语言程序(带注释)
  10. 1《游戏脚本高级编程》之命令脚本的随想