更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。

时至今日,对于任何人来说,借助云服务或者开源软件,技术已不能成为研究大数据的门槛,往往困扰大家更进一步的是真实数据的缺乏。而INDIANA UNIVERSITY BLOOMINGTON近日公布的一组数据集或许能帮助一定领域的同事。

以下为译文

为促进网络流量结构和动态变化研究的进展,我们团队开发了一个大型数据集Click Dataset,其内包含印第安纳大学用户贡献的535亿余次HTTP请求。不同于查看服务器日志和浏览器工具的收集方式,我们直接从网上收集匿名请求,这样做既能检查大量数据,同referrer外,Click数据集提供了许多有价值的referrer信息,使用者可以藉由这些信息重构出用户访问网络图的子图。这样,我们就对用户的浏览行为有了更深的认识,可以设计出更真实的流量模型。Click数据集还有希望应用于改进网络、网站和服务器软件设计;精确预测流量趋势;依据激励用户的机制对网站归类;改进搜索结果分级算法等领域。

我们获取这些数据方法是先复制流经印第安纳大学边界路由器的流量,再对得到的镜像文件使用Berkeley Packet Filter处理。该过滤器过滤出所有流向TCP80端口的流量。而在长期收集的过程中,通过pcap library来集中收集到的包,并用正则表达式判断其有效载荷是否包含HTTP GET请求。如果包中确实包含此请求,收集系统将写下一条记录,记录包括以下内容:

  • 时间戳
  • 请求的URL
  • referrer的URL
  • 用户代理(浏览器或bot)的布尔类型
  • 表示该请求产生于IU(Indiana University,下同)内部或外部的布尔标识

补充说明:

  1. IU外部产生的数据只包含校外访问校内网的请求,而IU内部产生的数据只包含校内用户对外网资源的请求(校内用户约十万)。值得一提的是,这两组请求的取样误差差异很大。
  2. 来路不明的流量会被拦截:缺少MAC、IP地址及其它唯一标识的流量会被记录。
  3. 收集过程不会试图对request流重组,也不会分析服务器应答。

在收集过程中,该系统日处理6000余万条请求,日生成原始数据约30G。这些数据收集于2006年9月至2010年5月期间,其中275天的数据丢失。数据集分两部分:

  1. 原始数据:约250亿条请求,其中只有referrer的主机名被保留下来。数据收集于2006年9月26日至2008年3月3日,共98天数据丢失,其中包括2007年6月整月的数据。这部分数据压缩后约占0.85TB。
  2. 原始URL:约286亿条请求,且referrer的完整URL被保留下来。数据收集于2008年3月3日至2010年5月31日,共179天数据丢失,其中包括2008年12月,2009年2月和11月整月数据。这部分数据压缩后约占1.5TB。

Click数据集中的数据以小时为单位存储在不同文件。所有文件的起始行都有一串可被忽略的标识。格式如下:

XXXXADreferrer
host
path

这里的XXXX为时间戳(采用32位Unix以秒计时的新纪元时间,按小端字节排序),A是指用户代理标识(“B”代表浏览器,“?”代表bots或其它),D是流向标识(“I”代表流入IU的流量,“O”代表流出IU的流量),referrer是指引用页的主机名或URL(以换行符结尾),host是指目标主机名(以换行符结尾),最后,path是指目标路径(以换行符结尾)。欲了解更多详情,请见下文。

常见问题

我该如何声明自己使用了这些数据?

  • 这些数据由Mark Meiss在印第安纳大学的支持下收集。我们为这些数据的收集和公开化付出了诸多努力。如果你使用了这些数据,请在你的发表文章中引述下文。
@inproceedings{Meiss08WSDM,title = {Ranking Web Sites with Real User Traffic},author = {Meiss, M. and Menczer, F. and Fortunato, S. and Flammini, A. and Vespignani, A.},booktitle = {Proc. First ACM International Conference on Web Search and Data Mining (WSDM)},url = {http://informatics.indiana.edu/fil/Papers/click.pdf},biburl = {http://www.bibsonomy.org/bibtex/2cfe4752489f4d3a0ab34927e72643dfd/fil},pages = {65--75},year = 2008
}

下面的内容也许你同样感兴趣(但出于伦理委员会的限制此处数据不可获取)

@incollection{Meiss2010WAW,title = {Modeling Traffic on the Web Graph},author = {Meiss, M. and Goncalves, B. and Ramasco, J. and Flammini, A. and Menczer, F.},booktitle = {Proc. 7th Workshop on Algorithms and Models for the Web Graph (WAW)},series = {Lecture Notes in Computer Science},url = {http://informatics.indiana.edu/fil/Papers/abc.pdf},biburl = {http://www.bibsonomy.org/bibtex/2153a97ee31620b74be37bb341f268dc1/fil},pages = {50--61},volume = 6516,year = 2010
}

这些数据能被用于商业团体吗?独立研究员呢?

Click数据集只能被用于研究用途。因此,我们只考虑已设立的学院及科研实验室/组织提出的请求,并要求对方提供来源可靠的同行评议研究报告。有时,准确判断某些个人、组织或团体是否符合“科研实验室”的标准很难。许多公司设有研发实验室,他们可能会利用这些数据发表如白皮书一类的文件。某些团体可能是为雇佣研究者而来,这里可不想将数据集分享给上面提到的那类组织。既然让明辨对方来路不可行,那么就只能依据经验来做判断。如果科研(和发表同行评议文章)不是你组织的根本目的,那你可能会失去资格。这就意味着除了极特殊情况,我们只对大学实验室开放数据集,或是有独立管理权的科研实验室(如微软研究院,IBM研究院,雅虎研究院等)

如何获取这些数据?

Click数据集很大(压缩后约2.5TB),所以需要用物理硬盘来传输,硬盘本身需付费。此外,该数据集可能隐含着零星的个人数据,因此必须签署一份数据安全协议,详情见这里http://carl.cs.indiana.edu/data/webtraffic/click-dataform.pdf 。

原文链接:Click Dataset

【2.5TB,磁盘自费】535亿余次HTTP请求,来自IUB的Click数据集相关推荐

  1. 隐私黑产:2亿余条个人信息卖了2000余万元

    数据猿官网 | www.datayuan.cn 今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区 前脚买了房,立刻就接到贷款电 ...

  2. 互联网晚报 | 7月9日 星期六 |马斯克终止收购推特;​B 站回应 2 亿余条用户账号疑泄露传闻;上海逐步开放电影院和演出场所...

    马斯克:终止收购推特,推特董事会:"有信心"完成交易 特斯拉公司CEO埃隆·马斯克当地时间7月8日表示,他将终止对推特440亿美元的收购,理由是推特违反了合并协议中的多项条款.推特 ...

  3. 【安全资讯】这个团伙贩卖公民个人信息6亿余条

    作者|百家号 来源|潇湘晨报 发布时间|2021-01-22 金山网讯 20日,记者获悉,在"净网2020"专项行动中,丹阳公安部门成功侦破一起公安部督办的侵犯公民个人信息案.警方 ...

  4. 杭州警方破获一起涉及个人信息数据4亿余条的侵犯公民个人信息案

    7月12日上午,记者从浙江省公安厅获悉,近日杭州滨江公安根据公安部.省公安厅"净网2022"专项行动部署中,成功破获一起侵犯公民个人信息案.目前警方共抓获犯罪嫌疑人12名,采取强制 ...

  5. 为诺亚方舟实验室,1亿组图文对,填补中文开源多模态数据集空白

    一.1亿组图文对,填补中文开源多模态数据集空白!还附带基础模型,来自华为诺亚方舟实验室 华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空. 这个新发布的数据集不仅规模大--包含1亿组图文对,而 ...

  6. word问题:内存或磁盘空间不足,word无法显示所请求的字体

    1 现象 在打开别人的发的word文件时,出现了"内存或磁盘空间不足,word无法显示所请求的字体"的问题. 2 解决办法 查了很多办法,依次尝试如下: (1)是否少这类的字体. ...

  7. 百果园港交所上市:市值近百亿港元 80%营收来自加盟店

    雷递网 雷建平 1月16日 水果零售企业百果园(股票代码为:"02411")今日在港交所上市. 百果园发行价为5.6港元,募资净额为3.66亿港元. 百果园此次共获得1.5亿港元的 ...

  8. 1亿组图文对,填补中文开源多模态数据集空白!还附带基础模型,来自华为诺亚方舟实验室...

    行早 发自 凹非寺 量子位 | 公众号 QbitAI 华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空. 这个新发布的数据集不仅规模大--包含1亿组图文对,而且质量也很高. 所有图像都是筛选过 ...

  9. GitLab上市首日大涨35%,市值逼近千亿,营收87%来自订阅服务

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 全球第二大开源代码托管平台GitLab,现已正式上市. GitLab最终将其股价定价为每股77美元,超出此前透露的发行价区间每股66-69美 ...

  10. 鹏孚隆冲刺创业板上市:计划募资约7亿元,部分收入来自海外

    12月27日,北京易诚互动网络技术股份有限公司(下称"易诚互动")在深圳证券交易所更新招股书,准备在创业板上市.本次冲刺上市,易诚互动计划募资3.13亿元,将用于用于数字银行应用平 ...

最新文章

  1. win7修改网络计算机名字,小编分析win7系统修改计算机名字的操作方法
  2. excel:替换问号?时会所有数据被替换掉(通配符问题)
  3. 了解你所不知道的SMON功能(三):清理obj$基表
  4. ApiBoot - ApiBoot Quartz 使用文档
  5. nginx ci index.php,CI在Nginx服务器上rewrite去掉index.php例子
  6. [C++] - C++11 多线程 - Thread
  7. Beta冲刺提交-星期五
  8. 计算机组成与系统结构
  9. 如何恢复删除的文件?wps文件恢复,4种方法教你找回来
  10. MAC地址-集线器-ARP
  11. 苹果MFi认证协处理器(MFI337S3959)公钥证书分析
  12. HTTP略显不足 IPFS/FIL异军突起 未来可期
  13. 复制文件夹 omitting directory
  14. 室内定位技术之UWB篇
  15. 行人重识别常用数据集
  16. PLC运动控制系列之机械回原点(back to origin)
  17. SEO 行业怎么了?
  18. 教学用计算机怎样关闭系统还原,关闭系统还原好吗 如何关闭系统还原【图文】...
  19. php算命,GitHub - baidan/efairy: 基于php的算命网站
  20. 【MPV专题】六:MPV首个由全球不动产支撑的区块链资产

热门文章

  1. 期货基础知识——期货期权中英文对照表
  2. Java如何实现浅克隆与深克隆_Java浅谈克隆clone
  3. python 安装第三方包-安装失败(pycharm/ anaconda navigator)
  4. 鸿蒙系统官网电脑版,华为鸿蒙pc系统
  5. ISPRS2022/遥感:Cross-spatiotemporal LULC from VHR remote sensing images基于深度学习域适应的VHR遥感影像跨时空土地覆盖分类
  6. python turtle forward_Python turtle.forward方法代碼示例
  7. 同一局域网下windows主机和wsl子系统相互网络服务访问
  8. 蓝桥杯科学素养题(2020年12月-2021年12月)
  9. 数据结构哈希表的基本操作(C语言)
  10. 占坑:fullpage.js 在edge浏览器上上下移动鼠标(不滚动滚轮)会翻页的问题