总的来说目前互联网常用的数据采集分为APP采集和web端采集

对于APP采集最常用的方式就是通过集成SDK,进行埋点采集

对于这种方式,目前分为有无埋点采集,可视化埋点采集,手工埋点采集大类

分别针对于:日志的全量收集,日志的可编辑收集,和自定义埋点收集

对于web目前比常见的可以参考:

Tony_老七 总结的文章

在这里需要细分一下目前用户访问的平台,根据目前以及短期内技术发展,可以分为三种APP|PC|WAP,其中PC/WAP可以算一种,都是传统web交互方式,APP(说的是Native APP,iOS、Android etc)
  • PC/WEB上实现一般有三种:
1.web service记录
2.js嵌入收集
3.包嗅探器
  Web日志 JavaScript标记 包嗅探器
优点 ・比较容易获取数据源
・方便对历史数据再处理
・可以记录搜索引擎爬虫的访问记录
・记录文件下载状况
・数据收集灵活,可定制性强
・可以记录缓存、代理服务器访问
・对访问者行动追踪更为准确
・对跨域访问的监测比较方便
・取得实时数据比较方便
缺点 ・无法记录缓存、代理服务器访问
・无法捕获自定义的业务信息
・对访问者的定位过于模糊
・对跨域访问的监测比较麻烦
・用户端的JS设置会影响数据收集
・记录下载和重定向数据比较困难
・会增加网站的JS脚本负荷
・初期导入费用较高
・无法记录缓存、代理服务器访问
・对用户数据隐私有安全隐患

目前第二种是最流行的收集方式。

通过使用JS收集客户端的cookie信息,浏览器等,发送到后台一组服务器,找了几个网站查看他们的收集数据,请求格式譬如:
[html] view plain copy
  1. 唯品会:
  2. http://mar.vip.com/p?mars_br_pos=&mars_cid=1398657717000_d430514ae3ce8aab29178c11eba5dcb1&mars_sid=b01fc069abdd38df7bd359d6429184f4&pi=0&mars_vid=BD55BF35DADC6722D8D2B29B5C4054A3&lvm_id=83619272008072580001401328910640&mars_var=-&lg=0&wh=VIP_SH&in=0&sn=&url=http://www.vip.com/&sr=1366*768&rf=&bw=1286&bh=150&sc=24&bv=mozilla/5.0 (windows nt 6.3; wow64) applewebkit/537.36 (khtml, like gecko) chrome/40.0.2214.93 safari/537.36&ce=1&vs=&title=唯品会(原Vipshop.com)特卖会:一家专门做特卖的网站_确保正品_确保低价_货到付款&tab_page_id=1423478314979_0c4c3141-f350-79ec-2e58-1b5bafda3332&vip_qe=undefined&vip_qt=undefined&vip_xe=&vip_xt=&r=0.03680062713101506
  3. 当当:
  4. http://click.dangdang.com/page_tracker.php?m_id=&o_id=®ion_ids=&out_refer=null&refer_url=&url=http://www.dangdang.com/&to_url=&type=1&visit_count=27&is_first_pv=0&ctr_type=&perm_id=20140430171404681303078869337380126&res=1366,768||1286,1518&r=0.9703021887689829&title=当当—网上购物中心:图书、母婴、美妆、家居、数码、家电、服装、鞋包等,正品低价,货到付款&trace_id=0.70&special=market=location:6;&cif=&rsv1=&rsv2=&rsv3=&rsv4=xxx
  5. 淘宝:
  6. http://ac.mmstat.com/1.gif?uid=802662066&apply=vote&abbucket=_AB-M65_B6&com=02&acm=tt-1097039-36356.1.1003&cod=tt-1097039-36356&cache=1874351609&aldid=72SdnsDn&logtype=4&abtest=_AB-LR65-PR65&scm=1003.1.tt-1097039-36356&ip=210.13.117.180
  7. 在服务器端如Nginx,进行query的parse配置,最后将数据以log方式存储。

【数据采集】-目前比较流行的几种数据采集方式相关推荐

  1. 详解华为12种数据采集技术及应用实践

    导读:数字化转型要从根本上加强数据的可获得性,围绕我们构建的数据主题和对象丰富数据感知渠道.要追求更加实时.全面.有效.安全的数据获取. 作者:华为公司数据管理部 来源:大数据DT(ID:hzdash ...

  2. visual studio哪一款比较好用_时下比较流行的7种家居装修风格,你钟爱哪一款?...

    全屋定制有很多种风格,随着年轻人对个性追求,现代风格.北欧风格备受喜爱,老一辈人不忘记中式传统,新中式风格也比较热门. 不同的人有着不一样的审美,对于家装风格,选择起来也十分困难,不如看看时下比较流行 ...

  3. 2016流行这2种色彩!附优秀网页设计案例

    @十萬個為什麽 :潘通为2016年选出的"年度色彩"令人拍案叫绝,融合了蔷薇粉与宁静蓝来构成这组色调.这组柔和的配色很可能会成为接下来一年的配色趋势.正如潘通往年的选择,这些颜色通 ...

  4. 计算机基础白板课件,白板教学最流行的6种教学模式-交互式电子白板课件制作心得...

    白板教学最流行的6种教学模式-交互式电子白板课件制作心得 一.构建课堂互动探究学习平台 交互式电子白板适用于课堂中的探究学习,教师可以通过交互式电子白板构建学习情景,并且可以通过交互式电子白板更为清晰 ...

  5. [转载]【转】ArcGIS 10安装方法(对比流行的2种安装方法)||迅雷电驴下载

    原文地址:[转]ArcGIS 10安装方法(对比流行的2种安装方法)||迅雷电驴下载地址作者:MakerEasy ArcGIS 10下载地址 (复制贴到迅雷新建下载里) thunder://QUFod ...

  6. 目前流行的几种软件的压缩比较

    目前流行的几种软件的压缩比较 1软件介绍 2软件的压缩算法 3压缩环境 4压缩比较 5评价 1软件介绍 bzip 2.0 在linux环境下广泛使用,压缩性能优良,压缩.解压缩速度都很快. wirar ...

  7. UG 是当今较为流行的一种模具设计软件

    UG 是当今较为流行的一种模具设计软件, 东莞横沥UG 的应用及现状 UG 是当今较为流行的一种模具设计软件,主要是因为其功能强大,包括了世界上最强 大.最广泛的产品设计应用模块. UG 是功能强大的 ...

  8. 目前流行的装修风格_目前最流行的12种装修风格,你喜欢哪一种

    我们每个人都有自己性格,不同的爱好,每个家庭都有不一样的生活习惯.房子装修,整体的设计风格是前提,是设计师如何把握的立足点.所以,在房子装修前,一家人应该坐在一起探讨.确定房子的设计风格. 目前比较流 ...

  9. 目前最流行的八种装修风格

    目前最流行的八种装修风格,给大家做一个总结,大家过来看一下吧. 新中式风格:唐代.明清期间家居理念的精华,将其间的经典元素提炼并加以丰厚. 温馨雅致风格:空间布局挨近现代风格,而在详细的界面方式.配线 ...

  10. 目前流行的几种排课算法的介绍

    通用高校排课算法研究----2 .目前流行的几种排课算法的介绍 2   目前流行的几种排课算法的介绍 2.1. 自动排课算法 1 .问题的描述 我们讨论的自动排课问题的简化描述如下: 设要安排的课程为 ...

最新文章

  1. 自学python可以找到好的工作吗-学好python能找到好工作吗?
  2. 【solr专题之二】配置文件:solr.xml solrConfig.xml schema.xml
  3. vue设置标签自定义属性_Vue组件化开发之插槽
  4. matlab指定间隔符,在matlab中为.dat文件指定小数分隔符[复制]
  5. MyEclipse的自动补全功能:输入@或者.没提示
  6. C++工作笔记-使用namespace构建常量头文件
  7. Java File IO
  8. [译]GLUT教程 - 笔划字体
  9. windows+nginx+tomcat实现集群负载均衡(生产环境必读)
  10. Android 四大组件面试
  11. 从一个例子看ASCII点阵字库的应用原理
  12. 通过数据告诉你centos和debian哪个好?
  13. Day25 - Event Capture, Propagation, Bubbling and Once
  14. 阿里云开放平台微前端方案的沙箱实现
  15. python 自动化测试基础
  16. 【算法学习】找素数的几种算法: 简单穷举, 埃氏筛法, 欧氏筛法, 从O(n2)到O(n)
  17. 云计算是什么意思?3张图看懂云计算架构
  18. Latex编译成功但是无法输出到PDF
  19. Pandas中的Dataframe和Series
  20. Oracle 整理知识点

热门文章

  1. Docker安装Redis并介绍漂亮的可视化客户端进行操作
  2. Sigmoid函数总结
  3. 军用计算机通用规范测试试验,军用装备环境可靠性试验项目表
  4. 漂亮的html跳转页面代码,HTML网页实例代码:简洁漂亮的跳转等待页面
  5. 微信api接口调用-给微信好友或群聊发消息
  6. cimoc 最新版_Cimoc1.49版下载
  7. LuatOS-HMI概述
  8. ROS 机器人操作系统:概述
  9. php gd libpng,libpng版本问题导致的PHP调用gd扩展出错解决方案
  10. SSH端口修改端口号