atitit .大数据的方法,技术.attilax总结 大数据包含哪些方面 v5 s09..docx

7. 三大核心技术:拿数据,处理转换,算数据 2

8. 大数据有5个部分。数据采集,数据存储,数据清洗,数据挖掘,数据可视化 2

9. 关联技术 2

10. 数据采集技术 (非常重要) 2

10.1. 数据采集----gui自动化技术 2

10.2. Nui自动化  外接触摸等设备 2

10.3. 数据采集---安卓等设备模拟器技术 2

10.4. 导出 、分享 有些程序自带导出分享功能,方便多了 3

10.5. Ocr技术 面对c端数据采集,可能需要ocr 3

10.6. 破解图片验证码../手机验证码.。。数据采集过程中可能遇到验证码 3

10.7. 前置登录自动化 注册机/登录器/发帖机/   可能需要前置登录采集 3

10.8. 数据导出,可能要使用分享给你,也可能没有分享,只能ocr模式转换 3

10.9. Office word excel pdf文件读写 3

10.10. Html文档读写 3

10.11. Zip rar等压缩文档 3

11. 数据清洗技术 3

11.1. 数据分类 根据分类不同来不同的垃圾文件判断标准 3

11.2. 数据清洗 识别垃圾数据清理 3

11.3. 图像分类技术  图像处理技术 4

11.4. 图像内容识别   人脸识别 4

11.5. 视频截取 4

12. 数据tag标注 分类 内容识别 结构化(重要) 4

12.1. 数据格式转换技术 非结构化转换为部分结构化 比如tag技术 4

12.2. 数据分类技术 多维度分类 4

12.3. 数据tag标注 4

12.4. 图像分类技术  图像处理技术 4

12.5. 图像内容识别   人脸识别 4

13. 大数据存储技术 (重要 4

13.1. 数据压缩技术 数据存储 4

13.2. 压缩存储文档处理(rar zip 5

13.3. Nosql mongodb redis等 5

14. 大数据摘要索引技术 (很重要) 5

14.1. 全文索引(es solr lucence 5

14.2. 压缩文件索引技术 5

14.3. 视频截取索引  ocr 5

15. 可视化(相对不那么重要) 5

16. 其他可能需要的技术 5

16.1. 数据挖掘 5

16.2. 语音识别技术 6

16.3. 手写识别技术 6

16.4. 水军好评差评 6

16.5. 云计算、移动互联网 6

16.6. 物联网. 6

16.7. 非结构化nosql数据库技术 6

17. 参考: 6

作者Attilax ,  EMAIL:1466519819@qq.com 
来源:attilax的专栏
地址:http://blog.csdn.net/attilax

  1. 三大核心技术:拿数据,处理转换,算数据 
  2. 大数据有5个部分。数据采集,数据存储,数据清洗,数据挖掘,数据可视化
  3. 关联技术
  4. 数据采集技术 (非常重要)
    1. 数据采集----gui自动化技术

自动化web操作/浏览器引擎 自动化ui数据采集 可以对常见的sns im软件操作采集数据

刷票器/

  1. Nui自动化  外接触摸等设备
  2. 数据采集---安卓等设备模拟器技术

有些app只能运行在安卓等特定环境需要使用模拟器采集数据

  1. 导出 、分享 有些程序自带导出分享功能,方便多了
  2. Ocr技术 面对c端数据采集,可能需要ocr

截屏与ocr技术 方便对屏幕数字化处理为文字

  1. 破解图片验证码../手机验证码.。。数据采集过程中可能遇到验证码
  2. 前置登录自动化 注册机/登录器/发帖机/   可能需要前置登录采集
    1. 数据导出,可能要使用分享给你,也可能没有分享,只能ocr模式转换
    2. Office word excel pdf文件读写
    3. Html文档读写
    4. Zip rar等压缩文档
  1. 数据清洗技术
    1. 数据分类 根据分类不同来不同的垃圾文件判断标准
    2. 数据清洗 识别垃圾数据清理
    1. 图像分类技术  图像处理技术
    2. 图像内容识别   人脸识别
    3. 视频截取
  1. 数据tag标注 分类 内容识别 结构化(重要)
  1. 数据格式转换技术 非结构化转换为部分结构化 比如tag技术
  1. 数据分类技术 多维度分类
  2. 数据tag标注
  3. 图像分类技术  图像处理技术
  4. 图像内容识别   人脸识别
  1. 大数据存储技术 (重要

    1. 数据压缩技术 数据存储
  1. 压缩存储文档处理(rar zip
  2. Nosql mongodb redis等
  1. 大数据摘要索引技术 (很重要)

    1. 全文索引(es solr lucence
    2. 压缩文件索引技术 
    3. 视频截取索引  ocr

大数据导入,需要自动化ui技术

  1. 可视化(相对不那么重要)
  2. 其他可能需要的技术
    1. 数据挖掘
  1. 语音识别技术
  2. 手写识别技术
  3. 水军好评差评
  4. 云计算、移动互联网

技术的发展,使得大量数据的生产和连通变成现实;

  1. 物联网.
  2. 非结构化nosql数据库技术

非结构化数据库技术的发展,使得数据收集的要求大大降低;

  1.  参考:

窥视互联网金融:谈谈大数据

Hadoop并非完美:8个代替 HDFS 的绝佳方案

大数据技术涵盖哪些内容_百度经验.html

atitit .大数据的方法,技术.attilax总结 大数据包含哪些方面 v5 s09..docx 7. 三大核心技术:拿数据,处理转换,算数据 2 8. 大数据有5个部分。数据采集,数据存储,相关推荐

  1. 数据分析20大基本分析方法技术总结【分析目的、分析案例、分析方法与思路】

    文章目录 零.分析方法基础 一.5W2H分析法 二.逻辑树分析法(类似思维导图) 三.PEST分析法(行业分析方法) 四.多维度拆解分析法(维度+拆解) 五.对比分析法 六.假设检验分析法 七.相关分 ...

  2. 《大数据》专题征文:大数据可视分析技术与应用

    点击上方蓝字关注我们 <大数据>专题征文:大数据可视分析技术与应用 (截稿时间:2020年12月31日) 随着信息技术的飞速发展,特别是网络的普及,人类产生的数据量呈现爆炸式增长.而可视化 ...

  3. 《腾云-云计算和大数据时代网络技术揭秘》的收获与分享

    这本书是很值得一看的,特别是对想了解云计算与数据中心网络的人.这本我是以最快的速度读完的第一遍,收益颇丰,紧接着又温习了一遍,目的是将技术要点重新梳理下,加强记忆.如 果你开始觉得云计算离我们很远,其 ...

  4. 《云计算和大数据时代网络技术揭秘》读后感

    这本书是很值得一看的,特别是对想了解云计算与数据中心网络的人.这本我是以最快的速度读完的第一遍,收益颇丰,紧接着又温习了一遍,目的是将技术要点重新梳理下,加强记忆.如 果你开始觉得云计算离我们很远,其 ...

  5. 合肥市电力大数据应用工程技术研究中心成立

    11月6日,安徽省合肥市电力大数据应用工程技术研究中心在合肥供电公司正式成立.该电力大数据研究机构,对提高合肥电网的运营效率.服务质量和能源利用率等具有重要意义. 合肥供电公司申报的合肥市电力大数据应 ...

  6. 201912一种改进动物音频分类的数据增强方法

    Data augmentation approaches for improving animal audio classification 标题:一种改进动物音频分类的数据增强方法 作者: Lori ...

  7. 数据分箱技术Binning

    数据分箱技术Binning 数据分箱技术Binning 引入相关库 数据获取 数据分箱 数据分箱技术Binning 引入相关库 import numpy as np import pandas as ...

  8. linux修改arena大小,教大家Resolume Arena怎么设置大屏幕的方法

    近日有关于教大家Resolume Arena怎么设置大屏幕的方法的问题受到了很多网友们的关注,大多数网友都想要知道教大家Resolume Arena怎么设置大屏幕的方法的具体情况,那么关于到教大家Re ...

  9. php ci post 请求,ci检测是ajax还是页面post提交数据的方法

    ci检测是ajax还是页面post提交数据的方法 PHP 是一种 HTML 内嵌式的语言,是一种在服务器端执行的嵌入HTML文档的脚本语言,语言的风格有类似于C语言,被广泛地运用.以下是小编为大家搜索 ...

  10. php html转成数组,PHP_php将HTML表格每行每列转为数组实现采集表格数据的方法,本文实例讲述了php将HTML表格每 - phpStudy...

    php将HTML表格每行每列转为数组实现采集表格数据的方法 本文实例讲述了php将HTML表格每行每列转为数组实现采集表格数据的方法.分享给大家供大家参考.具体如下: 下面的php代码可以将HTML表 ...

最新文章

  1. python三层装饰器-python 三层嵌套定义装饰器
  2. android 快速 顶部,Android RecyclerView 快速滑到顶部
  3. 同一公司代码下工厂间的库存转储 (轉載)
  4. Volley框架使用及源码解析
  5. openflow和open vSwitch简介
  6. 随机化算法-数值随机化算法
  7. 生活中的实验 —— 家庭电路
  8. JavaScript的组成
  9. 《人生七年》启示,穷人买车,富人投资教育
  10. h3c使用acl控制ftp访问_H3C交换机典型访问控制列表(ACL)配置实例
  11. Google提供的ADB工具包下载地址
  12. 火狐firefox扩展插件开发extension代码调试方法
  13. HAUT 1285: 军团再临【并查集*逆向思维】
  14. 快速云:云计算供应商在合同谈判时可能拒绝的三个事项以及要求
  15. 单片机---HLK-W801蓝牙遥控点灯
  16. rsync使用ssh指定端口
  17. 教你快速将多个TXT文档合并成一个多方法 手工方法无需软件
  18. 开发三星GALAXY Tab应用程序
  19. 滚动条如何设置样式和滚动条悬浮显示与隐藏
  20. 浪潮服务器bios怎么找回密码,服务器BIOS密码丢失解决方法

热门文章

  1. web的标准网页设计与php课后,第3章web标准与html
  2. 北航的计算机与技术专业如何,计算机科学与技术考研北航的这个专业怎么样
  3. python 图形库介绍_数据分析Python手绘图形库有哪些
  4. Cygwin下cscope的配置
  5. Maven学习笔记1
  6. Xcode9.0、Xcode9.1修改模拟器尺寸
  7. 一分钟了解阿里云产品:专有网络VPC五大热点技术问题分析
  8. Windows server 2008 搭建×××服务
  9. LVS负载均衡群集之NAT模型DR模型
  10. 你要好好的---歌词