《Taming the big data tidal wave》 Bill Franks

大数据定义:超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理能力的数据。

除了容量大,大数据的大还体现在多样性、速度及复杂度等多个方面。

大数据会改变数据的分析策略和工具,但是不会改变人们的动机——从分析数据获取价值。

大数据最大的风险在于隐私纠纷。

本书偏重于商业化的大数据模式探讨···我恐怕不会再看下去了。

《Mining of massive datasets》Anand Rajaraman    Jeffrey David Ullman

数据挖掘 是 数据“模型”发现的过程。

建模:统计建模;机器学习;数据汇总(PageRank简单说是Web上的随机游走者在任意某时刻处于该页面的概率;聚类);特征抽取(频繁项集-适用于多个小规模项集;相似项-协同过滤)

邦弗朗尼原理:在数据随机的假设前提下,计算所寻找事件出现的期望,如果这个期望远大于我们希望发现的数目,那么可以预期寻找的的任何事物都是臆造的,是统计假象。

相关知识:

1.词语在文档中的 重要性 TF.IDF指标

2.哈希函数

3.索引

4.二级缓存器

5.z自然对数的底e=2.7182818...   e是x趋向于无穷大时 (1+1/x)^x 的极限; e^x=1+x+x^2/2+x^3/(1*2*3)+x^4/(1*2*3*4)+...

6.幂定律 y=c*x^a

本书聚焦网络数据的挖掘,偏向技术和算法,里面介绍了很多网络数据挖掘的算法,还算基础,我选了几章读了。本来想写出来,不过发现别人已经写过了,就不再赘述。

这篇文章 很详细地介绍了聚类算法。

【读书笔记】大数据 数据挖掘 相关相关推荐

  1. 5000字 大数据时代读书笔记_读书笔记 大数据时代

    当然,行业专家是不会真正消亡的,只是他们的主导地位会发生改变.未来,大数据人才会与他们一样身居高位,就像趾高气扬的因果关系必须与卑微的相关关系分享它的光芒一样.这改变了我们怎样看待知识的价值,因为我们 ...

  2. 大数据之路读书笔记-16数据应用

    大数据之路读书笔记-16数据应用 全球知名咨询公司麦肯锡称:"数据,已经 透到当今每一个行业和业务职能领域,成为重要的生产要素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈 ...

  3. 大数据之路读书笔记-03数据同步

    大数据之路读书笔记-03数据同步 如第一章所述,我们将数据采集分为日志采集和数据库数据同步两部分.数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景.主数据库与备份数据库之间的数据备 ...

  4. 大数据之路读书笔记-15数据质量

    大数据之路读书笔记-15数据质量 随着 IT向DT 时代的转变,数据的重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极其重要的角色.而对于被日益重视的数据,如何保障其质量也是间里巴巴乃至业界都 ...

  5. 电商用户行为分析大数据平台相关系列1-环境介绍

    最近在自学Spark,看了一些书籍和视频,总是感觉无从下手.拿着一个想法总是无从下手.追其原因,主要是没有系统的学习和使用.对于IT,一切新技术都需要不断实践.不断动手.本着动手的原则,本人通过各种渠 ...

  6. 分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客

    分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客 留在数据科学技能的巅峰!下面是对大数据,数据科学,数据挖掘,机器学习和人工智能约100最活跃,最有趣的博客的列表. Devendra De ...

  7. 机器学习 大数据 数据挖掘_什么是机器学习? 来自数据的情报

    机器学习 大数据 数据挖掘 机器学习的定义 机器学习是人工智能的一个分支,其中包括用于自动根据数据创建模型的方法或算法. 与通过遵循明确的规则执行任务的系统不同,机器学习系统从经验中学习. 基于规则的 ...

  8. 大数据科学相关岗位,需要具备哪些数学基础?

    在不久的将来,大智时代一定会彻底走入我们的生活,多智时代专注于人工智能.大数据.云计算和物联网的入门学习和科谱资讯,让我们一起携手,引领人工智能的未来 数据科学相关岗位要具备哪些数学基础?想成为一名顶 ...

  9. 基于招聘网站的大数据专业相关招聘信息建模与可视化分析

    需要本项目的可以私信博主!!! 在大数据时代背景下,数据积累导致大数据行业的人才需求快速上升,大量的招聘信息被发布在招聘平台上.深入研究这些信息能帮助相关人士更好地理解行业动态,并对其未来发展进行预测 ...

  10. 《数据挖掘导论》 - 读书笔记(3) - 数据 [2016-8-13]

    第2章 数据 本章讨论一些与数据相关的问题,对于数据挖掘的成本至关重要. 数据类型 数据集的不同表现在很多方面.例如,用来描述数据对象的属性可以具有不同的类型---定量的或定性的,并且数据集可能具有特 ...

最新文章

  1. 一卡顶四卡,清华推出工具包BMInf玩转百亿大模型
  2. RelativeLayout不能居中的解决的方法
  3. 宁波网络推广分享能让新站提升收录的技巧!
  4. windows核心编程-第一章 对程序错误的处理
  5. 如何编译Apache Hadoop2.2.0源代码
  6. 【Android】SlidingTabs
  7. windows如何添加本机dns记录_运维必看!超清晰的 DNS 原理入门指南
  8. Qt文档阅读笔记-Object Model
  9. Matplotlib 中文用户指南 4.2 基本的文本命令
  10. oracle数据库索引介绍,SQL Server和Oracle数据库索引介绍
  11. c#2.0 IEnumberable接口
  12. 电力猫服务器无响应,电力猫怕什么?TP-Link电力线适配器实测
  13. 【开源】浏览器书签层级可视化
  14. 点击上下左右按钮让背景上下左右移动
  15. 关于个人求职简历的一些见解
  16. Git详解之一 Git起步
  17. Java中Number转为百分比
  18. x_train, x_test, y_train, y_test到底是什么?
  19. vbs和java有关系吗_Java程序员所需的批处理和VBS脚本 (转载)
  20. 服务器端安装conda | 配置conda环境

热门文章

  1. 视频必备资源:免费音效素材下载
  2. UART协议及其Verilog实现
  3. VS2017安装教程
  4. dart语言和flutter学习——Dart语言学习
  5. unexpectedly exited. Status code was
  6. 怎么让放大的图片变清晰?
  7. 软考中级网络工程师的就业前景以及考试要求
  8. 小程序中插入腾讯视频
  9. PLM系统的经济收益
  10. 中国知名个人站长排行TOP91