LAMDA(机器学习书与数据挖掘研究所)

算法训练网站

提供了大量可以练习的网站:

1、Leetcode

2、Geeksforgeeks

3、Hackerrank

4、Lintcode

paddlepaddle

系统设计

关注:系统设计、面向对象的设计、数据库模式设计、分布式系统设计、大型系统架构、可扩展性等案例研究相关文章

  • http://blog.gainlo.co
  • http://horicky.blogspot.com
  • https://www.hiredintech.com/classrooms/system-design/lesson/52
  • http://www.lecloud.net/tagged/scalability
  • http://tutorials.jenkov.com/software-architecture/index.html
  • http://highscalability.com/

去深入了解整个系统的设计,包括整个读/写流程、如何保证很强的一致性、次要/主要压缩起到作用、LRU 缓存和 Bloom Filter 的作用等.

可以将 HBase 和 Cassandra 进行比较,设计上的相似点和不同之处

许多博客也能提供很多知识,比如 Hacker Noon、一些公司的工程博客以及开源项目的官方文档

机器学习

经典教材:

《The Elements of Statistical Learning》

《Pattern Recognition and Machine Learning》

基本概念:偏差/方差权衡、过度拟合、梯度下降,L1/L2 正则化、贝叶斯定理、协同过滤、降维

常用公式与模型推导:贝叶斯定理、逻辑回归、支持向量机

简单的模型:决策树、 K 均值聚类

机器学习产品的过程:

1、确定目标:预测、推荐、聚类、搜索

2、使用正确的算法:监督与无监督、分类与回归、广义线性模型/决策树/神经网络等,使用知道的原因

3、选择模型性能指标

4、生产优化模型

使用 Spark MLlib 和 XGBoost 简单地调用 API 训练出一个模型,研究 Stochastic gradient descent 适合分布式训练原因,

知道GBoost 和 GBDT 的区别原理。

核心原理的技能

  • 数学:微积分,统计学,线性代数
  • 周边学科:信息论基础
  • 推荐算法: CF,LR,SVM,FM,FTRL,GBDT,RF,SVD,RBM,RNN,LSTM,RL
  • 数据挖掘:分类,聚类,回归,降维,特征选择,模型评价
  • web服务: tornado, django, flask
  • 数据存储: redis, hbase, cassandra, mongodb, mysql, hdfs,hive, kafka, elasticsearch
  • 机器学习/深度学习: Spark MLib,GraphLab/GraphCHI,Angel,MXNet,TensorFlow,Caffe, Xgboost,VW,libxxx
  • 文本处理: Word2vec,Fasttext,Gensim,NLTK
  • 矩阵分解: Spark ALS,GraphCHI,implicit,qmf,libfm
  • 相似计算: kgraph, annoy,nmslib, GraphCHI, columnSimilarities(spark.RowMatrix)
  • 实时计算: Spark Streaming, Storm,Samza

评估开发人员所有技能的最好方法,

1、制定目标和计划

1、保持好奇心

2、勇于研究,敢担当责任

3、良好的执行能力

二、数学知识

2.1 【AI_数学知识】数学分析

2.2 【AI_数学知识】概率论

2.3 【AI_数学知识】线性代数


三、机器学习

3.0 【AI_机器学习】基础知识

3.1 【AI_机器学习】K-近邻算法

3.2 【AI_机器学习】决策树

3.3 【AI_机器学习】朴素贝叶斯

3.4 【AI_机器学习】逻辑回归

3.5 【AI_机器学习】SVM

3.6 【AI_机器学习】AdaBoost元算法

3.7 【AI_机器学习】随机森林算法

3.8 【AI_机器学习】树回归

3.9 【AI_机器学习】神经网络

3.10 【AI_机器学习】隐马尔科夫


四、深度学习

4.1 【AI_深度学习】CNN 卷积神经网络

4.2 【AI_深度学习】RNN循环神经网络

4.3 【AI_深度学习】GANs生成对抗网络

系统设计和机器学习算法相关推荐

  1. 吴恩达机器学习6——机器学习算法改进、系统设计

    吴恩达机器学习6 一.机器学习算法改进 1. 机器学习算法评价 1.1 评估模型 1.2 模型选择和交叉验证集 2. 偏差与方差 2.1 诊断偏差和方差 2.2 正则化和偏差/方差 2.3 学习曲线 ...

  2. 机器学习算法 拟合曲线_制定学习曲线以检测机器学习算法中的错误

    机器学习算法 拟合曲线 机器学习 (Machine Learning) The learning curve is very useful to determine how to improve th ...

  3. 机器学习算法总结--GBDT

    参考如下 机器学习(四)- 从gbdt到xgboost 机器学习常见算法个人总结(面试用) xgboost入门与实战(原理篇) 简介 GBDT是一个基于迭代累加的决策树算法,它通过构造一组弱的学习器( ...

  4. AI产品经理必修课:机器学习算法

    一.什么是机器学习  1. 含义 机器学习machine learning,是人工智能的分支,专门研究计算机怎样模拟或实现人类的学习行为,其通过各种算法训练模型,并用这些模型对新问题进行识别与预测. ...

  5. 大数据与机器学习算法相关的电子书分享

    大数据与机器学习算法相关的电子书分享 近日,偶然看到一个帖子,上面有一些常用的机器学习常用的电子书下载路径,遂复制到这里,分享给大家,希望可以有你需要的- @ 欢迎关注微信公众号:算法全栈之路心智探奇 ...

  6. [当人工智能遇上安全] 5.基于机器学习算法的主机恶意代码识别研究

    您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...

  7. 机器学习算法的优点和缺点总结

    机器学习算法的优点和缺点总结 1.正则化算法(Regularization Algorithms) 它是另一种方法(通常是回归方法)的拓展,这种方法会基于模型复杂性对其进行惩罚,它喜欢相对简单能够更好 ...

  8. 机器学习算法基础知识

    在我们了解了需要解决的机器学习问题的类型之后,我们可以开始考虑搜集来的数据的类型以及我们可以尝试的机器学习算法.在这个帖子里,我们会介绍一遍最流行的机器学习算法.通过浏览主要的算法来大致了解可以利用的 ...

  9. 赠书 | 图解机器学习算法,看这文就够了!

    机器学习指的是计算机根据给定的问题.课题或环境进行学习,并利用学习结果解决问题或课题等的一整套机制(图 1-1). 图 1-1 分类的示意图 与机器学习共同成为热门话题的还有人工智能和深度学习.这里梳 ...

最新文章

  1. 一.Timesten安装
  2. swt能单独在linux运行么,java – 在Mac上运行基于SWT的跨平台jar
  3. 今生不再见, VS Code !
  4. kubernetes+Azure DevOps实现.Net Core项目的自动化部署均衡负载
  5. 可汗学院统计学笔记 42-81集
  6. java jtextarea清空_文本区 JTextArea 的使用
  7. HDU 5733 求四面体 内心 外心 内接圆圆心 外接圆圆心
  8. 全网最新抖音视频去水印解析PHP网页源码
  9. 程序员该如何定位?看这四大方向
  10. (2020版) 墙裂推荐这十款精选 IntelliJ Idea 插件
  11. 硬盘分区MBR和GPT知识详解
  12. 解决vscode下载速度太慢的问题
  13. python基础语法测评_Python基础语法测评(A1卷)
  14. 浏览器插件,轻松-快速获取网站源代码
  15. ELK实践(一)使用es搭建商品搜索项目
  16. decode和encode
  17. 光猫linux网桥桥接,把光猫改成桥接,用路由器PPPOE拨号
  18. 如何用Photoshop将模糊照片变清晰
  19. 【树莓派】树莓派开放WiFi热点
  20. AD在建PCB封装时如何添加元器件的3D模型

热门文章

  1. bnx2: Can't load firmware file bnx2/bnx2-mips-09-6.2.1b.fw
  2. php mcrypt 完全安装
  3. 【Gson】【1】Gson使用简介
  4. leetcode -- Reverse Nodes in k-Group
  5. jQuery实现百度导航li拖放排列效果,即时更新数据库
  6. FZU 1692 Key problem
  7. 提供生成静态页核心代码
  8. Physics-based Animation 相关
  9. 大数据平台安全风险与建设
  10. 关于Runtime.getRuntime().exec()运行python代码失败的问题