推荐一个ApacheCN开源的一个机器学习路线图:

https://github.com/apachecn/AiLearning

注意:需要直接打开网址或者“阅读原文”才能打开文章里的链接

路线图

按照步骤: 1 => 2 => 3,你可以当大牛!

1.机器学习 - 基础

  • Machine Learning in Action (机器学习实战) | ApacheCN(apache中文网)

  • 电子版书籍:【机器学习实战-中文版-带目录版.pdf】

  • -- 感谢 飞龙小哥哥 生成的电子书《机器学习实战-ApacheCN.pdf》

  • 视频已更新完成,如果你觉得有价值,请帮忙点 Star【后续组织学习活动:sklearn、kaggle、 Pytorch 和 tensorflow】

  • -- 视频网站:优酷 /bilibili / Acfun / 网易云课堂,可直接在线播放。(最下方有相应链接)

  • -- 群小哥哥:红色石头: 台湾大学林轩田机器学习笔记

  • 推荐一个机器学习笔记:

    https://feisky.xyz/machine-learning网站视频

    机器学习实战

    第 1 章: 机器学习基础

    机器学习实战

    第 2 章: KNN 近邻算法

    机器学习实战

    第 3 章: 决策树

    机器学习实战

    第 4 章: 朴素贝叶斯

    机器学习实战

    第 5 章: Logistic回归

    机器学习实战

    第 6 章: SVM 支持向量机

    网上组合内容

    第 7 章: 集成方法(随机森林和 AdaBoost)

    机器学习实战

    第 8 章: 回归

    机器学习实战

    第 9 章: 树回归

    机器学习实战

    第 10 章: K-Means 聚类

    机器学习实战

    第 11 章: 利用 Apriori 算法进行关联分析

    机器学习实战

    第 12 章: FP-growth 高效发现频繁项集

    机器学习实战

    第 13 章: 利用 PCA 来简化数据

    机器学习实战

    第 14 章: 利用 SVD 来简化数据

    机器学习实战

    第 15 章: 大数据与 MapReduce

    Ml项目实战

    第 16 章: 推荐系统(已迁移)

    第一期的总结

    2017-04-08: 第一期的总结

知乎问答-爆炸啦-机器学习该怎么入门?

视频怎么看?

  1. 理论科班出身-建议去学习 Andrew Ng 的视频(Ng 的视频绝对是权威,这个毋庸置疑)

  2. 编码能力强 - 建议看我们的《机器学习实战-教学版》

  3. 编码能力弱 - 建议看我们的《机器学习实战-讨论版》,不过在看理论的时候,看 教学版-理论部分;讨论版的废话太多,不过在讲解代码的时候是一行一行讲解的;所以,根据自己的需求,自由的组合。

【免费】数学教学视频 - 可汗学院 入门篇

  • @于振梓 推荐: 可汗学院-网易公开课

概率 统计 线性代数
可汗学院(概率) 可汗学院(统计学) 可汗学院(线性代数)

机器学习视频 - ApacheCN 教学版

AcFun B站
优酷 网易云课堂

【免费】机器/深度学习视频 - 吴恩达

机器学习 深度学习
吴恩达机器学习 神经网络和深度学习

2.深度学习 - 基础

深度学习必学

  1. 反向传递:

  2. https://www.cnblogs.com/charlotte77/p/5629865.html

  3. CNN原理:

  4. http://www.cnblogs.com/charlotte77/p/7759802.html

  5. RNN原理:

  6. https://blog.csdn.net/qq_39422642/article/details/78676567

  7. LSTM深入浅出的好文:

  8. https://blog.csdn.net/roslei/article/details/61912618

3.自然语言处理

学习过程中-内心复杂的变化!!!

自从学习NLP以后,才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:1) 国内:就好像为了名气,举办工作装逼的会议,就是没有干货,全部都是象征性的PPT介绍,不是针对在做的各位2)国外:就好像是为了推动nlp进步一样,分享者各种干货资料和具体的实现。(特别是: python自然语言处理)
2. 论文的实现:1) 各种高大上的论文实现,却还是没看到一个像样的GitHub项目!(可能我的搜索能力差了点,一直没找到)2)国外就不举例了,我看不懂!
3. 开源的框架1)国外的开源框架:tensorflow/pytorch 文档+教程+视频(官方提供)2) 国内的开源框架: 额额,还真举例不出来!但是牛逼吹得不比国外差!(MXNet虽然有众多华人参与开发,但不能算是国内开源框架。基于MXNet的动手学深度学习(https://zh.diveintodeeplearning.org)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制,公开发布。文档+第一季教程+视频)
每一次深入都要去翻墙,每一次深入都要Google,每一次看着国内的说:哈工大、讯飞、中科大、百度、阿里 多牛逼,但是资料还是得国外去找!
有时候真的挺狠的!真的有点瞧不起自己国内的技术环境!当然谢谢国内很多博客大佬,特别是一些入门的Demo和基本概念。【深入的水平有限,没看懂】

  • 入门教程必看资料【添加比赛链接】:

    https://github.com/apachecn/AiLearning/tree/dev/blog/nlp

  • Python 自然语言处理 第二版:

    https://usyiyi.github.io/nlp-py-2e-zh

  • 推荐一个liuhuanyong大佬整理的nlp全面知识体系:

    https://liuhuanyong.github.io

1.使用场景 (百度公开课)

第一部分 入门介绍

  • 1.) 自然语言处理入门介绍

第二部分 机器翻译

  • 2.) 机器翻译

第三部分 篇章分析

  • 3.1.) 篇章分析-内容概述

  • 3.2.) 篇章分析-内容标签

  • 3.3.) 篇章分析-情感分析

  • 3.4.) 篇章分析-自动摘要

第四部分 UNIT-语言理解与交互技术

  • 4.) UNIT-语言理解与交互技术

应用领域

中文分词:

  • 构建DAG图

  • 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径

  • 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题

1.文本分类(Text Classification)

文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。

下面是一些很好的初学者文本分类数据集。

  1. 路透社Newswire主题分类(路透社-21578)。1987年路透社出现的一系列新闻文件,按类别编制索引。另见RCV1,RCV2和TRC2。

  2. IMDB电影评论情感分类(斯坦福)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

  3. 新闻组电影评论情感分类(康奈尔)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

有关更多信息,请参阅帖子:单标签文本分类的数据集。

情感分析

比赛地址:

https://www.kaggle.com/c/word2vec-nlp-tutorial

  • 方案一(0.86):WordCount + 朴素 Bayes

  • 方案二(0.94):LDA + 分类模型(knn/决策树/逻辑回归/svm/xgboost/随机森林)

    • a) 决策树效果不是很好,这种连续特征不太适合的

    • b) 通过参数调整 200 个topic,信息量保存效果较优(计算主题)

  • 方案三(0.72):word2vec + CNN

    • 说实话:没有一个好的机器,是调不出来一个好的结果 (: 逃

通过AUC 来评估模型的效果

2.语言模型(Language Modeling)

语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。

它是语音识别和机器翻译等任务中的前置任务。

下面是一些很好的初学者语言建模数据集。

  1. 古腾堡项目,一系列免费书籍,可以用纯文本检索各种语言。

  2. 还有更多正式的语料库得到了很好的研究; 例如:布朗大学现代美国英语标准语料库。大量英语单词样本。谷歌10亿字语料库。

新词发现

  • 中文分词新词发现

  • python3利用互信息和左右信息熵的中文分词新词发现

  • https://github.com/zhanzecheng/Chinese_segment_augment

句子相似度识别

  • 项目地址: https://www.kaggle.com/c/quora-question-pairs

  • 解决方案: word2vec + Bi-GRU

文本纠错

  • bi-gram + levenshtein

3.图像字幕(Image Captioning)

mage字幕是为给定图像生成文本描述的任务。

下面是一些很好的初学者图像字幕数据集。

  1. 上下文中的公共对象(COCO)。包含超过12万张带描述的图像的集合

  2. Flickr 8K。从flickr.com获取的8千个描述图像的集合。

  3. Flickr 30K。从flickr.com获取的3万个描述图像的集合。欲了解更多,请看帖子:

探索图像字幕数据集,2016年

4.机器翻译(Machine Translation)

机器翻译是将文本从一种语言翻译成另一种语言的任务。

下面是一些很好的初学者机器翻译数据集。

  1. 加拿大第36届议会的协调国会议员。成对的英语和法语句子。

  2. 欧洲议会诉讼平行语料库1996-2011。句子对一套欧洲语言。有大量标准数据集用于年度机器翻译挑战; 看到:

统计机器翻译

机器翻译

  • Encoder + Decoder(Attention)

  • 参考案例:

  • http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html

5.问答系统(Question Answering)

问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。

下面是一些很好的初学者问题回答数据集。

  1. 斯坦福问题回答数据集(SQuAD)。回答有关维基百科文章的问题。

  2. Deepmind问题回答语料库。从每日邮报回答有关新闻文章的问题。

  3. 亚马逊问答数据。回答有关亚马逊产品的问题。有关更多信息,请参阅帖子:

数据集:我如何获得问答网站的语料库,如Quora或Yahoo Answers或Stack Overflow来分析答案质量?

6.语音识别(Speech Recognition)

语音识别是将口语的音频转换为人类可读文本的任务。

下面是一些很好的初学者语音识别数据集。

  1. TIMIT声学 - 语音连续语音语料库。不是免费的,但因其广泛使用而上市。口语美国英语和相关的转录。

  2. VoxForge。用于构建用于语音识别的开源数据库的项目。

  3. LibriSpeech ASR语料库。从LibriVox收集的大量英语有声读物。

7.自动文摘(Document Summarization)

文档摘要是创建较大文档的简短有意义描述的任务。

下面是一些很好的初学者文档摘要数据集。

  1. 法律案例报告数据集。收集了4000份法律案件及其摘要。

  2. TIPSTER文本摘要评估会议语料库。收集了近200份文件及其摘要。

  3. 英语新闻文本的AQUAINT语料库。不是免费的,而是广泛使用的。新闻文章的语料库。欲了解更多信息:

文档理解会议(DUC)任务。在哪里可以找到用于文本摘要的良好数据集?

命名实体识别

  • Bi-LSTM CRF

  • 参考案例:

    http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html

  • CRF推荐文档:

    https://www.jianshu.com/p/55755fc649b1

文本摘要

  • 抽取式

  • word2vec + textrank

  • word2vec推荐文档:

    https://www.zhihu.com/question/44832436/answer/266068967

  • textrank推荐文档:

    https://blog.csdn.net/BaiHuaXiu123/article/details/77847232

Graph图计算【慢慢更新】

  • 数据集: data/nlp/graph

  • 学习资料: spark graphX实战.pdf 【文件太大不方便提供,自己百度】

进一步阅读

如果您希望更深入,本节提供了其他数据集列表。

  1. 维基百科研究中使用的文本数据集

  2. 数据集:计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?

  3. 斯坦福统计自然语言处理语料库

  4. 按字母顺序排列的NLP数据集列表

  5. 该机构NLTK

  6. 在DL4J上打开深度学习数据

  7. NLP数据集

  8. 国内开放数据集:

    https://bosonnlp.com/dev/resource

    原文地址

    https://github.com/apachecn/AiLearning

    注意:需要直接打开网址或者“阅读原文”才能打开文章里的链接

请关注和分享↓↓↓ 

本站的知识星球(黄博的机器学习圈子)ID:92416895

目前在机器学习方向的知识星球排名第一

往期精彩回顾

  • 良心推荐:机器学习入门资料汇总及学习建议(2018版)

  • 黄海广博士的github镜像下载(机器学习及深度学习资源)

  • 吴恩达老师的机器学习和深度学习课程笔记打印版

  • 机器学习小抄-(像背托福单词一样理解机器学习)

  • 首发:深度学习入门宝典-《python深度学习》原文代码中文注释版及电子书

  • 机器学习的数学基础

  • 机器学习必备宝典-《统计学习方法》的python代码实现、电子书及课件

  • 吐血推荐收藏的学位论文排版教程(完整版)

  • Python环境的安装(Anaconda+Jupyter notebook+Pycharm)

  • Python代码写得丑怎么办?推荐几个神器拯救你

推荐ApacheCN开源的一个机器学习路线图相关推荐

  1. 【转载保存】推荐ApacheCN开源的一个机器学习路线图

    转载:https://mp.weixin.qq.com/s/EMWFFPsaKaGc8FO1g-htzg 推荐ApacheCN开源的一个机器学习路线图 原创: 机器学习初学者 机器学习初学者 今天 推 ...

  2. 微软又开源了一个机器学习框架,这次是核心产品的机器学习引擎infer.NET

    乾明 整理编译自 Microsoft Research Blog 量子位 报道 | 公众号 QbitAI 感觉微软对开源上瘾了. 在开源了跨平台机器学习框架ML.NET之后,微软又开源了一个非常重要的 ...

  3. [转] 人工智能之机器学习路线图

    人工智能之机器学习路线图 标签: 机器学习计算机iphone算法 2016-09-07 23:21 6197人阅读 评论(2) 收藏 举报 目录(?)[+] 1. 引言 也许你和这个叫『机器学习』的家 ...

  4. 干货|全面介绍微软开源可解释机器学习框架InterpretML

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 转自:机器之心 起初,机器于黑暗之中学习,为解释它们,数据科学家于虚空之中挣扎. 然后, ...

  5. 超过3000赞的「机器学习路线图」,教你升级打怪全攻略

    互联网的一个问题就是:信息太多. 对想要学习机器学习的人来说,信息太多也是一种困扰,开放的课程.书籍.框架.开源代码那么多,每套资料都有自己的好处,有人说这个课程好,有人说那个框架最好用. 那么,对新 ...

  6. 机器学习系列(7)_机器学习路线图(附资料)

    作者:寒小阳&&龙心尘 时间:2016年2月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50759472 http:/ ...

  7. 人工智能之机器学习路线图

    1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸:也自然而然点开今日头条推给你的新闻:也习惯逛淘宝点了找相似之后货比三家:亦或喜闻乐 ...

  8. (转)机器学习系列(7)_机器学习路线图(附资料)

    作者:寒小阳&&龙心尘 时间:2016年2月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50759472 http:/ ...

  9. ChatGPT推荐的开源项目,到底靠不靠谱?

    今天我们让ChatGPT推荐一些开源项目,看看这些项目到底靠不靠谱? 首先,我们需要明确一个概念,那就是什么是开源项目.开源项目是指代码开放.可自由使用.修改和分发的软件项目.开源项目的优点显而易见, ...

最新文章

  1. 【百家稷学】深度学习与嵌入式平台AI实践(北京交通大学实训)
  2. 2019ICPC(南昌) - Fire-Fighting Hero(最短路+思维)
  3. Magento教程 19:客户评论的审核与发布! (Pending Reviews)
  4. 如何在React Native中构建项目并管理静态资源
  5. ACM MM2021 HANet:从局部到整体的检索!阿里提出用于视频文本检索的分层对齐网络HANet!代码已开源!...
  6. HTML的a标签href设为零操作的原因和方式
  7. Gesture APIs-Furthering Windows Mobile 6.5 Touch Gesture Framework
  8. 解密javascript模块载入器require.js
  9. lumaQQ.net 学习分析
  10. 删除可恶的7654.com,7654导航篡改首页恢复,如何解决浏览器被7654劫持
  11. 删除表记录(delete from where )
  12. java基于springboot小说下载网站管理系统源码
  13. 花几十万推广系统?这家跨国物流企业告诉你大可不必!
  14. IDEA 代码分屏编辑对比: split vertically
  15. 【懒人神器,批量src】Serein,一个可以对无数个网站进行漏洞检测的软件
  16. 如何利用SQL注入进行爆库
  17. 2023年软考报哪门比较好?
  18. 利用python打开word文件
  19. 打造一个实用的Ubuntu
  20. js如何获取元素内容

热门文章

  1. 《C++标准程序库》笔记之二
  2. 工厂模式一之简单工厂
  3. 一、mysql使用入门
  4. python中零碎的一点东西
  5. Entity Framework 5.0基础系列
  6. IIS5.1错误,启动时WEB服务提示:服务器没有及时响应启动或控制请求 之终极解决方案。...
  7. 27对象的向上向下转型
  8. 机器人学习--各种学习资源(初稿)
  9. servlet 中 out.println(中文) 乱码 问题
  10. static关键字的使用