11 如何提高你的NLP技能

  • 11.1 开始新的NLP职业生涯
  • 11.2 备忘列表
  • 11.3 确定你的领域
  • 11.4 通过敏捷的工作来实现成功
  • 11.5 NLP和数据科学方面一些有用的博客
  • 11.6 使用公开的数据集
  • 11.7 数据科学领域需要的数学知识
  • 11.8 总结

本附录将为您提供更多关于如何提高NLP技能的信息。这也将帮助您更新您的知识。

11.1 开始新的NLP职业生涯

如果你是一名编码员,想要在NLP工作,那么记住以下几点:

NLP,和人工智能一样,发展得如此之快,以至于你仅仅获得这些技能是远远不够的。您还需要更新它们。

Kaggle是所有NLP和数据科学人员最好的学习平台之一。如果你是第一次听说这个Hackathon平台,那么我相信通过点击这个链接,你不会失望:https://www.kaggle.com/。

参加格格舞比赛。学习、讨论和实施。

如果你来自编码背景,那么github就是你的新简历。所以,尝试创建新项目并将它们放到Github上。

参与开源社区项目。这将有助于您的思考过程,以及您的编码技能。

参加各种会议。尝试探索新的想法和技术。

阅读研究论文和文章。

成为社区和对话的一部分。

问问题。简言之,打开你自己的锁。

想想产品架构。

把你所有的学习结合起来,试着看到你的开发产品的大局。

如果你认为你已经学到了足够的东西,那么再想想。有时,您尝试过的用例、应用程序等非常相似,以至于您找不到非常有趣的东西。回忆你所有的学习和经历。给你的想法一个更好的新方向(就像牛顿或爱因斯坦一样)。他们停止学习,开始思考,给了我们伟大的科学理论。试着做一些对他人生活有积极影响的有用的事情。

11.2 备忘列表

我在这个链接上为库和框架提供备忘表:
https://github.com/jalajthanaki/NLPython/tree/master/Appendix2/Cheatsheets
备忘表包括以下库、工具和框架。这些备忘单不是我写的。我想充分赞扬为以下主题制作了备忘表的个人作者:
Linux books for beginners
Python
NumPy
SciPy
pandas
Fask
scikit-learn
TensorFlow API at https://www.tensorflow.org/api_docs/python/
TensorFlow cheat sheet at
https://github.com/crscardellino/cheatsheets/blob/master/tensorflow.md
which was made by Cristian Cardellino
Keras
PySpark
Math
Git
Linux

11.3 确定你的领域

读完所有的章节后,你可能知道足够的知识来决定你喜欢什么。是否要构建核心ML内容?您喜欢在Hadoop、Spark等框架上工作吗?你喜欢设计框架吗?您想为可视化做出贡献吗?思考和选择。

您可以从数据科学中选择任何领域,也可以成为整个数据科学产品开发生命周期的一部分。我想举个例子。我曾与中型企业和初创企业合作过。到目前为止,我有自由探索与数据科学相关的各个领域,例如提出一个数据科学产品和发布该产品。在分析了商业机会后,我曾经提出过一种新产品。我总是认为,如果我们要生产这个产品,那么我们的最终用户会使用它,作为回报,我所工作的公司将获得它的积极影响,从而验证我的产品提案。然后,我将通过问许多问题开始设计部分的工作,例如我们需要什么类型的数据,我们将使用什么数据资源,我们需要收集哪些关键数据点,产品的架构是什么,我们将使用什么机器学习模型,我们将如何与现有产品集成,当WI我们可以释放它,等等。如果你像我一样思考,想要在所有领域,以及数据科学产品的每个组成部分上工作,那么这是一件非常好的事情。只需用心并充满激情地完成你的工作。也可以看到大局。

11.4 通过敏捷的工作来实现成功

NLP或其他与数据科学相关的项目需要多次迭代才能获得最佳输出。你需要理解问题陈述。在此之后,为了获得最佳结果,您需要从分析数据开始。在分析了数据之后,做一个基本的原型。然后验证您的模型。如果它给你最好的结果,那么你就完成了;如果没有,那么尝试实现不同的算法,进行超参数调整,或者更改或改进你的特性集。你需要在工作过程中保持敏捷。试着找出你的问题或错误,然后做聪明的迭代。询问有关堆栈溢出的问题。尝试搜索答案。这真的对你有帮助。用所有的技术和工具来更新你自己。有一些库可以解决您的问题。寻找任何可用的付费第三方工具,并尝试了解其工作原理。在使用该工具之后,您有可能成为产品的主人,并且您的产品对最终用户更有价值。

11.5 NLP和数据科学方面一些有用的博客

Here are some important blogs for NLP and data science:
http://www.datasciencecentral.com/
https://nlp.stanford.edu/blog/
http://www.kdnuggets.com/
https://nlpers.blogspot.in/
https://lingpipe-blog.com/lingpipe-home-page/

11.6 使用公开的数据集

以下是可用数据集的列表:
Kaggel dataset: https://www.kaggle.com/datasets
UCI machine learning: http://archive.ics.uci.edu/ml/
Reddit: https://www.reddit.com/r/datasets/
包含公共数据集列表的出色Github存储库:
https://github.com/caesar0301/awesome-public-datasets
Google Advanced Search is also handy when you are searching for datasets:
https://www.google.co.in/advanced_search

11.7 数据科学领域需要的数学知识

如果你是非技术背景的学生,你想学习数学可能对你的NLP或其他任何数据科学项目有帮助,然后你可以开始从此网站学习:
h t t p s ?/w w w . k h a n a c a d e m y . o r g /m a t h .
如果要访问参考链接、研究论文和书籍,则可以单击以下Github链接:
https://github.com/jalajthanaki/NLPython/tree/master/Appendix2

11.8 总结

本节的重点是向您提供有关安装各种库的详细信息。我还提供了各种IDE的安装步骤。为了让您的生活更轻松,我开发了一个PIP需求文档。通过运行前面给出的命令,您将能够安装python依赖项。我已经给出了在您的机器上安装Hadoop和Spark的步骤,并在单个节点集群中运行这两个步骤。如果你想问我安装方面的问题,你也可以和我联系。

致谢
《Python自然语言处理》1 2 3,作者:【印】雅兰·萨纳卡(Jalaj Thanaki),是实践性很强的一部新作。为进一步深入理解书中内容,对部分内容进行了延伸学习、练习,在此分享,期待对大家有所帮助,欢迎加我微信(验证:NLP),一起学习讨论,不足之处,欢迎指正。

参考文献


  1. https://github.com/jalajthanaki ↩︎

  2. 《Python自然语言处理》,(印)雅兰·萨纳卡(Jalaj Thanaki) 著 张金超 、 刘舒曼 等 译 ,机械工业出版社,2018 ↩︎

  3. Jalaj Thanaki ,Python Natural Language Processing ,2017 ↩︎

《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:11 如何提高你的NLP技能相关推荐

  1. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:08 自然语言处理中的机器学习方法

    08 自然语言处理中的机器学习方法 8.1 机器学习的基本概念 8.1.1 ML类型 8.1.2 ML 监督学习 8.1.3 无监督学习 8.1.4 强化学习 8.2 自然语言处理应用的开发步骤 8. ...

  2. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:07 规则式自然语言处理系统

    07 规则式自然语言处理系统 7.1 规则式系统 7.2 规则式系统的目的 7.2.1 为何需要规则式系统 7.2.2 使用规则式系统的应用 7.2.3 练习 7.2.4 开发规则式系统需要的资源 7 ...

  3. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:05 特征工程和NLP算法

    05 特征工程和NLP算法 5.1 理解特征工程 5.1.1 特征工程的定义 5.1.2 特征工程的目的 5.1.3 一些挑战 5.2 NLP中的基础特征 5.2.1 句法解析和句法解析器 5.2.2 ...

  4. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:06 高级特征工程和NLP算法

    06 高级特征工程和NLP算法 6.1 词嵌入 6.2 word2vec基础 6.2.1 分布语义 6.2.2 定义word2vec 6.2.3 无监督分布语义模型中的必需品 6.3 word2vec ...

  5. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:04 预处理

    03 预处理 4.1 处理原始语料库文本 4.1.1 获取原始文本 4.1.2 小写化转换 4.1.3 分句 4.1.4 原始文本词干提取 4.1.5 原始文本词形还原 4.1.6 停用词去除 4.2 ...

  6. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:10 高级工具

    10 高级工具 10.1 使用Apache Hadoop作为存储框架 10.2 使用Apache Spark作为数据处理框架 10.3 使用Apache Flink作为数据实时处理框架 10.4 Py ...

  7. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:12 安装指导

    12 安装指导 12.1 安装Python.pip和NLTK 12.2 安装PyCharm开发环境 12.3 安装依赖库 12.4 框架安装指导 12.5 解决你的疑问 12.6 总结 本附录为您提供 ...

  8. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:03 理解句子的结构

    03 理解句子的结构 3.1 理解NLP的组成 3.1.1 自然语言理解 3.1.2 自然语言生成 3.1.3 NLU和NLG的区别 3.1.4 NLP的分支 3.2 上下文无关文法 3.3 形态分析 ...

  9. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:02 语料库和数据集

    什么是语料库? 为什么我们需要语料库? 理解语料库分析? 数据属性的类型 语料库的不同文件格式 免费语料库的资源 为NLP应用准备数据集 网页爬取 什么是语料库? 在语料库中,大数据集合可以采用以下格 ...

最新文章

  1. C#精髓【月儿原创】第二讲 WMI完美秀出CPU编号厂商主频百分比等全部信息
  2. srs 配置http flv集群
  3. 前序中序确认二叉树 7-23 还原二叉树(25 分)
  4. 【算法基础】坚持刷题678天的感受!
  5. 工业相机(3D)主要参数详述
  6. 谷歌在外贸中的实战解析
  7. android 全局dp单位,android应用开发之View的大小计量单位(px、dpi、dp、dip、sp)
  8. 更高效地刷OJ——Java中常用的排序方法,Array.sort(),Arrays.parallelSort(), Collections.sort()
  9. Android(Fragment和Activity之间通信)
  10. Ubuntu 15.04 或更新版 更新源/Ubuntu 15.04 Vivid Vervet更新源已可用
  11. 黑马python培训全套视频
  12. TN3399开发板折腾记录
  13. js获取上周、本周、上月、本月、第一天和最后一天
  14. 为什么html中使用不了样式,css不起作用是什么原因?
  15. 【Redux】异步action与同步action
  16. windows搭建redis java简易访问客户端
  17. java rmi tcp_Tomcat启动失败报错[RMI TCP Connection(4)-127.0.0.1] [RMI TCP Connection(3)-127.0.0.1]...
  18. 计算机软考高级职称论文,关于计算机软考,这里可以解决你所有的问题
  19. 阿里巴巴iconfont加入新的图标如何操作
  20. JPG转CAD,JPG图片如何转换成CAD图纸?

热门文章

  1. (R语言)离差阵 和 一些图的画法
  2. charles抓电脑版微信小程序包失败解决方案
  3. 1D CNN+2D CNN+3D CNN
  4. 关于免费实现外网访问内网的经验
  5. 【技术认证题库】齐治中级运维安全认证——RIS堡垒机习题
  6. python-docxtpl妙用:论文神器,excel习题集自动转换成word文档格式!
  7. 信号与系统分析2022春季作业-参考答案:第三次作业-第一部分
  8. java实现VEBTree
  9. 抽象工厂的缺点和解决方法
  10. 2022-05-07 designs_集群扩缩容设计方案