前言

最近,实验室有一个项目,做股市文本分析,通过定期获取股民关于股票的评论并结合其他因素来判定股票的涨跌情况。
在读《python自然语言处理实战 核心技术与算法涂铭、刘祥、刘树春著。我打算出一系列关于此书的笔记。
此书代码下载地址为:https://github.com/nlpinaction/learning-nlp

NLP基础

什么是NLP

NLP基本概念

NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。

NLP
自然语言理解
自然语言生成
音系学
词态学
句法学
语义句法学
语用学
自然语言文本

NLP的研究任务

  • 机器翻译:计算机具备将一种语言翻译成另一种语言的能力
  • 情感分析:计算机能够判断用户评论是否积极
  • 智能问答:计算机能够正确回答输入的问题
  • 文摘生成:计算机能够准确归纳,总计并产生文本摘要
  • 文本分类:计算机能够菜鸡各种文章,进行主题分析,从而进行自动分类
  • 舆论分析:计算机能够判断当前舆论的导向
  • 知识图谱:知识点相互连接而成的语义网络

NLP的发展与应用

萌芽期(1956年以前) -> 快速发展期(1980-1999) -> 突飞猛进期(2000至今)
萌芽期:这一时期,虽然诸如贝叶斯方法、隐马尔可夫、最大熵、支持向量机等经典理论和算法也有提出,但自然语言处理领域的主流仍然是基于规则的理性主义方法。
快速发展期:基于统计、基于实例和基于规则的语料库技术在这一时期开始蓬勃发展,各种技术开始融合。
突飞猛进期:深度学习在机器翻译、问答系统等多个自然语言处理任务中均取得了不错的成果,相关技术也被成功应用于商业化平台中。

NLP常用术语以及扩展介绍

基本术语

  • 分词
  • 词性标注
  • 命名实体识别
  • 句法分析
  • 代指消解
  • 情感识别
  • 纠错
  • 问答系统

知识结构

  • 句法语义分析
  • 关键词提取
  • 文本挖掘
  • 机器翻译
  • 信息检索
  • 问答系统
  • 对话系统

语料库

中文维基百科:https://dumps.wikimedia.org/zhwiki/
搜狗新闻语料库:http://download.labs.sogou.com/resource/ca.php
IMDB情感分析语料库:https://www.kaggle.com/tmdb/tmdb-movie-metadata

探讨NLP的几个层面

  1. 第一层面:词法分析
  2. 第二层面:句法分析
  3. 第三层面:语义分析

后文

NLP前置技术解析

中文分词技术

词性标注与命名实体识别

关键词提取算法

句法分析

文本向量化

情感分析技术

NLP中用到的机器学习算法

基于深度学习的NLP算法

Solr搜索引擎

【NLP-笔记】开篇相关推荐

  1. NLP笔记:常用激活函数考察整理

    NLP笔记:常用激活函数考察整理 0. 引言 1. 常用激活函数 1. sigmoid 2. softmax 3. relu系列 1. relu 2. leaky relu 3. elu 4. sel ...

  2. 《Natural Language Processing with PyTorch》 Chapter 2: A Quick Tour of Traditional NLP 笔记

    <Natural Language Processing with PyTorch> Chapter 2: A Quick Tour of Traditional NLP 笔记 这本书 本 ...

  3. NLP笔记:word2vec简单考察

    NLP笔记:word2vec简单考察 1. 简介 2. word2vec原理介绍 3. gensim实现 4. tensorflow实现 1. cbow方式 2. skip gram方式 3. 直接生 ...

  4. 网站美工设计学习笔记-开篇

    网站美工设计学习笔记-开篇: 从今天开始学习网站美工方面的知识,希望和广大UI设计师一同成长. 目的: 1. 学习网站美工基础知识. 2. 有能力处理网站Banner设计,导航设计,图片美工,登陆注册 ...

  5. iBATIS学习笔记开篇

    因工作需要,从今天开始,计划一个月内学懂学透.net下的iBATIS.关于iBATIS,网上有很多介绍(官方网站),我会把学习(.net下的)iBATIS的笔记整理成一个系列来写,希望对有相同需求的朋 ...

  6. NLP 笔记:Skip-gram

    1 skip-gram举例 假设在我们的文本序列中有5个词,["the","man","loves","his",&qu ...

  7. 【NLP笔记】文本生成?还不快上知识库

    来自 | 知乎 地址 | https://zhuanlan.zhihu.com/p/163343976 作者 | 三和厂妹 编辑 | 机器学习算法与自然语言处理公众号 本文已获得作者授权,未经许可禁止 ...

  8. Coursera NLP 笔记02

    找到一个很好的英语笔记,等有空了再整理第二章http://files.asimihsan.com/courses/nlp-coursera-2013/notes/nlp.html#the-trigra ...

  9. UCOSII学习笔记[开篇]

    学习及使用单片机的时间到现在为止其实不是很长,中间断断续续的大概也有两三年的时间了.因为一直在上学,现在也上了研究生了,中间所涉及的东西并不是很多,研究也不是很透彻和深入.上研究生以来,选择了我十分有 ...

  10. 【ESP32+freeRTOS学习笔记-开篇前言】

    目录 前言的前言 RTOS的选择 开发与实践环境 参考资料 笔记的形式 专题文章的链接(持续更新中......) 前言的前言 单片机的开发,也有两年多了,之前一直是做一些简单应用,因此以裸机开发的方式 ...

最新文章

  1. python学习第三天-Linux入门之二
  2. 在腾讯工作半年,我获得了什么?
  3. 产品经理的必经之路:搭建属于自己的成长模型
  4. [20180428]DNS与ORA-12154错误.txt
  5. NO.106 需求的状态、研发阶段及注意事项。
  6. B站获得英雄联盟赛事直播三年独播版权
  7. 为ESXi 4.x / 5.x / 6.x / 7.x创建持久暂存位置(1033696)
  8. python的浮点数占 个字节_Python的浮点数占 个字节。_学小易找答案
  9. J2SE5 中的最新注释功能SuppressWarnings(转)
  10. 朱松纯:三读《赤壁赋》,并从人工智能的角度解读“心”与“理”的平衡
  11. SQL语言中的连接表
  12. (附源码)小程序 校园二手交易平台 毕业设计 191637
  13. 图解千兆网线水晶头接法(存档备用)
  14. android源码分析!程序员怎样优雅度过35岁中年危机?送大厂面经一份!
  15. NodeMCU(ESP8266)使用HTTP Get和Post
  16. 单片机:直流电机(内含ULN2003芯片,硬件原理及解析,软件编程及注释)
  17. Pygame详解:前言
  18. 使用Visual Studio Code进行ABAP开发
  19. 与苹果和谷歌抗争堡垒创造者发动了远征
  20. Google实用高级搜索技巧总结

热门文章

  1. 多个excel表格数据汇总均值
  2. Unity平行光源方向_WorldSpaceLightPos0自定义
  3. 黑客余弦——我的世界观(一)【转】
  4. CentOS7.6的详细安装步骤
  5. 关于2022年国外广告联盟emu还能做吗?还赚钱不
  6. java实现猴子排序_Java排序 - 不实用的几个排序算法 -- 睡眠排序、猴子排序、面条排序、珠排序...
  7. win10自带虚拟机好用吗_虚拟机的新选择,win10自带Hyper-V 虚拟机
  8. springboot配置redis(单节点)
  9. (精)广东工业大学《数据可视化技术》 2018实验报告
  10. redmine backlogs的tracker使用