出版社:中国青年出版社—北京中青雄狮数码传媒科技有限公司

大数据时代,用Python快速分析挖掘更有价值的信息!

一个以大数据与人工智能技术为核心的新的工业革命时代已经来临,大数据在企业决策中扮演着越来越重要的角色,数据经过高效的智能数据分析与挖掘等人工智能技术处理后,可以产生巨大价值,创造智能,方便生活。现在“统计分析和数据挖掘”已跻身最受欢迎的求职技能行列,数据分析师的薪酬待遇也远远超过平均薪资水平。

《Python文本数据分析与挖掘》数据分析师初学者必备,书中用简单明快的例子演示应用效果,并配有视频展示,下载资料包即可获取视频和二维码,不会让你感觉枯燥摸不到头脑。

本书特点

特点1:

引进外版机器学习领域畅销书!专注于如何快速应用!

特点2 :

作者的实战经验总结!100%干货分享,导入篇→基础篇→实践篇,循序渐进。

特点3:

案例都配对应视频讲解,随时随地学习无压力!下载资料包即可获取视频和案例二维码!

特点4:

提供在线交流群,与志同道合小伙伴一起加油!

内容简介

《Python文本数据分析与挖掘》将自然语言处理技术统计处理技术视为工具,不会涉及到其繁琐的原理、数学定理等。书中利用操作简便的Python程序包来处理文本数据,探索文本挖掘可以帮我们做到的事情,而非用尖端的技术进行程序设计。书中用简单明快的例子演示应用效果,并配有视频展示,下载资料包即可获取视频和案例二维码!

本书通过5个章节介绍相关知识,第1章介绍文本挖掘的整体印象;在第2章中概括介绍了本书后面用到的Python的必要知识;第3章中介绍文本处理相关的基本概念和观点;第4章中利用Python学习作为基础处理的频率分析方法和其能得到的结果;最后,在第5章中介绍文本挖掘需要用到的各种具体方法以及在Python中的处理步骤。

作者简介

【日】山内长承:1975年毕业于东京大学工学部电子工学专业。1977年完成工学专业课程硕士课程。1978年进入斯坦福大学电气工学专业,1984年退出博士课程,进入日本艾比·艾姆东京基础研究所工作。2000年加入到东邦大学理学部情报科学科,任东邦大学理学部情报科学科教授。

精彩文摘

1.1 什么是文本挖掘

文本挖掘是指从文本数据中把信息挖掘出来,如同从大量沙土中找出被掩埋的宝贵钻石,文本挖掘是从大量文本数据中找出被掩埋的“有意义的信息”。

通过使用自然语言处理技术和统计学工具,从大量的文本数据中提取出压缩后有意义的信息。在这里,我们分别使用“文本数据”和“信息”这两个词。先说文本数据,比如各种各样的文件、在社交平台上发布的信息、关于产品或服务的问卷调查结果,这些数据的产生都有原本的目的。也就是说,我们是为了写文件、为了在社交平台上发布信息、为了评价产品或服务等目的,才去写作各种文本,而这些文本就是我们输入的“数据”。文本挖掘,就是从这些数据入手,比如从社交平台中提取出最近的流行趋势,从问卷调查中提取出对某种商品或服务的整体评价和出现的问题(图1-1)。而上面说的从社交平台上提取的流行趋势、通过问卷得到的评价和问题,和原来的文本数据相比,被大幅度地压缩了。我们把压缩后得到的东西称为“信息”。

2.4.3 图表、图形绘制库Matplotlib

Matplotlib主要是绘制二维图表、图形、图像的库。Matplotlib不仅可以绘制画面,还可以直接在文件中输出画面。Matplotlib有很多功能,其中辅助函数pyplot是可以绘制简单图表的程序包,本书也会使用这个功能来绘制图表,下面我们先来看一下绘制点的简单制图程序(例2.3)。

Matplotlib除了可以绘制点,还可以绘制直线图、折线图、柱状图等图形。接下来我们来看一下使用Matplotlib绘制的折线图(例2.4)。

执行程序后可以看到图2-5中的折线图效果。

在之后的数据分析中,我们也可以通过柱形图分析有效信息。使用Matplotlib绘制柱形图的方法如例2.5所示。

可以看到如图2-6所示的效果。

内页展示

目录

前言

第1章 文本挖掘的概要

1.1 什么是文本挖掘

1.2 应用实例

第2章 Python概要和实验准备

2.1 什么是Python

2.2 编写、运行程序的环境

2.3 Python的语法规则

2.4 可用于文本挖掘的程序包

2.5 数据的准备

第3章 文本分割和数据分析的方法

3.1 文本的构成元素

3.2 统计分析、数据挖掘的基本方法

3.3 文本挖掘特有的方法

第4章 频率统计的实际应用

4.1 文字单位的出现频率分析

4.2 单词的出现频率分析

第5章 文本挖掘的各种处理示例

5.1 连续·N-gram的分析和利用

5.2 词的重要性和TF-IDF分析

5.3 基于KWIC的检索

5.4 基于单词属性的积极消极分析

5.5 基于WordNet的同义词检索

5.6 句法分析和关联分析的实际操作

5.7 语义分析和Word2Vec

附录 Python编程环境的简单安装

A.1 什么是开发环境

A.2 在Windows10上的安装

A.3 开始使用Jupyter Notebook

A.4 作业结果的保存和Jupyter Notebook的结束

今日福利

赠送 本书籍,书籍由出版社赞助,书籍列表附后,书籍任选。

通过在本文留言参与,留言的主题如下:

  1. 聊聊你对Python数据分析的理解?

  2. 推荐一本书你读过的,觉得不错的书籍,并用一句话来描述你推荐的原因。

参与方式:在公众号Python数据之道」的本篇文章底部点击「在看」+「留言」,优质留言才可上墙!留言点赞数量最多的「前5位」读者将获得书籍,截止时间「5月22号20点」,最终获赠者通过留言联系我。

PS:禁止恶意刷赞!发现后将进入黑名单,取消上墙资格。

可选书籍列表

点击“阅读原文”前往购买链接。

Python文本数据分析与挖掘,外版畅销书中文版火爆上市相关推荐

  1. 利用Python进行数据分析(第2版)

    Wes McKinney 是流行的Python开源数据分析库pandas的创始人.他是一名活跃的演讲者,也是Python数据社区和Apache软件基金会的Python/C++开源开发者.目前他在纽约从 ...

  2. python文本数据分析-新闻分类任务

    python文本数据分析-新闻分类任务 文本分析 文本数据 停用词:1.语料中大量出现:2.没啥大用:3.留着过年嘛?所以根据停用词表进行筛选,去掉这些停用词. Tf-idf:关键词提取 <中国 ...

  3. 30天数据分析与机器学习实践之Day16——Python文本数据分析:新闻分类任务

    30天数据分析与机器学习实践之Day16--Python文本数据分析:新闻分类任务 一.文本分析与关键词提取 1.1文本数据 1.2停用词 1.语料中大量出现2.没啥大用3.留着过年嘛? 1.3Tf- ...

  4. python文本分析与挖掘(一)-构建语料库

    实现功能: python文本分析与挖掘(一)-构建语料库 实现代码: import os from warnings import simplefilter simplefilter(action=' ...

  5. Python大数据分析与挖掘实战微课版答案 Python大数据分析与挖掘实战课后答案 例题 课后作业 python题目 python题库 数据分析与挖掘题库 数据分析与挖掘项目

    (在此仅展示题目,所有数据.代码.答案.习题等点我头像,在资源中!!!) 以下关于pandas 数据预处理说法正确的是(). A. pandas没有做哑变量的函数 B. 在不导入其他厍的情况下,仅仅使 ...

  6. python文本热点问题挖掘_Pyhon数据分析项目—动态新闻标题热点挖掘.pdf

    <用Python 玩转数据>项目-动态新闻标题热点挖掘 一.背景 新闻标题是新闻的主旨,从新闻标题中可以进行多种内容的挖掘,例如可以爬取一定时 间段内的新闻进行分析获得热点词.新浪各地新闻 ...

  7. 利用python进行数据分析第一版和第二版区别_《利用Python进行数据分析·第2版》第1章 准备工作...

    1.1 本书的内容 本书讲的是利用Python进行数据控制.处理.整理.分析等方面的具体细节和基本要点.我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专 ...

  8. 【读书笔记】《利用Python进行数据分析》第2版_第六章 数据载入、存储及文件格式

    6.1 文本格式数据的读写 将表格型数据读取为DataFrame对象:read_csv()和read_table() Pandas的解析函数 可选参数 索引:可以将一或多个列作为返回的DataFram ...

  9. python文本热点问题挖掘_基于文本挖掘的网络热点舆情分析

    基于文本挖掘的网络热点舆情分析 罗怡薇,张科伟 [摘 要] 爬取豆瓣上的网络新闻热点,获取了相关文本数据,运用文本挖掘对 网络热点进行了分析,进而达到网络热点舆情分析.监测的目的. [期刊名称] 内蒙 ...

  10. python金融数据分析与挖掘实战 黄恒秋_Python金融数据分析与挖掘实战

    领取成功 您已领取成功! 您可以进入Android/iOS/Kindle平台的多看阅读客户端,刷新个人中心的已购列表,即可下载图书,享受精品阅读时光啦! - | 回复不要太快哦~ 回复内容不能为空哦 ...

最新文章

  1. Linux下Shell重定向
  2. 开机BIOS语言(转载)
  3. Shadow mapping
  4. 【讲●解】KMP算法
  5. 5.Excel日期时间函数类应用
  6. jzoj3519-灵能矩阵【LCM,树形dp】
  7. python可以处理哪些文件_4招小技巧,带你迅速提升Python文件处理的逼格
  8. 基于情感词典进行情感态度分析
  9. 锐捷服务器虚拟化技术_锐捷核心交换机VSU虚拟化配置
  10. python如何拼读英语单词怎么写_如何快速拼读英语单词?
  11. 马蜂窝都斌出席广西自驾游大会:大数据将成自驾市场增长新引擎
  12. 通过ODC方法改善软件测试:3个案例研究
  13. tolower c语言,C 库函数 tolower() 使用方法及示例
  14. java 调停者模式_[Java教程]《JAVA与模式》之调停者模式
  15. Cannot get a STRING value from a NUMERIC cell
  16. 如何增加百度收录有什么方法
  17. mysql与redis数据同步(c/c++)(写mysql同步到redis,并且以json格式保存)
  18. 泰山OFFICE技术讲座:标点关系穷举研究-07
  19. [日语二级词汇]日语二级必会汉字总结10
  20. 软件项目管理的三大目标演化

热门文章

  1. SQLyog详细使用教程
  2. Python3.WRF的投影转换
  3. 全球光伏产业战加剧:美国考虑对进口太阳能电池施加紧急关税
  4. 基于正点原子STM32的OLED显示实验
  5. linux的源码安装步骤(以安装nginx为例)
  6. GeoMAN:多层Attention网络用于地理传感器的时序性预测
  7. c#模板保存并读取.mdl文件
  8. Linux内核编程(1)
  9. python qq群管理_Python selenium 加载并保存QQ群成员,去除其群主、管理员信息的示例代码...
  10. Java设计模式——GoF设计模式