原标题:Python网络爬虫与文本数据分析

课程介绍

在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。

大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:

数据的获取

文本(非结构化)数据的处理与分析

数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。

课程试听

课程python语法入门和网络爬虫部分可免费试听,对python感兴趣的童鞋可以收藏观看~

试听

支付成功后,可下载腾讯课堂app或网页端打开腾讯课堂官网,使用微信扫码登录后即可学习

目录

一、准备阶段

Win中的Python配置

Mac中的Python配置

二、Python语法入门

Python跟英语一样是一门语言

数据类型之字符串

数据类型之列表元组集合

数据类型之字典

数据类型之布尔值、None

逻辑语句(if&for&tryexcept)

列表推导式

理解函数

常用的内置函数

内置库文件路径pathlib库

内置库csv文件库

内置库正则表达式re库

初学python常出错误汇总

三、数据采集

网络爬虫原理

网络访问requests库

网页解析pyquery库

实战:大众点评

实战:豆瓣读书

实战:Boss直聘

如何解析json数据

实战: 豆瓣电影

实战: 京东商城

如何用爬虫下载文档及多媒体文件

上市公司定期报告pdf批量下载

爬虫知识点总结

补充-用pandas采集表格数据

四、数据分析

Pandas基础知识

数据去重与缺失值处理

合并数据

重塑数据

选取表中指定记录(行)

选取表中指定字段(列)

描述性统计

在表中创建新字段(列)

批操作apply与agg

透视表pivot_table

数据分组groupby

时间序列时间点创建

日期数据的dt属性

日期行索引操作(选取指定日期的数据)

时间序列date_range

时间序列重采样resample

时间序列时间窗口rolling

实战:Kaggle titanic数据集探索性分析

实战:Boss直聘Python岗位分析

五、初识文本分析

文本分析在经管领域中的应用概述(1)

读取不同格式文件中的数据

实战:实战之如何将多个整理到一个excel中

中文分词及数据清洗

实战:词频统计

实战:中文情感分析(词典法)

实战:对excel中的文本进行情感分析

实战:共现法扩展情感词典(领域词典)

六、机器学习与文本分析

了解机器学习

使用机器学习做文本分析的流程

scikit-learn机器学习库简介

文本特征抽取(特征工程)

实战:在线评论文本分类

文本相似性计算

实战:使用文本相似性识别变化(政策连续性)

实战:Kmeans聚类算法

实战:LDA话题模型

简化版的LDA

文本分析在经管领域中的应用概述(2)

购买链接

扫码购买

支付成功后,可下载腾讯课堂app或网页端打开腾讯课堂官网,使用微信扫码登录后即可学习返回搜狐,查看更多

责任编辑:

python爬虫与数据分析实战27_Python网络爬虫与文本数据分析相关推荐

  1. [Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素、常用方法、键盘鼠标操作)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  2. [Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  3. 【python爬虫 系列】1.理解网络爬虫

    第一节:理解网络爬虫 1.1网络爬虫的定义 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.另外一些不常使用的名字还有 ...

  4. [Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  5. c#使用正则表达式获取TR中的多个TD_[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例...

    首先祝大家中秋节和国庆节快乐,欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都 ...

  6. 在不同领域,大家用爬虫怎么盈利的-Java网络爬虫系统性学习与实战系列(4)

    在不同领域,大家用爬虫怎么盈利的-Java网络爬虫系统性学习与实战系列(4) 文章目录 概述 出行抢票软件 微博上的僵尸粉 电商比价/返利平台 社区抓取数据和内容 联系方式 系列文章地址: Java网 ...

  7. Python爬虫总结——Scrapy+Gerapy部署网络爬虫

    Python爬虫总结--从基础爬虫到Scrapy+Gerapy部署网络爬虫 前言 一.常用pip模块介绍 1.NumPy库 2.Pandas库 3.Requests库 4.BeautifulSoup库 ...

  8. 【python爬虫学习篇】初识网络爬虫以及了解Web前端

    目录 1,初识爬虫 1.1,网络爬虫概述 1.2,爬虫的分类 1.3,网络爬虫的基本原理 1.4,搭建开发环境 2,了解web前端 2.1,HTTP基本原理 2.1.1HTTP协议 2.1.2,Web ...

  9. 什么是网络爬虫,我们为什么要学习网络爬虫?

    ​ 一.什么是网络爬虫 网络爬虫又称网络蜘蛛.网络蚂蚁.网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法.使用Python可以很方 ...

最新文章

  1. tableau实战系列(四十六)-如何用Tableau实现动态报表?​某咖啡店的销售数据报表(看板)​
  2. java解析html的table
  3. 第8.23节 Python中使用sort/sorted排序与“富比较”方法的关系分析
  4. canvas动画3:交互
  5. react跳转url,跳转外链,新页面打开页面
  6. JS对象的属性名规则
  7. 决策树 算法原理及代码
  8. oracle application r11i,有人在linux 2.1AS下安装过R11i吗?请帮忙解决如下问题
  9. 解决性能问题中SQL Server警报:SQL Server警报基础
  10. Ajax到底是什么?
  11. PAT1008数组元素循环右移问题(2,3测试点不过的解决办法)
  12. bootstarp怎么使盒子到最右边_江湖救急!盒子显示“很抱歉Launchercust 已停止运行” ?...
  13. 论通过测试与失败测试
  14. LoadRunner场景参数文件部分参数说明
  15. foobar2000播放器简单配置 [李园7舍_404]
  16. 【已解决】Android Studio下,gradle project sync failed 错误
  17. 微信小程序loding
  18. oracle删除字段约束条件,Oracle 数据库中关于对表字段约束的操作(设置、删除、查询)...
  19. 2022-2028年中国银行IT行业市场发展前景及投资风险评估报告
  20. Diocp学习笔记 3、服务端连接、发送、接收(以实际例子记录)(DELPHI 通讯框架)

热门文章

  1. 美研申请,你应该知道的那些事?
  2. SQL Server2000 未公开的存储过程
  3. c++中实现delphi的按类名生成类对象
  4. C/C++实现读取当前文件夹下的文件-popen
  5. Adversarial Validation 微软恶意代码比赛的一个kenel的解析
  6. 【CyberSecurityLearning 43】安装并启用telnet、SSH服务应用(★)
  7. 【CyberSecurityLearning 15】VLAN技术与Trunk
  8. 浅谈malloc,calloc,realloc函数之间的区别
  9. Windows上安装JDK
  10. 【那么普通却那么自信,一分钟学Source Insight】Source Insight 4 tab设置为4个空格