原标题:Python网络爬虫与文本数据分析

课程介绍

在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。

大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:

数据的获取

文本(非结构化)数据的处理与分析

数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。

课程试听

课程python语法入门和网络爬虫部分可免费试听,对python感兴趣的童鞋可以收藏观看~

试听二维码

目录

一、准备阶段

Win中的Python配置

Mac中的Python配置

二、Python语法入门

Python跟英语一样是一门语言

数据类型之字符串

数据类型之列表元组集合

数据类型之字典

数据类型之布尔值、None

逻辑语句(if&for&tryexcept)

列表推导式

理解函数

常用的内置函数

内置库文件路径pathlib库

内置库csv文件库

内置库正则表达式re库

初学python常出错误汇总

三、数据采集

网络爬虫原理

网络访问requests库

网页解析pyquery库

实战:大众点评

实战:豆瓣读书

实战:Boss直聘

如何解析json数据

实战: 豆瓣电影

实战: 京东商城

如何用爬虫下载文档及多媒体文件

上市公司定期报告pdf批量下载

爬虫知识点总结

补充-用pandas采集表格数据

四、数据分析

Pandas基础知识

数据去重与缺失值处理

合并数据

重塑数据

选取表中指定记录(行)

选取表中指定字段(列)

描述性统计

在表中创建新字段(列)

批操作apply与agg

透视表pivot_table

数据分组groupby

时间序列时间点创建

日期数据的dt属性

日期行索引操作(选取指定日期的数据)

时间序列date_range

时间序列重采样resample

时间序列时间窗口rolling

实战:Kaggle titanic数据集探索性分析

实战:Boss直聘Python岗位分析

五、初识文本分析

文本分析在经管领域中的应用概述(1)

读取不同格式文件中的数据

实战:实战之如何将多个整理到一个excel中

中文分词及数据清洗

实战:词频统计

实战:中文情感分析(词典法)

实战:对excel中的文本进行情感分析

实战:共现法扩展情感词典(领域词典)

六、机器学习与文本分析

了解机器学习

使用机器学习做文本分析的流程

scikit-learn机器学习库简介

文本特征抽取(特征工程)

实战:在线评论文本分类

文本相似性计算

实战:使用文本相似性识别变化(政策连续性)

实战:Kmeans聚类算法

实战:LDA话题模型

简化版的LDA

文本分析在经管领域中的应用概述(2)

领券购买

扫码领券购买

学习方式

电脑端学习,浏览器百度搜【腾讯课堂】,微信扫码登录账号,即可观看学习

手机端学习,安装【腾讯课堂app】,微信扫码登录账号,即可观看学习 返回搜狐,查看更多

责任编辑:

python与excel结合能做什么-Python网络爬虫与文本数据分析相关推荐

  1. python爬虫与数据分析实战27_Python网络爬虫与文本数据分析

    原标题:Python网络爬虫与文本数据分析 课程介绍 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而 ...

  2. python网络爬虫实训报告-Python网络爬虫与文本数据分析

    原标题:Python网络爬虫与文本数据分析 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学 ...

  3. 倒计时 | Python网络爬虫与文本数据分析

    在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学.管 ...

  4. python与excel结合能做什么-openpyxl怎样按行和按列读取excel

    相信经过openpyxl基础知识的学习后,一些简单操作已经难不倒大家了.按行和按列读取excel又该怎么操作呢,今天小编就结合案例为大家讲解. openpyxl是python操作excel文件的一个库 ...

  5. Python网络爬虫与文本数据分析!

    在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学.管 ...

  6. python与excel结合能做什么-机器学习实践:如何将Spark与Python结合

    编辑推荐: 本文来自搜狐,本文主要通过介绍了Apache Spark的一些特性,如何将Spark与Python结合. 在国外,Apache Spark开发人员的平均年薪为110,000美元.毫无疑问, ...

  7. 用python在excel中做批量计算(包括单元格为空值时的处理情况)

    现有如下某城市的2000-2017年人口和GDP数据的excel文件,需要计算其中人均GDP这一列的指标结果. 虽然这个工作在excel中直接下拉公式即可完成,但如果有50个城市的该种数据,显然下拉公 ...

  8. Python中文分析:《射雕英雄传》统计人物出场次数、生成词云图片文件、根据人物关系做社交关系网络和其他文本分析

    前言 python中文分析作业,将对<射雕英雄传>进行中文分析,统计人物出场次数.生成词云图片文件.根据人物关系做社交关系网络和其他文本分析等. 对应内容 1.中文分词,统计人物出场次数, ...

  9. 2021寒假赋能!Python网络爬虫与文本分析直播课

    Python网络爬虫与文本分析课 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是 ...

最新文章

  1. Visual Studio 2010Beta与Silverlight的更新
  2. php socket传递cookie,PHP Websocket在测试中验证用户(传递会话cookie)
  3. 青蛙学Linux—NFS
  4. SpringApplication:SpringBoot程序启动的一站式解决方案
  5. ps -ef 两个pid_ps -ef 与 aux
  6. Dynamics 365中的应用程序介绍
  7. flexsim物流仿真案例_仓储物流设计-从设计方法到应用参数
  8. a标签不可点击_如何在Notion中做多级标签?-Notion102
  9. SpringMVC @ResponseBody 406
  10. linux opencv移植教程,OpenCV在Ubuntu和Linux系统下的移植
  11. Mac 下配置XAMPP
  12. 面向过程和面向对象的区别,通俗易懂
  13. 8音度dsp调音教程_8音度手把手教你调音玩转dsp
  14. java使用手册_java配置使用手册
  15. 修改mysql的authen_MySQL连接抛出Authentication Failed错误的分析与解决思路
  16. 蓝桥杯---史丰收速算
  17. 熬夜整理Java面试笔试题,你还看不懂吗?
  18. win10黑屏Duilib资源加载失败
  19. HUAWEI Sound Joy首发体验,独具一格的华为音质究竟如何呢?
  20. win10查看端口号、进程

热门文章

  1. 第一个只出现一次的字符位置
  2. const在指针中的用法
  3. Oracle数据库几个错误
  4. Socket编程小结(续)
  5. 在DLL编程中调用模版类时出现的类似class“XXX”需要有 dll 接口由 class“XXX”的客户端使用的warning的解决方案...
  6. SQL数据库隐藏服务器后需要在连接字符串增加端口号,(provider: 命名管道提供程序, error: 40 - 无法打开到 SQL Server 的连接)]...
  7. C#操作Excel,权限问题
  8. 修改 IntelliJ IDEA 默认配置路径
  9. (转)RTSP协议详解
  10. LruCache缓存机制