在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。

大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:

  • 数据的获取

  • 文本(非结构化)数据的处理与分析

数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。

多重优惠福利

  • 原价499元,现在限时特价199元。

  • 购买后可发起组队,组队成功的队长可全免学费

  • 扫下方二维码生成自己的课代表分享卡还有机会每单赚23.88

  • 邀请卡1个月有效期,失效后可加微信:372335839, 备注"网课"

课程目标

  • 学会Python语言基本语法

  • 掌握Python爬虫基本原理

  • 会设计和开发Python爬虫

  • 掌握文本分析相关库

  • 理解数据挖掘,特别是文本分析的思路和流程

  • 了解文本分类、文本聚类

主讲老师

大邓,哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。曾在多所大学做 网络数据采集和文本分析 分享,运营有【公众号:大邓和他的Python】,主要分享Python、爬虫、文本分析、机器学习等相关内容。

适合人群

本课程面向对象有:

  • 0编程基础

  • 想从网上爬数据

  • 想做文本分析

  • 想了解机器学习

包括但不限于以上几类人群。

内容要点

第一部分 环境配置(1小时)

  • python简介

  • python安装

  • pycharm安装

  • jupyter notebook安装

  • 第三方库安装方法

第二部分 Python快速入门(2小时)

  • 基本语法

  • 数据结构-list、str、dict、tuple、set

  • for循环、if逻辑

  • try-except

  • 常用函数

  • 案例1:爬虫代码中各知识点使用情况

  • 案例2:文本分析代码中各知识点使用情况

第三部分 Python网络爬虫快速入门(2小时)

  • 网络爬虫原理

  • requests库

  • bs4库

  • 元素(数据)定位

  • 数据抓包

  • 数据存储(txt,csv)

  • 案例1:豆瓣网数据抓取

  • 案例2:知乎网站数据抓取

第四部分 快速入门Python文本分析(1.5小时)

  • 文本分析应用场景

  • txt、pdf、word等类型文件的数据读取

  • 中文分词-jieba库

  • 自然语言处理-nltk库

  • 可视化-pyecharts库

  • 数据分析-pandas库

  • 案例1-词频统计

  • 案例2-制作词云图

  • 案例3-excel文件中时间及文本数据处理方法

  • 案例4-使用情感词典进行情感计算

第五部分 文本分析进阶篇(1.5小时)

  • 监督学习与非监督学习

  • 使用机器学习进行文本分析的步骤

  • 表达文本数据信息的方式(独热编码、词袋法、TF-IDF)

  • 理解特征矩阵、语料、文档、特征

  • 机器学习库-sklearn语法学习

  • 了解协同过滤-推荐系统

  • 案例1-文本情感分析

  • 案例2-文本分类(以20news数据集为例)

  • 案例3-LDA话题模型

  • 案例4-计算消费者购物偏好

文本分析相关文献

学习课程时,可以参考阅读以下文献,了解如何在社科类研究中使用文本分析

[1]沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19
[2]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230.

Author links open overlay panelComputational socioeconomics

[3]魏伟,郭崇慧,陈静锋.国务院政府工作报告(1954—2017)文本挖掘及社会变迁研究[J].情报学报,2018,37(04):406-421.
[4]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017 (12): 132-150.
[5]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.
[6]Chan J T K, Zhong W. Reading China: Predicting policy change with machine learning[J]. 2018.
[7]Hansen S, McMahon M. Shocking language: Understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.
[8]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.

python爬虫与文本数据分析 系列课相关推荐

  1. python网络爬虫实训报告-Python网络爬虫与文本数据分析

    原标题:Python网络爬虫与文本数据分析 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学 ...

  2. python与excel结合能做什么-Python网络爬虫与文本数据分析

    原标题:Python网络爬虫与文本数据分析 课程介绍 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而 ...

  3. python爬虫与数据分析实战27_Python网络爬虫与文本数据分析

    原标题:Python网络爬虫与文本数据分析 课程介绍 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而 ...

  4. python3爬虫及数据分析_Python3爬虫及可视化数据分析系列图文教程——大纲目录...

    本文首发于:Python3爬虫及可视化数据分析系列图文教程--大纲目录 - Python量化投资​www.lizenghai.com 写在最前 最近更新:2019-03-28 本教程所有源码见文尾. ...

  5. 连享会-Python爬虫与文本分析专题 (2019.5.17-19)

    连享会-Python爬虫与文本分析专题研讨班 文章目录 连享会-Python爬虫与文本分析专题研讨班 1. 课程概览 2. 嘉宾简介 3. 授课内容 3.1 课程介绍 为什么要学爬虫和文本分析? 为什 ...

  6. 四小时学python爬虫爬取信息系列(第一天)

    四小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda ...

  7. Python网络爬虫与文本数据分析!

    在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学.管 ...

  8. 2021寒假赋能!Python网络爬虫与文本分析直播课

    Python网络爬虫与文本分析课 在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是 ...

  9. 倒计时 | Python网络爬虫与文本数据分析

    在过去的两年间,Python一路高歌猛进,成功窜上"最火编程语言"的宝座.惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学.管 ...

最新文章

  1. torch.nn.functional.cross_entropy.ignore_index
  2. 麻省理工和 IBM 合作创立 Watson AI 实验室,谨慎推进 AI 研究
  3. 2.4 理解指数加权平均-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
  4. 游戏角色坐标的保存间隔_使用C++编写飞机大战游戏【手把手教程】
  5. c语言记录五个数组编程,C语言经典编程之数组
  6. 设计模式-创建型模式-工厂模式(工厂三兄弟)
  7. 三次握手和四次挥手图解_详解 TCP 连接的“三次握手”与“四次挥手”
  8. node.js 报错Error: ENFILE: file table overflow...ENFILE: file table overflow, open...
  9. gradle构建_如何提高Gradle的构建速度?
  10. linux程序执行时内存情况
  11. 【cs231】反向传输与神经网络
  12. 电子电路学习笔记(8)——二极管的作用
  13. 如何查看手机绑定过的网站或者APP:注销手机号之前你必须要做的——换绑所有旧手机号绑定过的网站或者APP
  14. 中文文件名一键批量转换成英文名称
  15. 绿色版 MySQL 安装配置的正确操作步骤
  16. A3Mall开源商城系统
  17. 学习会计实操真的有用吗?
  18. 如何掌握PMO核心技能和知识?
  19. jquery实现HTML页面导入word文档
  20. Win32位程序(64位系统)文件对话框的文件重定向问题

热门文章

  1. oracle数据库游标是什么意思,oracle数据库游标用法详解
  2. html魔塔编辑器,migration.html
  3. Caffe工厂模式解析
  4. WPF中Brush的派生类,实例发光的小球
  5. 大龄程序员~聊聊我毕业十年的生活,深入分析
  6. java 混音器_Java录音和混音器设置
  7. 2021.11.20 孤尽训练营D26——分布式锁
  8. Linux_任务计划作用和系统日志
  9. 用Python开发一个能拼长图的图片合并工具
  10. 编码方式的简介(ASCII, LATIN-1, UTF-8/16/32)