最近对赚钱的话题很感兴趣,在知乎上关注了很多“赚钱”相关的问题,高质量的有不少,但是夹杂着私货的也不少。不过知乎的数据比较全,我们完全可以用来做文本分析。

爬虫的原理我就不细讲了,如果大家对爬虫的原理和相关库不甚了解,又想快速入门,不妨看看我们这门课。

待爬网址

问题:如何在大学赚到一万元?

大学里面学费加一年开销最少就是10000元,所以如何赚到10000 链接 https://www.zhihu.com/question/34011097

分析请求

因为我们知道知乎的响应数据都是 json 型网站,所以我们想找到json对应的链接规律。F12键打开开发者工具,选中XHR,不停地往下滑动页面,开发者工具Network会不停的闪过很多链接。

经过排查我们发现这个链接很特殊,点击进去详情如下

对应的数据是json格式

里面果然是用户的回答数据

现在我们将找到的网址复制下来分析分析

我们发现网址中有 34011097 和 offset 两个参数是可以调整的,分别代表 话题id 和 回答的id 。我们将上面的网址整理一下,设计成网址模板base_url

伪装请求

我们还要注意的一点是写爬虫一般是需要伪装请求头headers,而在知乎这种网站,我们可能还需要cookies。我新建了一个 settings.py 文件,用来存放cookies、headers、网址模板base url和question id

数据存储

接下来我们新建 zhihu.py 用于设计爬虫逻辑,因为知乎的数据都是json格式,相对于 html 而言json的数据更有层次性更加的干净。为了保证后续数据分析的可扩展性,我们尽量保存原始。所以这里用到了jsonlines库用于存储json数据(以行的方式存储每个json),如果不熟悉可以把 jsonlines库:高效率的保存多个python 对象 这篇文章收藏起来。

知乎爬虫代码

在 zhihu.py 文件中

程序运行

读取抓取json数据

这里使用jsonlines库,该库以行的方式读取,得到的是可迭代对象。如果不熟悉可以把 jsonlines库:高效率的保存多个python对象 这篇文章收藏起来。将其转化为dataframe类型,这样我们就可以用pandas库进行读取

两小时视频课程

精选文章

后台回复 20190228 ,得本教程项目代码。

原创不易,如果觉得内容不错,记得AD、转发、好看

python 赚钱 知乎_爬虫实战:抓取知乎问题 “大学生如何赚到一万元”相关推荐

  1. java+static知乎_用Java抓取知乎日报信息

    先上代码 package tool; import java.io.BufferedReader; import java.io.IOException; import java.io.InputSt ...

  2. Python爬虫实战---抓取图书馆借阅信息

    Python爬虫实战---抓取图书馆借阅信息 原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

  3. python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息

    Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息 实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...

  4. python爬虫招聘-Python爬虫实战-抓取boss直聘招聘信息

    实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃.为此小编建了个Python全栈免费答疑.裙 : ...

  5. 【第4篇】Python爬虫实战-抓取B站弹幕视频

    目录 1.获取视频cid参数 2.程序源代码 3.程序运行结果 4.总结 1.获取视频cid参数 首先我们打开一个有弹幕的B站视频,比如:<我好像在哪见过你>人们把难言的爱都埋入土壤里_哔 ...

  6. python 爬虫实战 抓取学校bbs相关板块的发帖信息

    1. 前言 之前也因为感兴趣, 写过一个抓取桌面天空里面喜欢的动漫壁纸的爬虫代码.这两天突然看到有人写了这么一篇文章: 爬取京东本周热卖商品基本信息存入MySQL 觉得蛮有趣的, 正好临近找工作的季节 ...

  7. python爬虫实战-抓取同花顺股票信息

    前言: 在之前介绍requests的基础上,现在开始进行实战. 目标网站:http://q.10jqka.com.cn//index/index/board/all/field/zdf/order/d ...

  8. python下载电影视频_python爬虫:抓取下载电影文件,合并ts文件为完整视频

    目标网站:https://www.88ys.cc/vod-play-id-58547-src-1-num-1.html 反贪风暴4 对电影进行分析 我们发现,电影是按片段一点点加载出来的,我们分别抓取 ...

  9. Python爬虫实战 | 抓取小说网完结小说斗罗大陆

    储备知识应有:Python语言程序设计 Python网络爬虫与信息提取 两门课程都是中国大学MOOC的精彩课程,特别推荐初学者.环境Python3 本文整体思路是:1.获取小说目录页面,解析目录页面, ...

最新文章

  1. guava cache简单学习笔记
  2. juniper srx系列配置端口映射 转载
  3. hyperworks2018安装教程
  4. Visual Studio 快捷键使用方法
  5. matlab自动排版,工具方法| Matlab 简单绘图与排版
  6. C++的隐式转换和explicit关键字
  7. MyBatis学习总结[5]-动态 SQL
  8. U盘插在前面板不认,可以试试插在后面板
  9. Linux中/etc/rc开头文件详细解释
  10. 干货满满!龙蜥社区Meetup走进龙芯圆满结束,5大技术分享精彩回顾
  11. 关于Windows下装jupyter
  12. win7语言设置为英语
  13. android 点赞源码,【Ctrl.js】微信给最新一条消息点赞源码
  14. 多个视频如何合 并,怎么合成视频
  15. windows10录屏怎么压缩?几个步骤轻松掌握
  16. python 操作键盘,鼠标 。我这个是自动企业微信加好友的,源码可以修改成别的。挺好使!
  17. 玩战塔英雄不显示服务器,王者荣耀的这个问题,国家点名了仍没有改正过来!战塔英雄就没有...
  18. python中 utf-8 和GBK 的关系
  19. POJ Treasure Exploration 【DAG交叉最小路径覆盖】
  20. 微信小程序 首行缩进无效

热门文章

  1. 合并两个链表数据结构c语言,合并两个链表.
  2. excel保存快捷键_干货 | 快速提高工作效率的电脑快捷键!
  3. 实验一 线性表的顺序存储与实现_数据结构篇之单链表的创建以及实现
  4. 一个类可以有一个接口,接口可以有一个Java类吗?
  5. Spring 经典面试题汇总.pdf(2020版)
  6. Redis笔记之基本数据结构 字典
  7. zoj 1005 jugs
  8. 计算机一级windows7操作,计算机等级一级:Windows7应用之小技巧
  9. 计算机专业英语的理解,计算机专业英语之理解网络地址
  10. html里面怎么ul加高度,div里面嵌套了ul,为什么div的高度小于ul高度