python爬知识星球付费数据_python抓取知识星球精选帖,制作为pdf文件

背景:

这两年知识付费越来越热，我也加入了不少知识星球，总觉得信息有些过载了。一天不看，就有500+的内容显示未读，弄的自己格外的焦虑。感觉这样非常不好，就想要找办法解决,比如把精华帖抓取下来制作成pdf文件，这样自己随时可以翻阅，或者拿出整块的时间阅读，不用担心遗漏。记得年初的时候做过一番尝试，在Github上看到几个不错的项目，关于抓取知识星球帖子内容的开源项目，测试了几个，选中了一个非常不错的项目，当然了自己对这个项目的代码做了一点点小调整，fork了一份，地址是https://github.com/xingstarx/crawl-zsxq。

解决办法:

由于知识星球官方对反爬比较严，有一些反制手段，这个项目的代码也需要不断的迭代更新，这是一个攻防对抗的过程。

具体如何执行就不讲了，可以看这个项目的readme。按照上面的描述，准备python环境，以及相关的依赖，然后修改对应的header里面的关键参数，那么就可以将程序跑起来了。

常见的问题:

这里额外说一下程序跑起来的过程中，会碰到的一些问题。

1.header信息修改的有问题，这块可以通过chrome浏览器的开发者工具解决，或者是charles抓包工具解决，不懂的可以google下

2.执行crawl.py的时候，如果提示ssl等之类的问题，那么关掉charles之类的抓包工具

3.如果爬取的文件特别多，特别大，几百上千个文件，还包含图片的，这种最好分步骤操作，比如先把html下载下来，接着分为3-5部分，每次取出1/3或者1/5的量执行make_pdf函数，这个可能需要修改下代码，可以参考https://github.com/xingstarx/crawl-zsxq/issues/1。

另外这个开源项目是为了方便自己的，还是不要用于盗版，作恶可不好，还是多尊重知识，尊重版权啊。

项目地址:

python爬知识星球付费数据_python抓取知识星球精选帖,制作为pdf文件相关推荐

python爬取下拉列表数据_python 抓取下拉列表控制的表格的所有数据
目标是抓取所有选项下的表格数据. 用开发者工具查看表格及选项框的构造: 下拉框是标签组成的,用js实现动态切换,靠selenium很难实现定位和模拟点击. 解决方法:分析页面网络请求流,尝试抓取服务 ...
python爬知识星球付费数据_python 知识星球文件下载
python 知识星球文件下载 #!/usr/bin/python3 # -*- coding: UTF-8 -*- import requests import json from urllib.p ...
python抓取股票竞价数据_Python 抓取新浪财经股票数据
新浪并未提供 API,但我们可以通过抓包来获取实时或历史行情数据. 实时行情比如我们可以通过浏览器访问: http://hq.sinajs.cn/?format=text&list=sh60 ...
python爬历年大学生就业数据_Python就业行情和前景分析之一爬取数据
Python就业行情和前景分析之一爬取数据 http://zzdxb.baikezh.com/ 最近Python大热,就想要分析一下相关的市场需求,看一下Python到底集中在哪些城市,企业对Pyth ...
python爬饿了么数据_python爬取饿了么
在学数据可视化,缺少点数据进行实操,就想着从饿了么上面爬点外卖店信息. 主要是获取数据,所以代码比较简陋,直接上代码:import requests import json import csv de ...
python登录网页后抓取数据_Python抓取网页数据的终极办法
Pandas库有一种内置的方法,可以从名为read_html()的html页面中提取表格数据: https://pandas.pydata.org/import pandas as pdtables ...
python处理多个excel数据_python 数据分析基础 day8－pandas读写多个excel文件
今天是读<python数据分析基础>的第8天,今天的读书笔记的内容为利用pandas读写多个excel文件,当中涉及到读写excel文件的多个工作表. 大致原理如下: glob.glob( ...
python百度贴吧发帖时间_python抓取百度度贴吧
我们打开一个百度贴吧的帖子然后查看源码 Paste_Image.png 首先我们先拿到帖子的标题,通过查看源码,我们发现,他的标题的html为: 纯原创我心中的NBA2014-2015赛季现役50大 ...
python足球大数据分析_Python 抓取欧洲足球联赛数据进行大数据分析
摘要: 背景 Web Scraping 在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测数据的展 ...

python爬知识星球付费数据_python抓取知识星球精选帖,制作为pdf文件

python爬知识星球付费数据_python抓取知识星球精选帖,制作为pdf文件相关推荐

最新文章

热门文章