版权声明:本文为xing_star原创文章,转载请注明出处!

背景:

这两年知识付费越来越热,我也加入了不少知识星球,总觉得信息有些过载了。一天不看,就有500+的内容显示未读,弄的自己格外的焦虑。感觉这样非常不好,就想要找办法解决,比如把精华帖抓取下来制作成pdf文件,这样自己随时可以翻阅,或者拿出整块的时间阅读,不用担心遗漏。记得年初的时候做过一番尝试,在Github上看到几个不错的项目,关于抓取知识星球帖子内容的开源项目,测试了几个,选中了一个非常不错的项目,当然了自己对这个项目的代码做了一点点小调整,fork了一份,地址是https://github.com/xingstarx/crawl-zsxq。

解决办法:

由于知识星球官方对反爬比较严,有一些反制手段,这个项目的代码也需要不断的迭代更新,这是一个攻防对抗的过程。

具体如何执行就不讲了,可以看这个项目的readme。按照上面的描述,准备python环境,以及相关的依赖,然后修改对应的header里面的关键参数,那么就可以将程序跑起来了。

常见的问题:

这里额外说一下程序跑起来的过程中,会碰到的一些问题。

1.header信息修改的有问题,这块可以通过chrome浏览器的开发者工具解决,或者是charles抓包工具解决,不懂的可以google下

2.执行crawl.py的时候,如果提示ssl等之类的问题,那么关掉charles之类的抓包工具

3.如果爬取的文件特别多,特别大,几百上千个文件,还包含图片的,这种最好分步骤操作,比如先把html下载下来,接着分为3-5部分,每次取出1/3或者1/5的量执行make_pdf函数,这个可能需要修改下代码,可以参考https://github.com/xingstarx/crawl-zsxq/issues/1。

另外这个开源项目是为了方便自己的,还是不要用于盗版,作恶可不好,还是多尊重知识,尊重版权啊。

项目地址:

python爬知识星球付费数据_python抓取知识星球精选帖,制作为pdf文件相关推荐

  1. python爬取下拉列表数据_python 抓取下拉列表控制的表格的所有数据

    目标是抓取所有选项下的表格数据. 用开发者工具查看表格及选项框的构造: 下拉框是 标签组成的,用js实现动态切换,靠selenium很难实现定位和模拟点击. 解决方法:分析页面网络请求流,尝试抓取服务 ...

  2. python爬知识星球付费数据_python 知识星球文件下载

    python 知识星球文件下载 #!/usr/bin/python3 # -*- coding: UTF-8 -*- import requests import json from urllib.p ...

  3. python抓取股票竞价数据_Python 抓取新浪财经股票数据

    新浪并未提供 API,但我们可以通过抓包来获取实时或历史行情数据. 实时行情 比如我们可以通过浏览器访问: http://hq.sinajs.cn/?format=text&list=sh60 ...

  4. python爬历年大学生就业数据_Python就业行情和前景分析之一爬取数据

    Python就业行情和前景分析之一爬取数据 http://zzdxb.baikezh.com/ 最近Python大热,就想要分析一下相关的市场需求,看一下Python到底集中在哪些城市,企业对Pyth ...

  5. python爬饿了么数据_python爬取饿了么

    在学数据可视化,缺少点数据进行实操,就想着从饿了么上面爬点外卖店信息. 主要是获取数据,所以代码比较简陋,直接上代码:import requests import json import csv de ...

  6. python登录网页后抓取数据_Python抓取网页数据的终极办法

    Pandas库有一种内置的方法,可以从名为read_html()的html页面中提取表格数据: https://pandas.pydata.org/import pandas as pdtables ...

  7. python处理多个excel数据_python 数据分析基础 day8-pandas读写多个excel文件

    今天是读<python数据分析基础>的第8天,今天的读书笔记的内容为利用pandas读写多个excel文件,当中涉及到读写excel文件的多个工作表. 大致原理如下: glob.glob( ...

  8. python百度贴吧 发帖时间_python抓取百度度贴吧

    我们打开一个百度贴吧的帖子然后查看源码 Paste_Image.png 首先我们先拿到帖子的标题,通过查看源码,我们发现,他的标题的html为: 纯原创我心中的NBA2014-2015赛季现役50大 ...

  9. python足球大数据分析_Python 抓取欧洲足球联赛数据进行大数据分析

    摘要: 背景 Web Scraping 在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 数据的展 ...

最新文章

  1. poj2195(最大权完美匹配)
  2. python文本挖掘视频课_自动摘要的python实现
  3. 浏览器中的标签切换事件
  4. 新的Teams API权限控制
  5. html dd自动换行,为什么我的dd里面的内容没有自动换行呢
  6. @JsonFormat失效解决
  7. windows测试模式
  8. 局网满猿关不住,一波码农出墙来。
  9. pyspark对应的scala代码PythonRDD对象
  10. html复选框控制元素禁用,如何勾选复选框时禁用HTML必需属性?
  11. 50个开源性能测试工具
  12. 极光IM JAVA后台对接
  13. nvm 安装node版本报错clang: error: no such file or directory: ‘CXX=c++‘
  14. Windows+cygwin下构造arm-linux交叉编译环境最简单的方法
  15. Win10任务栏显示窗口不折叠的设置方法
  16. 返回查找对象所在列标_返回基础-这不是您要查找的对象...等等,哦,它是对象...
  17. 如何学好C语言,一个成功人士的心得!
  18. 【英特尔oneAPI——异构计算编程】
  19. 前端隐秘角落 - HTTP请回答
  20. Linux下的文件读写

热门文章

  1. 计算机配件模拟,模拟计算机是指什么
  2. PyCharm——项目管理
  3. 数据结构思维导图汇总
  4. 在 Eclipse 中进行 局部 、全局搜索
  5. 配置Typescript+Node环境
  6. 李煜东算法进阶指南打卡题解
  7. python︱imagehash中的四种图像哈希方式(phash/ahash/dhash/小波hash)
  8. 吸血鬼教授vs狼人工程师
  9. TSC工业型条码打印机的价格的影响因素有哪些呢?
  10. Java EnumMap工作原理及实现