大家好,我是一行

爬虫这种项目,只要博主不去维护,那过段时间也都会失效

毕竟是作为一门被动技术,只要网站守方更新防御机制,那爬虫攻方也得更新策略

所以就经常会有小伙伴来问我,怎么爬不了呢?就是规则改了没人维护了呗

这里一行推荐几个最受大家欢迎的Python项目,毕竟热度越高,博主维护的积极性也是越高

1最简单的爬虫不用代码

首先是简单的爬虫脚本生成器,那些低难度的爬虫脚本全都可以使用生成器生成

只要复制对应网站的cURl数据,复制粘贴到生成器里,3秒就能生成对应语言的爬虫脚本,而且12种语言任意选择转换(Python,Ansible URI,MATLAB,Node.js,R,PHP,Strest,Go,Dart,JSON,Elixir,Rust)

项目地址:http://tool.yuanrenxue.com/curl

2一些非常有趣的python爬虫例子

一些常见的网站爬虫例子,代码通用性较高,时效性较久。项目代码对新手比较友好,尽量用简单的python代码,并配有大量注释。

毕竟下面这些爬虫小例子弄懂之后,你才能说爬虫入了门:

  • 淘宝模拟登录

  • 天猫商品数据爬虫(已模拟登录)

  • 淘宝已买到的宝贝数据爬虫(已模拟登录)

  • 每天不同时间段通过微信发消息提醒女友

  • 爬取5K分辨率超清唯美壁纸

  • 爬取豆瓣排行榜电影数据(含GUI界面版)

  • 爬取天天基金网所有基金数据

  • 一键生成微信个人专属数据报告(了解你的微信社交历史)

  • 一键生成QQ个人历史报告

  • 一键生成个人微信朋友圈数据电子书

  • 一键分析你的上网行为(web页面可视化)

项目地址:https://github.com/shengqiangzhang/examples-of-web-crawlers

312306智能订票

这个项目实现12306 自动打码、自动登录、准点预售和捡漏、智能候补、邮件通知、server通知

可以说什么转发凑加速包再也用不上了

项目地址:https://github.com/testerSunshine/12306

4ProxyPool 爬虫代理IP池

没有代理的爬虫,永远成不了规模的爬虫

这个爬虫代理IP池项目,主要功能为定时采集网上发布的免费代理验证入库,定时验证入库的代理保证代理的可用性,提供API和CLI两种使用方式。

同时你也可以扩展代理源以增加代理池IP的质量和数量。

项目地址:https://github.com/jhao104/proxy_pool

你知道的越多,你不知道也就越多

今天的分享就先到这,技术永不眠,我们下期见


天下武功,唯快不破

一行将选了编程技术各方面的经典书籍,并整理成电子书分享在看的知友

计算机必看经典书单(含下载方式)​

如果对你有帮助的话,记得给一行点个赞哦~

你好,我是一行,厦门大学硕士毕业,用python发表过两篇顶刊论文

日常分享python的技术学习,面试技巧,赚钱认知等,欢迎关注
 @一行玩python 一行肝了3天,精选了9个方面的计算机技术资料,希望能够对你能有帮助 链接:
>https://pan.baidu.com/s/1-OKeUGF1mWJM3O4mEV0DLg 提取码: 0000

GitHub 上有哪些优秀的 Python 爬虫项目?相关推荐

  1. python项目2019_2019 年 11 月精选 GitHub 上 几个牛逼 Python 的项目

    熟悉小帅b的朋友们都知道,小帅b每个月都会精选几个比较不错的 GitHub 项目给大家参考参考,这不 2019 年只剩下最后一个月了,忍不住想问一句: 你被裁了么?你又胖了么? ok,咱们进入正题: ...

  2. GitHub最著名的20个Python机器学习项目!

    来源:云栖社区 本文长度为1729字,建议阅读3分钟 开源是技术创新和快速发展的核心.本文向你展示Python机器学习开源项目以及在分析过程中发现的非常有趣的见解和趋势. 我们分析了GitHub上的前 ...

  3. GitHub 上有哪些好用的爬虫?

    GitHub 上有哪些好用的爬虫? 在开发实际项目的时候,你经常没有足够多的数据,需要自己去想办法获取,这个时候常常需要用到爬虫.然而找来找去,很可能找了很久都找不到既免费又好用的爬虫,今天就从好的爬 ...

  4. Github上最受欢迎的Python轻量级框架Flask入门

    flask最近终于发布了它的1.0版本更新,从项目开源到最近的1.0版本flask已经走过了8个年头. # app.py from flask import Flask app = Flask(__n ...

  5. 5月份 Github 上最热的十个 Python 项目,从Debug工具到AI水军、量化交易系统。

    2019 年第 46 篇,总第 70 篇文章 原文地址:https://medium.mybridge.co/python-open-source-for-the-past-month-v-may-2 ...

  6. python爬虫项目-33个Python爬虫项目实战(推荐)

    今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...

  7. python爬虫项目-32个Python爬虫项目让你一次吃到撑

    今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- ...

  8. python爬虫项目-23个Python爬虫开源项目代码

    今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [1]– 微信公众号 ...

  9. python爬虫新手项目-33个Python爬虫项目实战(推荐)

    今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...

  10. python爬虫教程推荐-33个Python爬虫项目实战(推荐)

    今天为大家整理了32个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1] ...

最新文章

  1. Centos7.2部署各类服务
  2. IE7不能显示PNG
  3. 电脑的基础知识_电脑键盘功能基础知识
  4. 背水一战 Windows 10 (70) - 控件(控件基类): UIElement - Transform3D(3D变换), Projection(3D投影)...
  5. exp/imp三种模式——完全、用户、表
  6. xenserver PXE安装系统错误的解决
  7. python二进制整数的定义_TensorFlow定义操作整数的二进制表示
  8. 动态风云--互联网感言(三)
  9. 多边形交叉区域计算面积_用什么算法来找到多边形与圆之间的交叉区域?
  10. 优化函数、学习速率 与反向传播算法
  11. 滚动电梯卡延期复制教学
  12. 文本地址智能识别组件(一)
  13. 计算机数据计量单位换算
  14. 设计模式-手机生产-抽象工厂模式
  15. 运维的升级打怪之路v2版
  16. 全局返回json数据简繁体字转换(返回数据里的中文全改成繁体字)
  17. 搜狗输入法,输英语单词自动提示
  18. Typescript - enum 枚举类型(数值型枚举 / 字符串枚举 / 常量枚举 / 异构枚举 / 计算枚举成员 / 联合枚举和枚举成员类型 / 运行时的枚举 / 环境枚举 / 对象与枚举)教程
  19. 解决申请开发者office E5中无法发送手机验证码,reCaptcha加载失败
  20. 新辰:浅谈那些被挑毛病的90后创业者 到底谁错了?

热门文章

  1. DAMS峰会丨从数仓到数据中台,从数据资源到资产,京东、携程、快手等是怎么建设和演进的?...
  2. 自动交易软件的功能特点能满足哪些要求?
  3. Windows 用户和内核模式
  4. 如何去掉Autodesk教育版印戳
  5. 专利:专利说明书的主要组成部分
  6. Jmeter生成HTML性能测试报告
  7. ASAv的qcow2镜像文件添加ASDM
  8. LiveReload for mac 软件下载
  9. c语言 多核优化,【模型工具】一种对SWMM5的多核优化
  10. 语音识别 | 数据堂方言语音数据集