不论是自然语言处理还是计算机视觉,做机器学习算法总会存在数据不足的情况,而这个时候就需要我们用爬虫获取一些额外数据。这个项目介绍了如何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登录方法。

项目地址:https://github.com/CriseLYJ/awesome-python-login-model

作者收集了一些网站的登陆方式和爬虫程序,有的通过 selenium 登录,有的则通过抓包直接模拟登录。作者希望该项目能帮助初学者学习各大网站的模拟登陆方式,并爬取一些需要的数据。

作者表示模拟登陆基本采用直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间和 bilibili 等,采用 selenium 登录相对轻松一些。虽然在登录的时候采用的是 selenium,但为了效率,我们也可以在登录后维护得到的 cookie。登录后,我们就能调用 requests 或者 scrapy 等工具进行数据采集,这样数据采集的速度可以得到保证。

目前已经完成的网站有:

Facebook

无需身份验证即可抓取 Twitter 前端 API

微博网页版

知乎

QQZone

CSDN

淘宝

Baidu

果壳

JingDong 模拟登录和自动申请京东试用

163mail

拉钩

Bilibili

豆瓣

Baidu2

猎聘网

微信网页版登录并获取好友列表

Github

爬取图虫相应的图片

如下所示,如果我们满足依赖项,那么就可以直接运行代码,它会在图虫网站中下载搜索到的图像。

如下所示为搜索「秋天」,并完成下载的图像:

每一个网站都会有对应的登录代码,有的还有数据的爬取代码。以豆瓣为例,主要的登录函数如下所示,它会获取验证码、处理验证码、返回登录数据完成登录,并最后保留 cookies。

其中获取并解决验证码的函数如下:

当然这些都是简单的演示,在 GitHub 项目中可以找到更多的示例。此外,作者表明由于网站策略或者样式改变而导致代码失效,我们也可以提 Issue 或 Pull Requests。最后,该项目未来还会一直维护,很多东西哦也会慢慢改进,项目作者表明:

项目写了一段时间后,发现代码风格、程序易用性、可扩展性、代码的可读性,都存在一定的问题,所以接下来最重要的是重构代码,让大家可以更容易的做出一些自己的小功能;

如果读者觉得某个网站的登录很有代表性,可以在项目 issue 中提出;

网站的登录机制有可能经常的变动,所以当现在的模拟的登录的规则不能使用的时候,请项目在 issue 中提出。

爬虫登陆为啥子老被卡住?这些网站示例值得你拥有相关推荐

  1. 关于SharePoint V3网站老弹出“此网站需要运行以下载项:'Microsoft Corporation'中的'name.dll'......”的3种解决办法...

    有位朋友提出:SharePoint V3网站老弹出"此网站需要运行以下载项:'Microsoft Corporation'中的'name.dll'......"的骚扰信息. 我找了 ...

  2. Python爬虫-02 request模块爬取妹子图网站

    简介 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3)#注意:requests库发送请求将网页内容下载 ...

  3. 老站长心语:网站由小到大的建站经历

    老站长心语:网站由小到大的建站经历 先简单自我介绍,我是伊凡笑子君,是中国无忧商务网(www.cn5135.com)的站长,湖南人.回顾这些年来的技术路程,很多酸甜苦辣,想想也乐在其中. 我的网站经历 ...

  4. 老毛桃唯一官方网站,现已开发出适应现阶段的U盘启动盘制作工具,让老毛桃传承经典,发扬光大。 http://www.laomaotao.net/?A7510

    老毛桃唯一官方网站,现已开发出适应现阶段的U盘启动盘制作工具,让老毛桃传承经典,发扬光大. http://www.laomaotao.net/?A7510

  5. 虚拟主机网站怎样搬到服务器,老站长教你网站迁移虚拟主机服务器的技巧

    原标题:老站长教你网站迁移虚拟主机服务器的技巧 作为广大的站长,其实是一群弱势群体,当我们掏钱之后,IDC说啥就是啥,个人基本是无能为力的.于是,更换虚拟主机,成为各个站长最普遍的问题.那么在更换虚拟 ...

  6. 我的世界奇葩种子java_我的世界:10个最新版奇葩种子,老玩家:天选之子才能拥有这待遇...

    原标题:我的世界:10个最新版奇葩种子,老玩家:天选之子才能拥有这待遇 胖虎曾经介绍过MC编程大师@1256编写了一个java软件,当你输入种子ID,程序会自动输出种子对应的生物群系数据.于是,借助这 ...

  7. 正在用Wordpress做一个老外学中文的网站

    最近,闲来无事,决定做点什么打发时间,所以,就做了一个 老外学中文 的网站, 当然,用的是Wordpress的博客系统. 打算把在用Wordpress开发的过程中遇到的和学到的一些东西随笔记下来, 供 ...

  8. python 爬虫学习:抓取智联招聘网站职位信息(二)

    在第一篇文章(python 爬虫学习:抓取智联招聘网站职位信息(一))中,我们介绍了爬取智联招聘网站上基于岗位关键字,及地区进行搜索的岗位信息,并对爬取到的岗位工资数据进行统计并生成直方图展示:同时进 ...

  9. 公众号简单爬虫--把公众号文章全部转载到网站(三)

    公众号简单爬虫--把公众号文章全部转载到网站(三) 根据上一篇的方法,我们得到了一个包含标题,时间,作者,封面,文章连接等信息的json文件.接下来,就是要提取文章详细信息和把一系列的信息写入数据库. ...

最新文章

  1. linux怎么打开云硬盘,Linux系统云服务器如何挂在磁盘
  2. 物联网是互联网发展的必然趋势吗?
  3. 全球首款乘云而来的存储产品CDS诞生!
  4. android搜索文字变色_Android实现TextView字符串关键字变色的方法
  5. AxWebBrowser打开本地文件
  6. codevs——1742 爬楼梯
  7. Spark中RDD与DataFrame与DataSet的区别与联系
  8. nacos注册中心demo
  9. linux内核剖析之traps.c
  10. 夫水之积也不厚,则其负大舟也无力
  11. SCC1传输请求(同系统跨Client)
  12. Pico VR 应用开发基础教程
  13. 深入分析Kafka架构(三):消费者消费方式、三种分区分配策略、offset维护
  14. cocoscreator html5,Cocos Creator H5支持剪贴板复制功能
  15. centos5-6修复心血漏洞
  16. 充电:28G各类资料送给您!PPT模板、商业计划书等
  17. 计算机的英语作文模板,高中英语作文模板 第243期:My Computer 我的电脑
  18. Game boy模拟器(5):集成
  19. 教师资格证面试试讲时可以戴手表吗
  20. NDK学习 mp3解码器等相关

热门文章

  1. DataStage:DataStage Job优化指导原则(不定时更新中)
  2. 【必须掌握】必须掌握的知识点
  3. Git中tag的用法及作用简介
  4. 三大经济体年2018年末形势一览
  5. Adavanced Installer 用户自定义行为——卸载时删除残留日志文件
  6. 啊哈瞬间之tableSizeFor函数
  7. Python爬虫—京东在线抢购
  8. C++灵魂所在之---多态的前世与今生
  9. 做了的事和计划做的一些事
  10. Prime Path POJ - 3126