欢迎关注我的公众号:高级农民工,博客:高级农民工,阅读体验更好。

摘要:介绍微信、知乎、新浪等一众主流网站的模拟登陆爬取方法。

网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬,比如知乎、微信等。这类网站在模拟登陆时需要处理验证码、js 加密参数这些问题,爬取难度会大很多。费很大力气登陆进去后才能爬取想要的内容,很花时间。

是不是一定要自己动手去实现每一个网站的模拟登陆方法呢,从效率上来讲,其实大可不必,已经有前人替我们造好轮子了。

最近发现一个神库,汇总了数十个主流网站的模拟登陆方法:

  • 知乎
  • 微信网页版登录并获取好友列表
  • Bilibili
  • Facebook
  • 无需身份验证即可抓取Twitter前端API
  • 微博网页版
  • QQZone
  • CSDN
  • 淘宝
  • Baidu
  • 果壳
  • JingDong 模拟登录
  • 163mail
  • 拉钩
  • 豆瓣
  • Baidu2
  • 猎聘网
  • Github
  • 爬取图虫相应的图片
  • 网易云音乐
  • 糗事百科

这些网站基本采用是直接登录或者使用 selenium+webdriver 的方式。每一个网站都有完整的模拟登陆代码,拿来就可以用到自己的爬虫中。

下面我们来测试一下。

先说说很难爬的「知乎」,假如我们想爬取知乎主页的 HTML 内容,就必须要先登陆才能爬,不然看不到这个界面。下面来简单梳理一下流程。

知乎需要手机号才能注册登陆。为了方便测试,可以随便找个手机号,手机号到哪儿去找呢,我上周写的那篇文章就发挥作用了。文章里介绍了一个免费电话号码网站,用上面的手机号可以成功注册。

文章传送门:两个神网站保护你的隐私

顺利登录后就可以进入主页了。

下面,我们用这个库提供的代码来模拟登陆,输出主页 HTML 内容作测试。操作很简单,只需要输入手机号、密码和验证码就可以了。

成功登陆后,接下来就可以做一些有意思的事了。比如曾有人爬取所有知乎账号的信息,分析了知乎用户群体画像。

是不是有点意思。

再来看看微信。用上面的微信代码可以把全部微信好友信息爬取下来,比如:昵称、性别、地域、个性签名。接着可以分析一下你的朋友圈是什么样的,应该会很有趣。

还可以爬 B 站:

还可以爬链家租房信息:

还有很多实用有趣的内容,就不一一罗列了,感兴趣的话可以试试,最后放上大神的 GitHub 库地址:

https://github.com/CriseLYJ/awesome-python-login-model

不要闷头造轮子,多抬抬头会发现你在做/想做的东西,别人早已经弄好了,拿来用或者参考学习都是件好事。

本文完。

Python爬取网站用户手机号_主流网站 Python 爬虫模拟登陆方法汇总相关推荐

  1. python爬虫登录网站_主流网站 Python 爬虫模拟登陆方法汇总

    欢迎关注我的公众号:高级农民工,博客:高级农民工,阅读体验更好. 摘要:介绍微信.知乎.新浪等一众主流网站的模拟登陆爬取方法. 网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样.从 ...

  2. python爬取网页公开数据_如何用Python爬取网页数据

    使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...

  3. 编程python爬取网页数据教程_实例讲解Python爬取网页数据

    一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...

  4. python爬取b站数据_如果利用Python爬取B站上千万数据?B站直播都是大屌萌妹吗?...

    粉丝独白 说起热门的B站相信很多喜欢玩动漫的,看最有创意的Up主的同学一定非常熟悉.我突发奇想学Python这么久了,为啥不用Python爬取B站中我关注的人,已经关注的人他们关注的人,看看全站里面热 ...

  5. 如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  6. python爬取网易云音乐_我用Python爬取了网易云音乐

    原标题:我用Python爬取了网易云音乐 来源:别动我的猫尾巴 headers需要进行修改,headers设置不对会被屏蔽导致爬取不成功.一个headers用久了也会爬取不成功 代码如下: impor ...

  7. python爬取知乎文章_大佬分享Python编程实现爬取知乎用户信息的例子

    有一天 , 我发现我心仪已久的妹子在朋友圈里分享了知乎专栏的文章 , 就知道她也刷知乎 . 如果在知乎上关注她 , 我就能知道 , 她最近关注什么 , 心里想些什么 , 了解了解她喜欢的方面 , 还能 ...

  8. python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析

    基于 Python 的新浪微博用户信息爬取与分析 邓文萍 [摘 要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...

  9. python爬取小说出现乱码_详解Python解决抓取内容乱码问题(decode和encode解码)

    一.乱码问题描述 经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下 原因是源网页编码和爬取下来后的编码格式不一致 二.利用encode与decode解决乱码问题 字符串在Python内部的 ...

最新文章

  1. 运行matplotlib出现:AttributeError: module ‘matplotlib‘ has no attribute ‘verbose‘
  2. php 移动端隐藏引导页,移动端引导设计技巧1:前置的引导页
  3. mybatis报错解决办法 :Result Maps collection does not contain value for java.lang.String
  4. 【Codeforces - 127D】Password(思维,二分+字符串Hash)
  5. 朴素贝叶斯算法-分类算法
  6. Python开发中有可能遇到的套接字重复使用错误
  7. 计算机软件技术信息安全哪个好,国内哪个大学的计算机安全专业最好?
  8. linux后台进程管理工具supervisor
  9. 一文看懂中国银联CUPS清结算流程
  10. 【爬虫】用Python爬取《Nature》杂志文章的题目、摘要、下载地址
  11. C语言常见的陷阱与缺陷
  12. 问卷调查试卷的数据设计
  13. 用户画像中常用的用户模型
  14. Educoder 二维码名片制作
  15. hibernate中的检索策略
  16. 上古卷轴5json文件修改_改进名称的新Tempering名称定制SSE
  17. vue3在控制台打印相关变量的值
  18. 2019我的公众号回顾
  19. lsdyna如何设置set中的node_list_关于如何快速调教NGINX的几点总结
  20. mysql怎么启用sa用户_安装SQL SERVER开启SA用户登录的方法

热门文章

  1. ubuntu配置nvidia显卡性能
  2. 参加面试除了带简历外还要带哪些去面试
  3. 你需要什么web2.0服务?
  4. Mac Sourcetree fatal: unable to access ‘http:.........‘
  5. 上任苹果 CEO 十年,这是库克给出的成绩单
  6. 《亲密关系》书摘 [美]莎伦 布雷姆
  7. 互融云|房屋抵押贷款平台搭建 信息化技术为企业升级助力增效
  8. BSA-Xylan 牛血清白蛋白-木聚糖,血清白蛋白HSA/卵清白蛋白OVA/乳清白蛋白偶联糖
  9. 特殊分布律篇4——瑞利分布
  10. 不朽凡人 第四百八十七章 生死轮