页面分析已接近完成,您可以开始构建微博爬虫.

三个模拟的浏览器请求

正常抓取微博时需要登录. 在这里,您可以使用发布请求来传递帐户和密码. 登录后,还可以在登录后使用api链接直接构造请求标头,然后使用get方法进行请求.

这次是根据第二种方法. 模拟请求标头时python爬取微博,您只需要构造两组信息“ User-Agent”和“ Referer”.

header=({User-Agent: 在你的浏览器开发模式下获取此信息,

Referer: 在你的浏览器开发模式下获取此信息,

})

可以在页面的开发人员模式下获得两组信息:

(在个人信息方面,我ob之以鼻……)

构造请求标头后,使用请求库模拟请求. 如果请求成功,则网站服务器会识别出模拟的浏览器请求将返回网站的json数据,然后通过python的json库对其进行解析.

到目前为止的代码是:

# _*_ coding:utf-8 _*_ #声明程序的编写字符

import requests #导入requests库

import json #导入json库

def get_data(url):

for a in range (0,560): #通过不断传入参数a来构造链接页码

url = 上面获取到的页面链接+str(a)

header=({User-Agent: 在你的浏览器开发模式下获取此信息,

Referer: 在你的浏览器开发模式下获取此信息})

data = requests.get(url,headers=header,timeout=10) #通过requests的get方法请求

data = json.loads(data.text) #解析json数据

四次数据清理

获取json数据后,您需要清理数据并过滤出所需的字段信息.

再次分析json返回的数据,微博的所有内容都放在字典数据下的['cards']中,可以根据层次关系将其取出.

每个页面将返回10条微博内容,并在每个页面的[[卡片]]中按顺序将其取出:

for i in range(0,10):

text = data[data][cards][i][mblog][text].strip() #爬取每一页的所有微博内容

其他数据可以按照上述方法依次获取,因此在此不再赘述.

将爬网的数据写入:

如果要爬网每个微博下的所有评论内容,则需要先构造评论链接,然后依次请求这些链接. 背后的想法类似于抓取微博内容.

此抓取的数据分析结论首次在我的公共帐户中发布: 《产品王生存指南》

刚开始,急需各种护理〜! o(*  ̄▽ ̄ *)ブ~~

欢迎关注python爬取微博,共同学习和共同成长.

本文来自电脑杂谈,转载请注明本文网址:

http://www.pc-fly.com/a/jisuanjixue/article-270064-1.html

微博登录设备有python_Python搜寻器如何登录新浪微博并获取内容?相关推荐

  1. 微博登录设备有python_Python模拟微博登陆,亲测有效

    今天想做一个微博爬个人页面的工具,满足一些不可告人的秘密.那么首先就要做那件必做之事!模拟登陆-- 我对代码进行了优化,重构成了Python 3.6 版本,并且加入了大量注释方便大家学习. PC 登录 ...

  2. 微博登录设备有python_python3模拟微博登录

    python3里的selenium模块可以对浏览器进行自动化操作,这次来实现对微博的自动化登录,代码如下: from selenium import webdriver from configpars ...

  3. python Django 学习笔记 2020-11-6(input不显示提示信息,日历,datetime类型数据的显示,使用装饰器实现登录限制,文字下划线)

    1.input不显示提示信息 添加属性autocomplete="off".如: <input type="text" class="input ...

  4. 进入计算机用户名和密码,巧用U盘进入设密码系统免于输入用户名和登录密码...

    巧用U盘进入设密码系统免于输入用户名和登录密码 发布时间:2014-04-30 17:27:58   作者:佚名   我要评论 在登录时免于输入用户名和登录密码,而一旦移走了这些设备,系统便可以设置为 ...

  5. 【struts2+hibernate+spring项目实战】用户登录校验(struts拦截器)

    一.概述 项目中所有页面均放入WEB-INF,所有页面安全性得到了很大程度的提高.但是当用户登录后长时间没有操作时,会造成Session数据的过期,如果此时获取Session中的数据,必定会引发WEB ...

  6. Struts 拦截器权限控制【通过拦截器实现登录后跳转到登录前页面】

    应用情形:在web项目中,经常会遇到用户未登录或SESSION失效时用户发出非法的权限操作,如新闻的评论.文件的下载等等,在此我们可以使用struts拦截器对该用户发出的请求进行拦截,拦截后判断用户是 ...

  7. python 登陆微博 被删除 token_爬取微博信息,使用了cookie仍然无法登录微博

    按照网上的模板自己写了类似的代码爬取微博,可是response回来的html是登录界面的html,应该是没有成功登陆微博,但是和网上的代码是基本一样的 from bs4 import Beautifu ...

  8. java登陆拦截器_SpringBoot拦截器实现登录拦截

    SpringBoot拦截器可以做什么 可以对URL路径进行拦截,可以用于权限验证.解决乱码.操作日志记录.性能监控.异常处理等. SpringBoot拦截器实现登录拦截 pom.xml:<?xm ...

  9. bootstrap实现单页面跳转_SpringBoot拦截器,国际化,登录实现

    首先将模板文件导入resources/templates,配置MyMvcConfig @Configurationpublic class MyMvcConfig implements WebMvcC ...

  10. 以微博为例进行Oauth2进行第三方授权登录

    OAuth2.0:对于用户相关的 OpenAPI(例如获取用户信息,动态同步,照片,日志,分享等),为了保护用户数据的安全和隐私,第三方网站访问用户数据前都需要显式的向用户征求授权. 流程: (A)用 ...

最新文章

  1. 深度学习并非万能:你需要避免这三个坑
  2. Python有自动完成功能的IDE 么?
  3. MAC下homebre安装mysql
  4. 利用xposed绕过安卓SSL证书的强校验
  5. 聊聊数据中心备份和恢复解决方案厂商和产品(附Gartner报告)
  6. 【JVM】JVM的生命周期
  7. SpringCloud_Eureka集群配置
  8. php数据保存txt文件怎么打开方式_php - 利用保存在TXT文件(PHP)中的数组数据 - SO中文参考 - www.soinside.com...
  9. Atmospheric Scattering in Unity5
  10. IE11降级为IE8的方法
  11. 图灵好书推荐——数学+物理+宇宙
  12. python 判断三角矩阵 pta
  13. ACM各题型OJ题目总结
  14. 【Elasticsearch源码】 更新性能分析
  15. 树莓派安装第三方操作系统
  16. Excel 入门基础
  17. 威斯康星大学硕士计算机科学,2020年威斯康星大学-麦迪逊分校硕士热门专业
  18. 计算机锁定不能强制选项无法关机,win7系统1909无法关机只能强制关机重启的解决办法...
  19. 如果张柏芝的孩子长大
  20. python自制免费代理IP服务

热门文章

  1. 华为路由器怎么配置虚拟服务器,华为路由器配置实例详细备注讲解
  2. C语言实现峰度的计算
  3. 计算机二级纸张b5大小,b5的尺寸(a4a5b5纸张大小对比)
  4. 网站SQL注入漏洞检测
  5. linux文件实时同步(rsync+inotiy)
  6. 小米手机开启开发者模式的步骤与方法
  7. 金融行业数据容灾架构中的数据复制技术
  8. LM74700-Q1
  9. LM2596电源模块原理图及PCB分享
  10. Word修改标题样式缩进不起作用原因