爬取方式:

浏览某个人的微博内容时,通常我们需要登陆微博。在登录微博这一方面,我们使用一种简单的方式:抓取登录微博的cookie,然后使用cookie来登录微博。这样就可以浏览某个人的微博内容了。

为了爬取方便,我们使用新浪微博的手机网页版
http://weibo.cn/

获取cookie:

① 我们使用的抓包工具是Fiddler,安装Fiddler后,我们来设置一下Winconfig,在IE那项上打勾:

然后 SaveChange 即可。

② 先登录进入微博。(有手机网页版可能登录不进去,一直提示验证码错误,这时你可以打开新浪微博的电脑网页版登录即可)。

③ 打开Fiddler,然后用IE浏览器打开http://weibo.cn/,发现是直接登陆进去了,这是因为cookie的原因。这时我们通过Fiddler来找cookie的内容

首先在Fddler左栏找到 weibo.cn 那项,双击。

然后在右边使用composer可以看到一些信息。

而Cookie那项信息就是我们所需的。我们把”_T_W…”复制下来。

使用python抓包

这里就直接上代码看。

-

# -*- coding: utf-8 -*-import requests
from bs4 import BeautifulSoup
import timecook = {"Cookie":" _T_WM....."} #放入你的cookie信息。for i in range(1,20):#爬取"头条新闻"的前二十页微博url = "http://weibo.cn/breakingnews?page=%d"%(i)html = requests.get(url,cookies=cook).content#使用Beautiful来解析网页内容。soup =BeautifulSoup(html,"html.parser")r = soup.findAll('span',attrs={"class" : "ctt"})for e in r:print(e.text)#设置时间间隔time.sleep(3)

这样我们就可以爬到头条新闻的微博内容了,当然这里我只爬取了文本信息。

项目地址: github

使用python爬取新浪微博的内容相关推荐

  1. Python爬取问卷星内容

    Python爬取问卷星内容 问卷星标题和选项内容爬取 从以下博客中学习到的,加了些自己的解释 Python3 爬虫- 问卷星内容爬取 先贴代码: import time from requests_h ...

  2. Python爬取新浪微博热搜榜

    Python爬取新浪微博实时热搜榜.名人热搜榜.热点热搜榜和潮流热搜榜四大板块.这些板块都是不需要登录的,所以爬起来还是比较简单的.不过频繁的爬取会出现验证码. 作用爬取四大榜单的关键词和热搜指数并存 ...

  3. python爬取新浪微博内容_python新浪微博爬虫,爬取微博和用户信息 (含源码及示例)...

    [实例简介] 这是新浪微博爬虫,采用python+selenium实现. 免费资源,希望对你有所帮助,虽然是傻瓜式爬虫,但是至少能运行.同时rar中包括源码及爬取的示例. 参考我的文章: http:/ ...

  4. python 爬虫 微博 github_GitHub - peanut-shi/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...

  5. python爬取微博评论数据的github链接_GitHub - 13633825898/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片(可选). 本程序需要设置用 ...

  6. python 爬虫 微博 github_GitHub - bubblesran/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...

  7. python爬微博数据合法吗_GitHub - ChaliceRunRunRun/weibo-crawler: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 连续爬取一个或多个新浪微博用户(如Dear-迪丽热巴.郭碧婷)的数据,并将结果信息写入文件.写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称.关注数.粉丝数 ...

  8. python爬虫学习教程,用python爬取新浪微博数据

    爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片(可选). 运行环境 开发语言:p ...

  9. python爬取微博评论数据的github链接_GitHub - guozifeng91/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...

  10. python爬取微博评论数据的github链接_GitHub - DABOLUO111/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...

最新文章

  1. 万豪酒店数据库遭入侵 5亿顾客信息或泄露
  2. DAS、NAS、SAN、iSCSI 存储方案概述
  3. 最大医学影像平台将首个实现把医疗AI引入实际应用
  4. extern quot;Cquot; 的含义:实现C++与C及其他语言的混合编程
  5. 用Itext把数据导出到Pdf文档
  6. 让工作与(vue)音乐相伴
  7. js 报错说此方法没定义 我明明定义了
  8. Flyweight Design Pattern 共享元设计模式
  9. html广告20s倒计时,简单时尚的jQuery倒计时插件
  10. 如何看懂时序图LCD1602(经典)
  11. linux关掉终端快捷键,linux终端快捷键汇总
  12. 读 《我为什么要逃离北上广了?》有感
  13. 妈妈见我来了的香港旅游局
  14. win7 下面串口驱动装好串口工具却找不到端口解决的方法
  15. matlab2014b与carsim8.02联合仿真可能遇到的问题
  16. java domino 单点登录_Domino单点登录LTPAtoken生成原理
  17. 【手把手带你Godot游戏开发】FlappyBird:4.1无限地面之Godot青年(AnimationPlayer)版
  18. 将pem证书转换为crt/key
  19. 基于Faster-RCNN的水书古籍手写文字的检测与识别-论文阅读
  20. 一台微型计算机需要哪三个部分,单片机原理与应用课后习题参考题答案1~6章

热门文章

  1. H3C交换机静态路由与NQA联动
  2. Golang多线程文件传输
  3. 自然数学-自然常数e
  4. java魂斗罗_向经典致敬--跟我用Java写魂斗罗
  5. Linux系统内核笔记
  6. 10个热门大数据发展趋势
  7. 查找农历生日与阳历生日属于同一天的次数和年份
  8. 【六】【vlc-android】vlc的decoder控制层传输数据与ffmpeg视频解码模块decoder层的数据交互流程源码分析
  9. hive: Error in acquiring locks
  10. archlinux wifi 开机自动连接