使用python爬取新浪微博的内容
爬取方式:
浏览某个人的微博内容时,通常我们需要登陆微博。在登录微博这一方面,我们使用一种简单的方式:抓取登录微博的cookie,然后使用cookie来登录微博。这样就可以浏览某个人的微博内容了。
为了爬取方便,我们使用新浪微博的手机网页版
http://weibo.cn/
获取cookie:
① 我们使用的抓包工具是Fiddler,安装Fiddler后,我们来设置一下Winconfig,在IE那项上打勾:
然后 SaveChange 即可。
② 先登录进入微博。(有手机网页版可能登录不进去,一直提示验证码错误,这时你可以打开新浪微博的电脑网页版登录即可)。
③ 打开Fiddler,然后用IE浏览器打开http://weibo.cn/,发现是直接登陆进去了,这是因为cookie的原因。这时我们通过Fiddler来找cookie的内容
首先在Fddler左栏找到 weibo.cn 那项,双击。
然后在右边使用composer可以看到一些信息。
而Cookie那项信息就是我们所需的。我们把”_T_W…”复制下来。
使用python抓包
这里就直接上代码看。
-
# -*- coding: utf-8 -*-import requests
from bs4 import BeautifulSoup
import timecook = {"Cookie":" _T_WM....."} #放入你的cookie信息。for i in range(1,20):#爬取"头条新闻"的前二十页微博url = "http://weibo.cn/breakingnews?page=%d"%(i)html = requests.get(url,cookies=cook).content#使用Beautiful来解析网页内容。soup =BeautifulSoup(html,"html.parser")r = soup.findAll('span',attrs={"class" : "ctt"})for e in r:print(e.text)#设置时间间隔time.sleep(3)
–
这样我们就可以爬到头条新闻的微博内容了,当然这里我只爬取了文本信息。
项目地址: github
使用python爬取新浪微博的内容相关推荐
- Python爬取问卷星内容
Python爬取问卷星内容 问卷星标题和选项内容爬取 从以下博客中学习到的,加了些自己的解释 Python3 爬虫- 问卷星内容爬取 先贴代码: import time from requests_h ...
- Python爬取新浪微博热搜榜
Python爬取新浪微博实时热搜榜.名人热搜榜.热点热搜榜和潮流热搜榜四大板块.这些板块都是不需要登录的,所以爬起来还是比较简单的.不过频繁的爬取会出现验证码. 作用爬取四大榜单的关键词和热搜指数并存 ...
- python爬取新浪微博内容_python新浪微博爬虫,爬取微博和用户信息 (含源码及示例)...
[实例简介] 这是新浪微博爬虫,采用python+selenium实现. 免费资源,希望对你有所帮助,虽然是傻瓜式爬虫,但是至少能运行.同时rar中包括源码及爬取的示例. 参考我的文章: http:/ ...
- python 爬虫 微博 github_GitHub - peanut-shi/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...
功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...
- python爬取微博评论数据的github链接_GitHub - 13633825898/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...
功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片(可选). 本程序需要设置用 ...
- python 爬虫 微博 github_GitHub - bubblesran/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...
功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...
- python爬微博数据合法吗_GitHub - ChaliceRunRunRun/weibo-crawler: 新浪微博爬虫,用python爬取新浪微博数据...
功能 连续爬取一个或多个新浪微博用户(如Dear-迪丽热巴.郭碧婷)的数据,并将结果信息写入文件.写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称.关注数.粉丝数 ...
- python爬虫学习教程,用python爬取新浪微博数据
爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片(可选). 运行环境 开发语言:p ...
- python爬取微博评论数据的github链接_GitHub - guozifeng91/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...
功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...
- python爬取微博评论数据的github链接_GitHub - DABOLUO111/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...
功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...
最新文章
- 万豪酒店数据库遭入侵 5亿顾客信息或泄露
- DAS、NAS、SAN、iSCSI 存储方案概述
- 最大医学影像平台将首个实现把医疗AI引入实际应用
- extern quot;Cquot; 的含义:实现C++与C及其他语言的混合编程
- 用Itext把数据导出到Pdf文档
- 让工作与(vue)音乐相伴
- js 报错说此方法没定义 我明明定义了
- Flyweight Design Pattern 共享元设计模式
- html广告20s倒计时,简单时尚的jQuery倒计时插件
- 如何看懂时序图LCD1602(经典)
- linux关掉终端快捷键,linux终端快捷键汇总
- 读 《我为什么要逃离北上广了?》有感
- 妈妈见我来了的香港旅游局
- win7 下面串口驱动装好串口工具却找不到端口解决的方法
- matlab2014b与carsim8.02联合仿真可能遇到的问题
- java domino 单点登录_Domino单点登录LTPAtoken生成原理
- 【手把手带你Godot游戏开发】FlappyBird:4.1无限地面之Godot青年(AnimationPlayer)版
- 将pem证书转换为crt/key
- 基于Faster-RCNN的水书古籍手写文字的检测与识别-论文阅读
- 一台微型计算机需要哪三个部分,单片机原理与应用课后习题参考题答案1~6章