python爬取微博指定内容_python3.5爬虫-爬取微博某博主微博内容
想要爬取某个博主的微博数据。在网络上寻找了很多关于爬取微博内容的教程,发现有些教程比较老旧了,已经无法再用,有些教程在我这里出现一些问题,比如爬取移动端的微博需要获取登陆cookie,而我的谷歌浏览器却无法显示,如下图所示。最终发现一博主分享的源码,亲测可用。博客链接为:https://blog.csdn.net/qq_16546829/article/details/79511997
但是在程序调试的时候发现以上博客中的源码无法获取转发的微博的内容,红色框里的内容可以获取,绿色框里的内容得不到。如图:
那么如何获取绿色框中转发微博的内容呢?只需要增加下图红框中的代码,不要忘记在写入文件时将retweeted写进去。
调试过程中发现爬取200条左右的数据时,pycharm报错:http error 418(不知什么原因,希望有大佬可以指点一下)尝试的解决方案为:
在爬取完一页之后,程序休眠一会,也就是说发送请求不要太频繁。在大循环里添加
time.sleep(10),如图:
虽然慢了一些,但是比较稳。爬取5000多条数据之后出现了新的报错:http error 502: Bad Gateway,从断掉的地方开始重新爬还是可以爬的,有懂的朋友或者大佬可以再评论里留言指导下,谢谢\( ̄︶ ̄*\))
python爬取微博指定内容_python3.5爬虫-爬取微博某博主微博内容相关推荐
- Python 3.6实现单博主微博文本、图片及热评爬取
CodingGo技术社区 自由的编程学习平台 文章简介 经常刷微博的同学肯定会关注一些有比较意思的博主,看看他们发的文字.图片.视频和底下评论,但时间一长,可能因为各种各样的原因,等你想去翻看某个博主 ...
- python微博文本分析_Python 3.6实现单博主微博文本、图片及热评爬取
环境介绍 Python3.6.2/Windows-7-64位/微博移动端 实现目标 将微博上你感兴趣的博主微博(全部或过滤非原创等)内容获取,包括微博文本.图片和热评,文本和热评按编号存入txt文件中 ...
- 【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表
[Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表 数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...
- python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据
python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...
- python多线程爬虫 爬取多个网页_python多线程爬虫爬取顶点小说内容(BeautifulSoup+urllib)...
思路 之前写过python爬取起点中文网小说,多线程则是先把爬取的章节链接存到一个列表里,然后写一个函数get_text每次调用这个函数就传一个章节链接,那么就需要调用n次该函数来获取n章的内容,所以 ...
- python爬虫网易云音乐最热评论并分析_Python3实现爬虫抓取网易云音乐的热门评论分析(图)...
这篇文章主要给大家介绍了关于Python3实战之爬虫抓取网易云音乐热评的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧. ...
- python爬去智联招聘网_Python爬虫爬取智联招聘(进阶版)
点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事 图片:Westworld Season 2 作者 王强 简介 Python追随者, ...
- python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页
目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...
- python百度贴吧怎么爬取最早的帖子_Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python #_*_coding:utf-8_*_ import urllib import ur ...
最新文章
- 网页级在线性能测试网站汇总
- MongoDB3.4安装及卸载
- java switch语句练习 从键盘输入2个数和一个运算符(+,-,*,/),输出运算结果
- C#语言入门详解---委托(刘铁猛)
- 20180321选择排序-简单选择排序
- 又酸了!腾讯员工福利再升级:入职满15年可“提前退休”
- 登录和注销、基于Session的购物车案例、验证码的使用、防止表单重复提交
- QThread与QWidget使用
- Jmeter分布式测试-远程调用
- Gedit汇编语法高亮设置
- 工具开发:勿以善小而不为
- 面试官:Java 反射是什么?我回答不上来!
- OpenStack配置分布式路由(neutron)
- python 批量处理图片文件(做到图片不变形)
- 2012年“Openstack中国行”活动总结与回顾
- ajax换头像,ajax切换明星头像!
- 关于电脑无法找到BIOS解决方法
- 设计模式09_观察者模式
- 服务器将会以受限模式运行,无线网络受限制或无连接的处理方法
- html标签手册 360doc,360doc网文摘手
热门文章
- 解决在vscode使用webpack指令显示“因为在此系统中禁止运行脚本“问题
- 解决CentOS6.5虚拟机克隆后无法上网(网卡信息不一致)的问题
- vue脚手架解决跨域问题-------配置反向代理
- 解决javascript动态改变img的src属性图片不显示问题
- sublime_REPL使用及安装教程(解决Sublime无交互问题)
- 您如何与Docker的流程连接和分离?
- File.separator或File.pathSeparator
- 用jQuery预加载图像
- SQL优化--inner、left join替换in、not in、except
- JAVA并发编程JUC基础学习(简介)