新浪微博的数据可是非常有价值的,你可以拿来数据分析、拿来做网站、甚至是*。不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法。没关系,现在就教大家如何批量爬取微博的数据,大大加快数据迁移速度!

我们使用到的是第三方作者开发的爬虫库weiboSpider(有工具当然要用工具啦)。这里默认大家已经装好了Python,如果没有的话可以看我们之前的文章:Python详细安装指南。

1. 下载项目

进入下方的网址,点击Download ZIP下载项目文件

或者

你有git的话可以在cmd/terminal中输入以下命令安装​

git clone https://github.com/dataabc/weiboSpider.git

​2.安装依赖

将该项目压缩包解压后,打开你的cmd/Termianl进入该项目目录,输入以下命令:

pip install -r requirements.txt

便会开始安装项目依赖,等待其安装完成即可。

3.设置cookie

打开weibospider文件夹下的weibospider.py文件,将"your cookie"替换成爬虫微博的cookie,具体替换位置大约在weibospider.py文件的22行左右。cookie获取方法:

3.1 登录微博

3.2 按F12键或者右键页面空白处—检查,打开开发者工具

3.3 选择network — 按F5刷新一下 — 选择第一个文件 — 在右边窗口找到cookie

然后替换大约在weibospider.py文件的22行左右的cookie,如图所示:

替换前:

替换后:

4.设置要爬的用户user_id

4.1 获取user_id

点开你希望爬取的用户主页,然后查看此时的url:

你会发现有一串数字在链接中,这个就是我们要用到的userID, 复制即可。

4.2 设置要爬取的user_id

打开config.json文件,你会看到如下内容:

{

"user_id_list": ["1669879400"],

"filter": 1,

"since_date": "2018-01-01",

"write_mode": ["csv", "txt"],

"pic_download": 1,

"video_download": 1,

"cookie": "your cookie",

"mysql_config": {

"host": "localhost",

"port": 3306,

"user": "root",

"password": "123456",

"charset": "utf8mb4"

}

}

下面讲解每个参数的含义与设置方法。

设置user_id_list: user_id_list是我们要爬取的微博的id,可以是一个,也可以是多个,例如:"user_id_list": ["1223178222", "1669879400", "1729370543"],

上述代码代表我们要连续爬取user_id分别为“1223178222”、 “1669879400”、 “1729370543”的三个用户的微博。

user_id_list的值也可以是文件路径,我们可以把要爬的所有微博用户的user_id都写到txt文件里,然后把文件的位置路径赋值给user_id_list。

在txt文件中,每个user_id占一行,也可以在user_id后面加注释(可选),如用户昵称等信息,user_id和注释之间必需要有空格,文件名任意,类型为txt,位置位于本程序的同目录下,文件内容示例如下:1223178222 胡歌

1669879400 迪丽热巴

1729370543 郭碧婷

假如文件叫user_id_list.txt,则user_id_list设置代码为:"user_id_list": "user_id_list.txt",

如果有需要还可以设置Mysql数据库和MongoDB数据库写入,如果不设置的话就默认写入到txt和csv文件中。

5. 运行爬虫

打开cmd/terminal 进入该项目目录,输入:

python weibospider.py

即可开始爬取数据了,怎么样,是不是超级方便?而且你还可以自定义爬取的信息,比如微博的起始时间、是否写入数据库,甚至能在它代码的基础上增加新的功能!(比如加个cookie池或者代理池之类的)

我们的文章到此就结束啦,如果你希望我们今天的Python 教程,请持续关注我们,如果对你有帮助,麻烦在下面点一个赞/在看哦

有任何问题都可以在下方留言区留言,我们都会耐心解答的!

​Python实用宝典 (pythondict.com)

不只是一个宝典

欢迎关注公众号:Python实用宝典

原文来自Python实用宝典:Python 爬取新浪微博

python爬去新浪微博_Python 超简单爬取新浪微博数据 (高级版)相关推荐

  1. python根据关键字爬取微博_Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜.热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的情 ...

  2. python爬取微博热搜_Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜.热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的情 ...

  3. python图像人类检测_Python 超简单实现人类面部情绪的识别

    还记得我们之前写过一篇文章<手把手教你人脸识别自动开机>吗?里面用OpenCV对人脸进行简单的识别,让计算机训练认识到某个特定人物后识别对象.今天来做点高级的,识别出人脸的情绪. 本文分为 ...

  4. Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据

    Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据 不需要登陆新浪微博账户,直接运行就可以通过python爬虫爬取新浪微博用户数据.本例selenium与pyautogui ...

  5. Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR

    Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR方案 用ocr与pyautogui,以及webbrowser实现功能:设计爬虫抓取新浪微博数据,比如,抓取微博用 ...

  6. python爬去音乐_python爬去音乐

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 本文为大家分享了python爬取酷狗音乐排行榜的具体代码,供大家参考,具体内容如 ...

  7. python爬虫电影信息_Python爬虫入门 | 爬取豆瓣电影信息

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  8. python分布式爬虫框架_python之简单Scrapy分布式爬虫的实现

    分布式爬虫:爬虫共用同一个爬虫程序,即把同一个爬虫程序同时部署到多台电脑上运行,这样可以提高爬虫速度. 在默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queu ...

  9. python编写爬虫代码_python编写简单爬虫资料汇总

    爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习 ...

最新文章

  1. windows下编译openssl
  2. gis计算各省河流长度_用河流和各方解释安全漏洞
  3. POJ 1703 Find them, Catch them 种类并查集
  4. 一张图带你了解JRE、JDK、JVM
  5. 选择排序--Selection sort
  6. 关于使用类成员函数作为回调的方法
  7. JQGrid 在页面加载时展开SubGrid
  8. Windows下Apache Tomcat 8安装配置
  9. 排序之插入排序(二分法)
  10. zabbix3.2短信告警脚本
  11. 舵机的相关原理与控制原理
  12. C语言摇骰子比大小,三个骰子出点规律|玩3个骰子猜大小必赢技巧
  13. leecode:707. 设计链表
  14. Wifi热点java_java实现笔记本电脑设置成WiFi热点
  15. 车路协同、车联网、智慧交通、智能网联车、自动驾驶、无人驾驶、高精度地图
  16. 【Mybatis框架】初识Mybatis
  17. Linux上wget: 无法解析主机地址
  18. Kruskal算法简易教程(附最全注释代码实现)
  19. postgis routing pgr_dijkstra道路拓扑分析与方向分析
  20. CVE-2021-1732 分析

热门文章

  1. 九月十月百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题(10.23)
  2. InstallAnywhere
  3. 【SAP业务模式】之STO(一):业务背景和前台操作
  4. 美通企业日报 | 阿斯利康在京建中国北部总部;安踏用废弃塑料瓶打造环保服装...
  5. 多Excel文件内容查询工具。
  6. MAC下有道词典命令行查询工具安装
  7. 网站空间配置和域名解析怎么选择
  8. intel realsense d435深度摄像头使用
  9. 在论文左下角插入基金号以及上方横线的详细步骤
  10. 再见 Dockerfile,拥抱新型镜像构建技术 Buildpacks