新浪微博的数据可是非常有价值的,你可以拿来数据分析、拿来做网站、甚至是*****。不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法。没关系,现在就教大家如何批量爬取微博的数据,大大加快数据迁移速度!

我们使用到的是第三方作者开发的 爬虫 库 weiboSpider(有 工具 当然要用 工具 啦)。

1. 下载项目

进入下方的网址,点击Download ZIP下载项目文件

github.com/dataabc/wei…

或者

你有git的话可以在cmd/terminal中输入以下命令安装

git clone https://github.com/dataabc/weiboSpider.git

2.安装依赖

将该项目压缩包解压后,打开你的cmd/Termianl进入该项目目录,输入以下命令:

pip install -r requirements.txt

便会开始安装项目依赖,等待其安装完成即可。

3.设置cookie

打开weibospider文件夹下的weibospider.py文件,将"your cookie"替换成 爬虫 微博的cookie,具体替换位置大约在weibospider.py文件的22行左右。cookie获取方法:

3.1 登录微博

3.2 按F12键或者右键页面空白处—检查,打开开发者 工具

3.3 选择****network — 按F5刷新一下 — 选择第一个文件 — 在右边窗口找到cookie

然后替换大约在weibospider.py文件的22行左右的cookie,如图所示:

替换前:

替换后:

4.设置要爬的用户user_id

4.1 获取user_id

点开你希望爬取的用户主页,然后查看此时的url:

你会发现有一串数字在链接中,这个就是我们要用到的userID

4.2 设置要爬取的user_id

打开 config.json 文件,你会看到如下内容:

新浪微博的数据可是非常有价值的,你可以拿来数据分析、拿来做网站、甚至是*****。不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法。没关系,现在就教大家如何批量爬取微博的数据,大大加快数据迁移速度!

我们使用到的是第三方作者开发的 爬虫 库 weiboSpider(有 工具 当然要用 工具 啦)。

1. 下载项目

进入下方的网址,点击Download ZIP下载项目文件

github.com/dataabc/wei…

或者

你有git的话可以在cmd/terminal中输入以下命令安装

git clone https://github.com/dataabc/weiboSpider.git

2.安装依赖

将该项目压缩包解压后,打开你的cmd/Termianl进入该项目目录,输入以下命令:

pip install -r requirements.txt

便会开始安装项目依赖,等待其安装完成即可。

3.设置cookie

打开weibospider文件夹下的weibospider.py文件,将"your cookie"替换成 爬虫 微博的cookie,具体替换位置大约在weibospider.py文件的22行左右。cookie获取方法:

3.1 登录微博

3.2 按F12键或者右键页面空白处—检查,打开开发者 工具

3.3 选择****network — 按F5刷新一下 — 选择第一个文件 — 在右边窗口找到cookie

然后替换大约在weibospider.py文件的22行左右的cookie,如图所示:

替换前:

替换后:

4.设置要爬的用户user_id

4.1 获取user_id

点开你希望爬取的用户主页,然后查看此时的url:

你会发现有一串数字在链接中,这个就是我们要用到的userID

4.2 设置要爬取的user_id

打开 config.json 文件,你会看到如下内容:

下面讲解每个参数的含义与设置方法。

设置user_id_list:user_id_list是我们要爬取的微博的id,可以是一个,也可以是多个,例如:

"user_id_list": ["1223178222", "1669879400", "1729370543"],

上述代码代表我们要连续爬取user_id分别为“1223178222”、 “1669879400”、 “1729370543”的三个用户的微博。

user_id_list的值也可以是文件路径,我们可以把要爬的所有微博用户的user_id都写到txt文件里,然后把文件的位置路径赋值给user_id_list。

在txt文件中,每个user_id占一行,也可以在user_id后面加注释(可选),如用户昵称等信息,user_id和注释之间必需要有空格,文件名任意,类型为txt,位置位于本程序的同目录下,文件内容示例如下:

1223178222 胡歌

1669879400 迪丽热巴

1729370543 郭碧婷

假如文件叫user_id_list.txt,则user_id_list设置代码为:

"user_id_list": "user_id_list.txt",

如果有需要还可以设置Mysql数据 库 和MongoDB数据 库 写入,如果不设置的话就默认写入到txt和csv文件中。

下面讲解每个参数的含义与设置方法。

设置user_id_list:user_id_list是我们要爬取的微博的id,可以是一个,也可以是多个,例如:

"user_id_list": ["1223178222", "1669879400", "1729370543"],

上述代码代表我们要连续爬取user_id分别为“1223178222”、 “1669879400”、 “1729370543”的三个用户的微博。

user_id_list的值也可以是文件路径,我们可以把要爬的所有微博用户的user_id都写到txt文件里,然后把文件的位置路径赋值给user_id_list。

在txt文件中,每个user_id占一行,也可以在user_id后面加注释(可选),如用户昵称等信息,user_id和注释之间必需要有空格,文件名任意,类型为txt,位置位于本程序的同目录下,文件内容示例如下:

1223178222 胡歌

1669879400 迪丽热巴

1729370543 郭碧婷

假如文件叫user_id_list.txt,则user_id_list设置代码为:

"user_id_list": "user_id_list.txt",

如果有需要还可以设置Mysql数据 库 和MongoDB数据 库 写入,如果不设置的话就默认写入到txt和csv文件中。

5. 运行 爬虫

打开cmd/terminal 进入该项目目录,输入:

python weibospider.py

即可开始爬取数据了,怎么样,是不是超级方便?而且你还可以自定义爬取的信息,比如微博的起始时间、是否写入数据 库 ,甚至能在它代码的基础上增加新的功能!(比如加个cookie池或者代理池之类的)

Python 超简单爬取新浪微博数据相关推荐

  1. python爬去新浪微博_Python 超简单爬取新浪微博数据 (高级版)

    新浪微博的数据可是非常有价值的,你可以拿来数据分析.拿来做网站.甚至是*.不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法.没关系,现在就教大家如何批量爬取微博的数据,大大加快数据迁 ...

  2. 如何使用python实现简单爬取网页数据并导入MySQL中的数据库

    前言:要使用 Python 爬取网页数据并将数据导入 MySQL 数据库,您需要使用 Requests 库进行网页抓取,使用 BeautifulSoup 库对抓取到的 HTML 进行解析,并使用 Py ...

  3. Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜. 热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的 ...

  4. Pycharm + python 爬虫简单爬取网站数据

    本文主要介绍简单的写一个爬取网站图片并将图片下载的python爬虫示例. 首先,python爬虫爬取数据,需要先了解工具包requests以及BeautifulSoup requests中文文档:ht ...

  5. Python实战,爬取金融期货数据

    大家好,我是毕加锁. 今天给大家带来的是 Python实战,爬取金融期货数据 文末送书! 文末送书! 文末送书! 任务简介   首先,客户原需求是获取https://hq.smm.cn/copper网 ...

  6. python爬虫下载小说_用PYTHON爬虫简单爬取网络小说

    用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...

  7. 用PYTHON爬虫简单爬取网络小说

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  8. Python网络爬虫爬取招聘数据(利用python简单零基础)可做可视化

    爬取Boss直聘相关的招聘数据 一.相关需求分析 1.目的 二.直聘网页结构分析 1.网页相关值的查找 2.网页的下一页规律查找 三.Python相关的第三库介绍 1.Urllib的介绍 (1)url ...

  9. python 爬虫 微博 github_GitHub - peanut-shi/weiboSpider: 新浪微博爬虫,用python爬取新浪微博数据...

    功能 爬取新浪微博信息,并写入csv/txt文件,文件名为目标用户id加".csv"和".txt"的形式,同时还会下载该微博原始图片和微博视频(可选). 本程序 ...

最新文章

  1. linux有三个查看文件的命令:more、cat、less
  2. Collatz函数的C++递归实现
  3. 工作160:总结VUE几种页面刷新方法
  4. SQLServer 系统数据库
  5. 重庆首个地方区块链标准本月起实施
  6. 前端项目,将package.json数据放到项目某处使用
  7. [渝粤教育] 武汉理工大学 复变函数与积分变换 参考 资料
  8. python爬虫100个入门项目
  9. PHP实现生成二维码的示例代码
  10. 如何搭建百度局域网离线地图服务器
  11. 数据存储过程之MySQL与ORACLE数据库的差别
  12. xrld读取excel 中合并单元格内容
  13. 9个offer,12家公司,35场面试,计算机应届毕业生求职之路
  14. 百度地图多点路线规划_期待已久的多地点路线规划功能
  15. 明尼苏达量表结果分析_MMPI明尼苏达多项人格心理测试量表结果分析
  16. 走楼梯2<每日一题>
  17. MVC路由自定义及视图找寻规则
  18. Redmi 智能电视 X 2022 评测
  19. MySQL索引底层实现原理 MyISAM非聚簇索引 vs. InnoDB聚簇索引
  20. 软件测试笔记_09_自动化相关概念【重要】

热门文章

  1. 为什么网易, QQ 邮箱还有这么高的占有率?
  2. 高级转录组调控分析和R语言数据可视化第十三期 (后天开课)
  3. 我来甲方做IT的日子1
  4. 渗流模型的实现与解读
  5. 灰狼算法 c语言 代码,GWO灰狼优化算法
  6. 快速傅里叶变换FFT
  7. MPLS ××× 网络中的OSPF Sham-Link
  8. SQL数据库实验报告一
  9. 1071 小赌怡情(15分)
  10. SSD固态硬盘的相关知识和选购