python爬虫——使用selenium爬取微博数据（二）

写在前面

之前因为在组里做和nlp相关的项目，需要自己构建数据集，采用selenium爬取了几十万条微博数据，学习了很多，想在这里分享一下如何用selenium爬取微博上任何你想要的数据，这里默认大家都会最基本的python操作哈~

为什么要用selenium

selenium库的好处：Selenium 测试直接在浏览器中运行，就像真实用户所做的一样。用通俗的话来说，当你在爬取微博数据的时候，就仿佛有一只 “无形的手”帮你登录微博，搜索你想要的内容，下载你想要的图片等等，这只手就是你写的代码啦~

安装selenium和chromedriver

废话不多说，我们需要先安装两个工具

selenium

直接pip或conda安装就可以啦

conda install selenium

chromedriver

chromedriver是操作chrome的驱动，首先我们要找到和我们的浏览器适配的chromedriver版本

selenium除了chrome还有很多浏览器都可以配合使用的，比如firefox啥的都可以滴，大家不想使用chrome的话可以去找找相关博客安装，大同小异~

查看浏览器版本，在浏览器中输入chrome://version/就能看到啦，我的版本是86.0.4240.111
查找chrome浏览器对应的版本chromedriver驱动版本，可以在这里查看

点进去，选择适合自己系统的压缩包下载就行

之后把压缩包中的chromedriver.exe解压缩到chrome文件夹中

其实可以解压到任何一个路径，只要最后添加好环境变量就好了，或者直接使用绝对路径~

4. 添加环境变量（此电脑-属性-高级系统设置-环境变量）

测试一下

这个时候配置工作就完成啦，可以运行一下测试代码~

from selenium import webdriver
driver = webdriver.Chrome()
#上面是配置好环境变量的写法，像下面这样用绝对路径也是ok滴
#driver = webdriver.Chrome('C:/Program Files (x86)/Google/Chrome/Application/chromedriver.exe')
driver.get('https://www.baidu.com')

别忘了改成自己的路径

下一篇会正式带大家使用selenium在微博上爬取你喜欢的明星的所有微博和图片~有问题欢迎大家及时指出！

python爬虫——使用selenium爬取微博数据（一）相关推荐

python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器如侵权联系作者删除文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
python爬虫——用selenium爬取淘宝商品信息
python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...
python爬虫：Selenium爬取B站视频标题、播放量、发布时间
上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...
jsoup爬虫技术及爬取微博数据实例
最近实现了一个爬取微博数据的小程序,借此对爬虫技术 jsoup的使用,以及实际开发过程中的细节进行总结. jsoup的jar包下载地址:https://jsoup.org/download 首先,对于 ...
Python爬虫之Selenium爬取途牛全国的酒店数据进行地图可视化
因为找不太到途牛的url规律,就只能慢慢爬取数据,由于页面加载的时间很慢,用一台电脑爬取4000+数据可能需要数小时,这里只是简单实现了每个城市的第一页数据,可以在这个基础上实现多个页面一起爬和强化翻 ...
python 爬关键词,Python爬虫实战：爬取微博热搜关键词
一.爬取微博热搜关键词需要的第三方库 1.requests 2.BeautifulSoup 美味汤 3.worldcloud 词云 4.jieba 中文分词 5.matplotlib 绘图二.爬取微 ...
一个月入门Python爬虫，轻松爬取大规模数据
如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...
python爬虫scrapy框架爬取网页数据_Scrapy-Python
scrapy Scrapy:Python的爬虫框架实例Demo 抓取:汽车之家.瓜子.链家等数据信息版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...
Python爬虫进阶之爬取篮球赛数据
相信很多人都喜欢打篮球, 并且对自己喜欢的球星的比赛数据都很关注,于是我就想着去爬取篮球网站的数据.但是相对来说爬取一个数据也没啥挑战性,于是我又赶着学习了xlsxwriter模块,将爬取的的数据放入 ...

python爬虫——使用selenium爬取微博数据（一）