python爬虫——使用selenium爬取微博数据(二)

写在前面

之前因为在组里做和nlp相关的项目,需要自己构建数据集,采用selenium爬取了几十万条微博数据,学习了很多,想在这里分享一下如何用selenium爬取微博上任何你想要的数据,这里默认大家都会最基本的python操作哈~

为什么要用selenium

selenium库的好处:Selenium 测试直接在浏览器中运行,就像真实用户所做的一样。用通俗的话来说,当你在爬取微博数据的时候,就仿佛有一只 “无形的手”帮你登录微博,搜索你想要的内容,下载你想要的图片等等,这只手就是你写的代码啦~

安装selenium和chromedriver

废话不多说,我们需要先安装两个工具

selenium

直接pip或conda安装就可以啦

conda install selenium

chromedriver

chromedriver是操作chrome的驱动,首先我们要找到和我们的浏览器适配的chromedriver版本

selenium除了chrome还有很多浏览器都可以配合使用的,比如firefox啥的都可以滴,大家不想使用chrome的话可以去找找相关博客安装,大同小异~

  1. 查看浏览器版本,在浏览器中输入chrome://version/就能看到啦,我的版本是86.0.4240.111
  2. 查找chrome浏览器对应的版本chromedriver驱动版本,可以在这里查看


点进去,选择适合自己系统的压缩包下载就行

  1. 之后把压缩包中的chromedriver.exe解压缩到chrome文件夹中

其实可以解压到任何一个路径,只要最后添加好环境变量就好了,或者直接使用绝对路径~


4. 添加环境变量(此电脑-属性-高级系统设置-环境变量)

测试一下

这个时候配置工作就完成啦,可以运行一下测试代码~

from selenium import webdriver
driver = webdriver.Chrome()
#上面是配置好环境变量的写法,像下面这样用绝对路径也是ok滴
#driver = webdriver.Chrome('C:/Program Files (x86)/Google/Chrome/Application/chromedriver.exe')
driver.get('https://www.baidu.com')

别忘了改成自己的路径

下一篇会正式带大家使用selenium在微博上爬取你喜欢的明星的所有微博和图片~有问题欢迎大家及时指出!

python爬虫——使用selenium爬取微博数据(一)相关推荐

  1. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  2. python爬虫——用selenium爬取淘宝商品信息

    python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

  3. python爬虫:Selenium爬取B站视频标题、播放量、发布时间

    上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...

  4. jsoup爬虫技术及爬取微博数据实例

    最近实现了一个爬取微博数据的小程序,借此对爬虫技术 jsoup的使用,以及实际开发过程中的细节进行总结. jsoup的jar包下载地址:https://jsoup.org/download 首先,对于 ...

  5. Python爬虫之Selenium爬取途牛全国的酒店数据进行地图可视化

    因为找不太到途牛的url规律,就只能慢慢爬取数据,由于页面加载的时间很慢,用一台电脑爬取4000+数据可能需要数小时,这里只是简单实现了每个城市的第一页数据,可以在这个基础上实现多个页面一起爬和强化翻 ...

  6. python 爬关键词,Python爬虫实战:爬取微博热搜关键词

    一.爬取微博热搜关键词需要的第三方库 1.requests 2.BeautifulSoup 美味汤 3.worldcloud 词云 4.jieba 中文分词 5.matplotlib 绘图 二.爬取微 ...

  7. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

  8. python爬虫scrapy框架爬取网页数据_Scrapy-Python

    scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家.瓜子.链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...

  9. Python爬虫进阶之爬取篮球赛数据

    相信很多人都喜欢打篮球, 并且对自己喜欢的球星的比赛数据都很关注,于是我就想着去爬取篮球网站的数据.但是相对来说爬取一个数据也没啥挑战性,于是我又赶着学习了xlsxwriter模块,将爬取的的数据放入 ...

最新文章

  1. golang中的http客户端
  2. Android + kernel USB host 如何判断插入的设备是高速还是低速的设备
  3. c#中的模态对话框和非模态对话框
  4. 解决QTcpSocket类中readAll()函数调用失败问题
  5. c mysql数据库函数库查询_Mysql数据库使用concat函数执行SQL注入查询
  6. docker查询镜像命令_Docker镜像相关命令
  7. Python之路【第十五篇】:Web框架
  8. C语言——32个关键字
  9. EDIUS 9 PRO(视频编辑软件)
  10. 六款Mac电脑上值得推荐的看图工具,欢迎收藏!
  11. php css下划线,css怎么去掉下划线
  12. 这八件事是春天养生的忌讳 你却一直在做
  13. 计算机网络安全技术实践总结,网络安全实训总结.doc
  14. cpu排行计算机专业,cpu性能天梯图,教您电脑cpu排行榜
  15. c++学习 cout endl使用
  16. 贝赛尔曲线及其应用全面解析
  17. APP抓不到包及问题解决方法
  18. Oracle查询数据提示ORA-00942:表或视图不存在
  19. MSAA,SSAA,CSAA,CFAA...如何正确地为您的游戏设置抗锯齿模式
  20. 工作常用的工具类JS+reset.css

热门文章

  1. Java观察者模式事件委托(通过dota和王者荣耀故事讲解)
  2. 艾永亮超级产品:企业管理者对企业发展起到什么作用?
  3. 如何去除惠普战66的扬声器杂音
  4. mysql 百万级别 更新_mysql百万级数据高效插入和更新
  5. 线性回归和贝叶斯的线性回归
  6. Vue文件上传、下载
  7. python热图_python – 使用matplotlib中的3D数据生成热图
  8. JVM自定义类加载器在代码扩展性的实践
  9. 敏捷软件开发读书笔记——守破离
  10. 港交所新股发售竞争激烈:网易云音乐暗盘破发,凯莱英、顺丰同城等暂未获得足额申购