python爬虫——使用selenium爬取微博数据(二)

写在前面

之前因为在组里做和nlp相关的项目,需要自己构建数据集,采用selenium爬取了几十万条微博数据,学习了很多,想在这里分享一下如何用selenium爬取微博上任何你想要的数据,这里默认大家都会最基本的python操作哈~

为什么要用selenium

selenium库的好处:Selenium 测试直接在浏览器中运行,就像真实用户所做的一样。用通俗的话来说,当你在爬取微博数据的时候,就仿佛有一只 “无形的手”帮你登录微博,搜索你想要的内容,下载你想要的图片等等,这只手就是你写的代码啦~

安装selenium和chromedriver

废话不多说,我们需要先安装两个工具

selenium

直接pip或conda安装就可以啦

conda install selenium

chromedriver

chromedriver是操作chrome的驱动,首先我们要找到和我们的浏览器适配的chromedriver版本

selenium除了chrome还有很多浏览器都可以配合使用的,比如firefox啥的都可以滴,大家不想使用chrome的话可以去找找相关博客安装,大同小异~

  1. 查看浏览器版本,在浏览器中输入chrome://version/就能看到啦,我的版本是86.0.4240.111
  2. 查找chrome浏览器对应的版本chromedriver驱动版本,可以在这里查看


点进去,选择适合自己系统的压缩包下载就行

  1. 之后把压缩包中的chromedriver.exe解压缩到chrome文件夹中

其实可以解压到任何一个路径,只要最后添加好环境变量就好了,或者直接使用绝对路径~


4. 添加环境变量(此电脑-属性-高级系统设置-环境变量)

测试一下

这个时候配置工作就完成啦,可以运行一下测试代码~

from selenium import webdriver
driver = webdriver.Chrome()
#上面是配置好环境变量的写法,像下面这样用绝对路径也是ok滴
#driver = webdriver.Chrome('C:/Program Files (x86)/Google/Chrome/Application/chromedriver.exe')
driver.get('https://www.baidu.com')

别忘了改成自己的路径

下一篇会正式带大家使用selenium在微博上爬取你喜欢的明星的所有微博和图片~有问题欢迎大家及时指出!

python爬虫——使用selenium爬取微博数据(一)相关推荐

  1. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  2. python爬虫——用selenium爬取淘宝商品信息

    python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

  3. python爬虫:Selenium爬取B站视频标题、播放量、发布时间

    上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...

  4. jsoup爬虫技术及爬取微博数据实例

    最近实现了一个爬取微博数据的小程序,借此对爬虫技术 jsoup的使用,以及实际开发过程中的细节进行总结. jsoup的jar包下载地址:https://jsoup.org/download 首先,对于 ...

  5. Python爬虫之Selenium爬取途牛全国的酒店数据进行地图可视化

    因为找不太到途牛的url规律,就只能慢慢爬取数据,由于页面加载的时间很慢,用一台电脑爬取4000+数据可能需要数小时,这里只是简单实现了每个城市的第一页数据,可以在这个基础上实现多个页面一起爬和强化翻 ...

  6. python 爬关键词,Python爬虫实战:爬取微博热搜关键词

    一.爬取微博热搜关键词需要的第三方库 1.requests 2.BeautifulSoup 美味汤 3.worldcloud 词云 4.jieba 中文分词 5.matplotlib 绘图 二.爬取微 ...

  7. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

  8. python爬虫scrapy框架爬取网页数据_Scrapy-Python

    scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家.瓜子.链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...

  9. Python爬虫进阶之爬取篮球赛数据

    相信很多人都喜欢打篮球, 并且对自己喜欢的球星的比赛数据都很关注,于是我就想着去爬取篮球网站的数据.但是相对来说爬取一个数据也没啥挑战性,于是我又赶着学习了xlsxwriter模块,将爬取的的数据放入 ...

最新文章

  1. hive mysql 远程_ubuntu中为hive配置远程MYSQL database
  2. sql 账号查询一个表勾选那个权限_Spring Cloud微服务架构中的数据权限DataPermision实现方案...
  3. NOIP2016-D2-T2 蚯蚓(单调队列)
  4. java容器类添加元素失败失败_java容器 Set
  5. 2021-2025年中国超本地服务行业市场供需与战略研究报告
  6. 择师论(怎么有效的向别人学习)
  7. 用有道ip地址查询接口的详细方法
  8. Java第二节课总结
  9. JavaWeb播放视频实现断点续传、分片上传
  10. RJ45接口定义及网线线序
  11. 一些流行的颜色及其RGB值
  12. Pool tag list
  13. Chrome书签删除恢复
  14. java水果忍者7723_水果忍者之天下第一
  15. ios 渐变透明背景_PPT背景常见的6种设计方法
  16. 奥克兰大学计算机领域优势,奥克兰大学三大优势专业,知道这些你就不会选错专业了!...
  17. python爬虫练习5:博客阅读量助手
  18. 关于python的文献综述_关于毕业论文文献综述,史上最全总结.doc
  19. spark的UI界面及调优
  20. C++学习(一二零)数据中心 云计算 大数据的概念

热门文章

  1. linux万能显卡,万能显卡驱动如何安装使用?万能显卡驱动安装使用方法
  2. 刨根问底:Windows CTF协议安全性研究
  3. Mac中QQ消息记录丢失的问题解决
  4. 考上好大学,然后进入IT行业是穷人孩子晋级中产的唯一出路?
  5. android 刻度,Android 绘制刻度表盘
  6. 2020牛客多校第八场E-Enigmatic Partition(隔项差分)
  7. html导出excel,数据显示过长E+
  8. 什么模式下不可使用曝光补偿_难道手动模式下不能调整曝光补偿值吗?
  9. JAVA运行时中文输出乱码原因与解决
  10. 第一个小程序 – 百纯起名