1. B站博人传评论数据爬取简介

今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看。网址: https://www.bilibili.com/bangumi/media/md5978/?from=search&seid=16013388136765436883#short

在这个网页看到了18560条短评,数据量也不大,抓取看看,使用的还是scrapy。

2. B站博人传评论数据案例---获取链接

从开发者工具中你能轻易的得到如下链接,有链接之后就好办了,如何创建项目就不在啰嗦了,我们直接进入主题。

我在代码中的parse函数中,设定了两个yield一个用来返回items 一个用来返回requests。

然后实现一个新的功能,每次访问切换UA,这个点我们需要使用到中间件技术。

3. B站博人传评论数据案例---实现随机UA

第一步, 在settings文件中添加一些UserAgent,我从互联网找了一些

第二步,在settings文件中设置 “DOWNLOADER_MIDDLEWARES”

第三步,在 middlewares.py 文件中导入 settings模块中的 USER_AGENT_LIST 方法

好了,随机的UA已经实现,你可以在parse函数中编写如下代码进行测试

4. B站博人传评论数据----完善item

这个操作相对简单,这些数据就是我们要保存的数据了。!

5. B站博人传评论数据案例---提高爬取速度

在settings.py中设置如下参数:

解释说明

一、降低下载延迟

DOWNLOAD_DELAY = 0

将下载延迟设为0,这时需要相应的防ban措施,一般使用user agent轮转,构建user agent池,轮流选择其中之一来作为user agent。

二、多线程

CONCURRENT_REQUESTS = 32

CONCURRENT_REQUESTS_PER_DOMAIN = 16

CONCURRENT_REQUESTS_PER_IP = 16

scrapy网络请求是基于Twisted,而Twisted默认支持多线程,而且scrapy默认也是通过多线程请求的,并且支持多核CPU的并发,我们通过一些设置提高scrapy的并发数可以提高爬取速度。

三、禁用cookies

COOKIES_ENABLED = False

6. B站博人传评论数据案例---保存数据

最后在pipelines.py 文件中,编写保存代码即可

运行代码之后,发现过了一会报错了

去看了一眼,原来是数据爬取完毕~!!!

python中scrapy可以爬取多少数据_python scrapy框架爬取某站博人传评论数据相关推荐

  1. python爬b站评论_Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

  2. python爬取b站评论_Python爬虫入门【19】: B站博人传评论数据抓取 scrapy

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的×××姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网 ...

  3. Python爬虫入门【19】: B站博人传评论数据抓取 scrapy

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的×××姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网 ...

  4. 【Python】B站博人传评论数据抓取 scrapy

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

  5. Python爬虫入门教程【19】: B站博人传评论数据抓取 scrapy

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

  6. python爬取b站评论_Python爬虫框架:scrapy抓取B站博人传评论数据

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

  7. Python爬虫框架:scrapy抓取B站博人传评论数据

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

  8. Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

  9. requests 可以 scrapy 不行_python学习教程,B站博人传评论数据抓取 scrapy

    点击蓝字"python教程"关注我们哟! 1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多 ...

最新文章

  1. 数据结构与算法(6-4)线索二叉树
  2. Android发送短消息程序的总结
  3. 算法回顾(三) 二分查找
  4. CentOS7和其他版本的虚拟机,防火墙命令等各种相关笔记
  5. JVM参数-XX:+HeapDumpOnOutOfMemoryError
  6. forward和redirect区别
  7. HTML多选框滚动条,08:HTMLayout 自定义滚动条样式
  8. mysql error 1837_MySQL 主从复制错误1837
  9. 免费拿走我的代码可以,但请对使用我的时间付费
  10. 20200308: 生成每种字符都是奇数个的字符串灯泡开关 III(leetcode5352-5353)
  11. 有关域名备案和网站备案的知识介绍
  12. Android开发丶调用百度地图进行导航
  13. excel countifs 计算包含了空白单元格,结果错误,不对,特别大。
  14. JN5169 ZigBee3.0软硬件开发环境
  15. 【计算机网络】IPv6
  16. MongoDB的学习-安装与springboot的整合
  17. DASCTF Oct X 吉林工师 欢迎来到魔法世界 部分wp
  18. 端口映射工具:ngrok的使用
  19. 算一下你来到这个世界多少天?
  20. 电脑蓝牙打电话-总结(四、百瑞互联BRLink)

热门文章

  1. AE基础界面设置和旋转加载案例
  2. 服务器同步电脑文件夹在哪,把文件同步到服务器上
  3. sscanf 从字符串中读取与制定格式相符的数据
  4. 论文复现-《LUCID: A Practical, Lightweight Deep Learning Solution for DDoS Attack Detection》
  5. 计算机进程管理 360,电脑的进程管理得英文怎么打啊???
  6. C语言实现简单的登录操作
  7. 融合柯西变异和反向学习的改进麻雀算法
  8. outlook删除服务器文件夹,如何还原已删除的Outlook文件夹[最佳方式]
  9. 【解决方案】解决ImportError: Library “GLU“ not found.问题
  10. python玫瑰花数量的含义_玫瑰花数量多少的含义