爬取百度网盘资源报user is not authorized, hitcode:119

一、总结

一句话总结:

可能是百度网盘禁止非客户端环境下载大文件,所以将请求头改为客户端:'User-Agent': 'netdisk;8.2.0;android-android;4.4.4'

不知道什么时候开始,百度网盘禁止非客户端环境下载大文件。

所以爬取内容时,将User-Agent修改

本来你请求头中的User-Agent是这么写的

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36

现在修改为

'User-Agent': 'netdisk;8.2.0;android-android;4.4.4'

再试试说不定就可以了。

二、爬取百度网盘资源报user is not authorized, hitcode:119

转自或参考:爬取百度网盘资源报user is not authorized, hitcode:119
https://blog.csdn.net/wuhaibin12/article/details/85007379

对于小于100M的文件,在抓包得到下载连接后可以直接开始爬取内容。

对于大于100M的文件,爬取时会得到user is not authorized, hitcode:119的返回值。

不知道什么时候开始,百度网盘禁止非客户端环境下载大文件。

所以爬取内容时,将User-Agent修改

本来你请求头中的User-Agent是这么写的

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36

现在修改为

'User-Agent': 'netdisk;8.2.0;android-android;4.4.4'

再试试说不定就可以了。

转载于:https://www.cnblogs.com/Renyi-Fan/p/11609275.html

爬取百度网盘资源报user is not authorized, hitcode:119相关推荐

  1. 利用jsoup爬取百度网盘资源分享连接(多线程)(2)

    之前的博客 利用jsoup爬取百度网盘资源分享连接(多线程) 已经说明了怎么抓取数据,抓取完数据就是共享这些资源了,说白了就是搭建一个百度网盘资源搜索网站,我是利用WAMP搭建的. 主页面index. ...

  2. 利用jsoup爬取百度网盘资源分享连接(多线程)

    突然有一天就想说能不能用某种方法把百度网盘上分享的资源连接抓取下来,于是就动手了.知乎上有人说过最好的方法就是http://pan.baidu.com/wap抓取,一看果然链接后面的uk值是一串数字, ...

  3. java 多线程爬取网页,利用jsoup爬取百度网盘资源分享连接(多线程)

    突然有一天就想说能不能用某种方法把百度网盘上分享的资源连接抓取下来,于是就动手了.知乎上有人说过最好的方法就是http://pan.baidu.com/wap抓取,一看果然链接后面的uk值是一串数字, ...

  4. 【Python】python爬取百度云网盘资源-源码

    今天测试用了一下python爬取百度云网盘资源. 标签: <无> 代码片段 [代码][Python]代码 import urllib import urllib.request impor ...

  5. python爬取百度云网盘资源-源码

    今天测试用了一下python爬取百度云网盘资源. 代码片段 import urllib import urllib.request import webbrowser import re def yu ...

  6. python爬虫之爬取百度网盘

    爬虫之爬取百度网盘(python) #coding: utf8 """ author:haoning create time: 2015-8-15 "" ...

  7. python开源代码百度盘_python爬取百度云网盘资源-源码

    今天测试用了一下python爬取百度云网盘资源. 代码片段import urllib import urllib.request import webbrowser import re def yun ...

  8. 百度网盘爬虫(如何爬取百度网盘)

    因为要做去转盘网(分类模式点我),所以一定要爬取网盘资源,本来想自己写一个爬虫挺不容易的,不想分享出来,但最后还是决定了拿给大家一起看吧,毕竟有交流才有进步,有兴趣的朋友也可以看看我写的其他日志或者关 ...

  9. python网络爬虫 百度网盘_百度网盘爬虫(如何爬取百度网盘)

    因为要做去转盘网(分类模式点我),所以一定要爬取网盘资源,本来想自己写一个爬虫挺不容易的,不想分享出来,但最后还是决定了拿给大家一起看吧,毕竟有交流才有进步,有兴趣的朋友也可以看看我写的其他日志或者关 ...

最新文章

  1. 记录理解程度、一篇至少读3遍,吴恩达建议这样读论文
  2. Oracle HowTo:如何解决Oracle10gR2 ORA-19554关于SBT_TAPE问题
  3. java访问控制符_java中访问控制符的作用
  4. 成本中心组和标准层次有何区别
  5. 成功更新至Win8.1 update
  6. 假如谷歌真的和ICQ一起了
  7. 哪些网站在+1s后有神奇的功能
  8. 浅谈点击信号对搜索的影响
  9. 浅析基于 Serverless 的前后端一体化框架
  10. oracle rac 距离限制,Oracle Extended Distance Clusters (Oracle 扩展距离集群 - 异地RAC)
  11. plsql 存储过程 批量提交_新一代的键值存储 KVell SOSP 2019
  12. mac更新之后vmware fusion下vmware tools报错
  13. python语言的读法-Python语言的特点及自学建议
  14. 没学过JavaScript也能看懂的闭包解释
  15. SqliteDev如何突破限制
  16. 流媒体技术基础-流媒体服务与框架【38款 流媒体服务器开源软件】
  17. qq邮箱imtp收件服务器,邮件客户端和手机设置QQ邮箱IMAP服务
  18. nil pointer evaluating interface {}.replicaCount
  19. 解决ubuntu无法解析域名、无网络连接问题
  20. SQL Server 2012 下载与安装

热门文章

  1. PHP中对数据库操作的封装
  2. Excel,此文件中的某些文本格式可能已经更改,因为它已经超出最多允许的字体数。...
  3. Mac OS—苹果搭建Android开发环境
  4. Android帧缓冲区(Frame Buffer)硬件抽象层(HAL)模块Gralloc的实现原理分析
  5. 几种颜色模型的转换公式
  6. gitlab 邮件配置(smtp)
  7. The powerful Android Studio
  8. 如何让Ubuntu系统支持WebP图片格式
  9. JDK的环境变量配置
  10. ruby 反射机制常用方法