构造 Request Headers

https://curl.trillworks.com/

通过 fake_useragent 生成随机UserAgent

from fake_useragent import UserAgentua = UserAgent(verify_ssl=False)
headers = {"User-Agent": ua.random}

robots.txt

有些网站的robots.txt文件会保存一些sitemap,可能会有你想要的数据
例:https://www.douban.com/robots.txt 下的sitemap保存了豆瓣头一天新产生的影评,书评,帖子等等

编辑cookie

EditThisCookie

image

爬虫和反爬虫就是一场没有硝烟的拉锯战,你永远不知道对方会给你埋哪些坑,比如对Cookies动手脚。这个时候你就需要它来辅助你分析,通过Chrome安装EditThisCookie插件后,我们可以通过点击右上角小图标,再对Cookies里的信息进行增删改查操作,大大提高对Cookies信息的模拟

自动生成selenium代码

用Chrome的插件Katalon Recorder

image.png
image.png

自动转化headers

from copyheaders import headers_raw_to_dict
headers = b''':authority:c.y.qq.com:method:GET:path:/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.center&searchid=46360413927906065&t=0&aggr=1&cr=1&catZhida=1&lossless=0&flag_qc=0&p=1&n=20&w=%E6%98%8E%E5%A4%A9%E4%BD%A0%E5%A5%BD&g_tk=5381&jsonpCallback=MusicJsonCallback7934911028613236&loginUin=0&hostUin=0&format=jsonp&inCharset=utf8&outCharset=utf-8¬ice=0&platform=yqq&needNewCode=0:scheme:httpsaccept:*/*accept-encoding:gzip, deflate, sdch, braccept-language:zh-CN,zh;q=0.8cookie:cuid=6852877350; pgv_pvi=6596119552; RK=xB5dmM0g81; tvfe_boss_uuid=622f2b2912bb7f83; o_cookie=2353184487; ts_refer=www.baidu.com/link; ptcz=410ebd7ac68d0a114d731d573a83ff7f6572ed57fa43d90ad9ab90c7205751d8; pt2gguin=o2353184487; pgv_si=s6436702208; yplayer_open=1; yq_index=0; qqmusic_fromtag=66; yqq_stat=0; pgv_info=ssid=s4116171870; ts_last=y.qq.com/portal/search.html; pgv_pvid=2839864484; ts_uid=2016409769; player_exist=1referer:https://y.qq.com/portal/search.htmluser-agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4549.400 QQBrowser/9.7.12900.400'''
headers = headers_raw_to_dict(headers)
print(headers)

Python 爬虫技巧相关推荐

  1. Python爬虫技巧一之设置ADSL拨号服务器代理

    Python爬虫技巧一之设置ADSL拨号服务器代理 https://zhuanlan.zhihu.com/p/25286144

  2. 【爬虫】封装了一些 python 爬虫技巧,开箱即用

    这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了. 目录 1.最 ...

  3. 封装了一些 python 爬虫技巧,开箱即用

    源 / Python开发者(PythonCoder) 这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结 ...

  4. 总结八个好用的Python爬虫技巧

    2019独角兽企业重金招聘Python工程师标准>>> 用python也差不多一年多了,python应用最多的场景还是web快速开发.爬虫.自动化运维:写过简单网站.写过自动发帖脚本 ...

  5. python深度爬虫_总结:常用的 Python 爬虫技巧

    用python也差不多一年多了,python应用最多的场景还是web快速开发.爬虫.自动化运维:写过简单网站.写过自动发帖脚本.写过收发邮件脚本.写过简单验证码识别脚本. 爬虫在开发过程中也有很多复用 ...

  6. Python爬虫技巧!网站有反爬?我们有selenium!

    Selenium 是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样. 文章最后有免费的Python资料,获取方式,关注头条号,私信回复资料获取下载链 ...

  7. Python爬虫技巧-西瓜视频MP4地址获取

    记录一下西瓜视频MP4地址的获取步骤 目标: 指定西瓜视频地址,如 https://www.ixigua.com/a6562763969642103303/#mid=6602323830,获取其视频M ...

  8. 网络不稳定时python爬虫技巧

    网络不稳定时,用爬虫下载文件会报ContentTooShortError,类似下面这样: ContentTooShortError: <urlopen error retrieval incom ...

  9. Python爬虫技巧--selenium解除webdriver特征值

    selenium解除webdriver特征值 问题:在使用selenium做获取信息时,某些网页会检测浏览器的webdriver特征值. 我们手动打开谷歌,并进入百度首页,然后打开开发者调试,在con ...

最新文章

  1. python20191031_20191031:Python取反运算详解
  2. c语言if-else的效率比较
  3. 算法 - pyhton - 二分查找
  4. P1465 序言页码 Preface Numbering (手推)
  5. QT添加rtmp库的时候出现问题
  6. linux设备树例程,iTOP-iMX6-设备树内核-实时时钟RTC以及Linux-c测试例程
  7. 131_Power Query之获取钉钉日志自动刷新Power BI报告
  8. 【算法】LSM-tree 基本原理及应
  9. HTML5本地存储——IndexedDB
  10. input正则邮箱_javascript写一个校验邮箱的正则表达式
  11. Premiere视频导出格式
  12. redhat linux ssh服务,Redhat6开启ssh
  13. 基于GNU Radio和HackRF/LimeSDR的802.11收发机
  14. 【Junit Experiment】Junit 软件质量测试实验--日期格式规范性+字符串格式规范性
  15. Cent OS网络基本配置——修改配置文件
  16. BLE中GATT理解
  17. 信息技术学考 这题不会做!!
  18. 人工智能-用matlab实现数字识别
  19. App渠道打包的最佳攻略,一次解决打包难题
  20. 数字系统设计Logsim实例 自主设计 学号音乐盒

热门文章

  1. 362. Design Hit Counter
  2. 把数据库中的数据制作成Excel数据
  3. leetcode-Combinations 复习复习排列组合
  4. DOM方式解析XML文件实例
  5. C# DllImport用法和路径问题
  6. qq2013 sp1 去广告方法及代码
  7. java-HDU1698(线段树的区间更新,和区间查询)
  8. frp源码剖析-frp中的log模块
  9. Asp.Net的Forms验证,解决Cookie和Seesion失效时间。
  10. 诗歌rails之Hacking ActiveRecord