1、创建一个爬虫项目

在项目中新建middlewares.py文件(./项目名/middlewares.py)

2、使用代理服务器

采集大量数据时,最好使用代理。防止IP被封,下载次数受限等。

# 代理服务器(产品官网 www.16yun.cn)

proxyHost="t.16yun.cn"

proxyPort="31111"

# 代理验证信息

proxyUser="username"

proxyPass="password"

proxyMeta="http://%(user)s:%(pass)s@%(host)s:%(port)s"%{

"host":proxyHost,

"port":proxyPort,

"user":proxyUser,

"pass":proxyPass,

}

# 设置 http和https访问都是用HTTP代理

proxies={

"http":proxyMeta,

"https":proxyMeta,

}

3、解决爬虫登陆

表单登陆:这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。

import requests

data = {‘data1’:’XXXXX’, ‘data2’:’XXXXX’}

response = requests.post(url=url, data=data)

使用cookie登陆:

使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。

设置cookiecookie_dict={"JSESSION":"123456789"}

cookies=requests.utils.cookiejar_from_dict(cookie_dict,cookiejar=None,overwrite=True)

s.cookies=cookies

foriinrange(3):

forurlintargetUrlList:

r=s.get(url,proxies=proxies)

printr.text

4、模拟真实用户

有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法,一般再加上Referer。

User-Agent可以用亿牛云提供给的真实库,Referer的来源可以伪装成百度搜索来的。

headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36’, ‘Referer’:’https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'}

response = requests.get(url=url, headers=headers)

python 网页爬虫nike_python爬虫的基本抓取相关推荐

  1. [Python]爬虫02:用Beautifulsoup抓取的网页中有br标签,返回字符串为None,先用replace去除网页中br再抓内容。

    问题:用Beautifulsoup抓取网页,网页中含有br标签,抓取相关的内容结果是None. 试了用字符串的replace函数替换br,还是返回None.试了用re正则替换br,提示返回类型错误. ...

  2. python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取

    Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...

  3. Python之 - 使用Scrapy建立一个网站抓取器,网站爬取Scrapy爬虫教程

    Scrapy是一个用于爬行网站以及在数据挖掘.信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于工业. 在本文中我们将建立一个从Hacker News爬取数据的爬虫,并将数据按我 ...

  4. Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR

    Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR方案 用ocr与pyautogui,以及webbrowser实现功能:设计爬虫抓取新浪微博数据,比如,抓取微博用 ...

  5. Python爬虫成长之路:抓取证券之星的股票数据(转)

    获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...

  6. Python学习笔记——爬虫原理与Requests数据抓取

    目录 为什么要做网络爬虫? 通用爬虫和聚焦爬虫 HTTP和HTTPS 客户端HTTP请求 请求方法 HTTP请求主要分为Get和Post两种方法 常用的请求报头 1. Host (主机和端口号) 2. ...

  7. python爬虫教程,带你抓取百度的高清摄影图片

    python爬虫教程,带你抓取百度的高清摄影图片 源码分享: ''' 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qun,934109170 群里有不错的学习教程.开发工具与电子书籍. ...

  8. iOS—网络实用技术OC篇网络爬虫-使用java语言抓取网络数据

    网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...

  9. 爬虫的原理和数据抓取

    为什么要做爬虫? 都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据市场.贵阳 ...

  10. 网络爬虫——中国大学排名数据抓取

    网络爬虫--中国大学排名数据抓取 目标网址 中国大学排名网:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html 全球有很多份大学排名,这里以上 ...

最新文章

  1. 对2020年Linux和开源的5个大胆预测
  2. python3精要(51)-json
  3. TP-Link无线网卡一对多的桥接
  4. 最优化方法(无约束)转载
  5. 数据结构与算法:终于可以用三种语言(C,C#,JavaScript)把图的广度优先遍历讲清楚了(推荐收藏)
  6. php 和风天气,【原创】彩云/和风天气插件
  7. 洛谷P2234 [HNOI2002]营业额统计 set简易解法
  8. 决战EXCEL2010
  9. 产品经理第一件事-系统背景研究
  10. linux进程互斥等待
  11. 【畅捷通T+Cloud】12.3版本上线啦!
  12. 把 14 亿中国人都拉到一个微信群,在技术上能实现吗?
  13. 郭天祥的10天学会51单片机_第八节
  14. SSO单点登录之用户认证实践
  15. 段子界“鼻祖”将关闭服务,它提高了一代人的笑点
  16. Python3字符串前缀u、b、r
  17. matlab三相变压器,simulink三相变压器
  18. 最佳化三维建模与重构中的神经网络先验
  19. [墨者学院] 日志文件分析溯源(脱裤的IP地址)
  20. Latex自动化学报模板学习和问题解决总结

热门文章

  1. 迪思杰oracle 11g rac,Oracle 11g RAC UDEV管理RAC共享存储
  2. 软件测试220道试题及答案
  3. centos7安装xterm_CentOS 7使用x-manager中Xstart最新工具报缺少xterm包错误
  4. day01.我们为什么要学习进制
  5. matlab二阶滤波器设计,基于matlab的各类滤波器设计
  6. 联发科与晨星合并诞生新寨主
  7. EasyUI入门9 EasyUI+NPOI+QrCode实现带二维码复杂格式excel文件导出
  8. 展示一下香蕉派路由Android系统
  9. android方向触摸事件,Android触摸事件如何传递?
  10. SQL Server视频