python爬虫设置代理ip池——方法(一)
爬取任务是:爬取所在地为新疆的买新疆特产的店铺
代码如下:

import requests
from lxml.html import etree
import time
import csv
import jsonnum_url = 'https://list.tmall.com/search_product.htm?&s={}&q=%D0%C2%BD%AE&style=w'
headers = {'authority': 'list.tmall.com','method': 'GET','path': '/search_product.htm?spm=a220m.1000858.1000724.8.3a1e1c0bSrXlCH&q=%D0%C2%BD%AE&sort=s&style=w&active=1&type=pc','scheme': 'https','accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','accept-encoding': 'gzip, deflate, br','accept-language': 'zh-CN,zh;q=0.9','cookie': 'hng=CN%7Czh-CN%7CCNY%7C156; t=a29d623a8f843100e07a63fa6a9be7ba; _tb_token_=eaf9eb4138e78; cookie2=76cfb0ab9ab85229f6a9d5e7d2b72b7a; _med=dw:1920&dh:1080&pw:1920&ph:1080&ist:0; cna=Ah+LF0eH8SgCAXPI7lIwMTDC; dnk=baibo_10; tracknick=baibo_10; lid=baibo_10; lgc=baibo_10; login=true; _uab_collina=159426438552735844726944; _l_g_=Ug%3D%3D; unb=2208491329497; cookie1=UoM%2BHZ3d9KVW%2FcqOuJndb4N9gmDoxQfoATwuiyb0MCI%3D; cookie17=UUphwoPq8l6RSWmJuw%3D%3D; _nk_=baibo_10; sg=076; uc1=pas=0&cookie21=UIHiLt3xSalX&cookie14=UoTV6OOALc3vdg%3D%3D&existShop=false&cookie16=W5iHLLyFPlMGbLDwA%2BdvAGZqLg%3D%3D&cookie15=V32FPkk%2Fw0dUvg%3D%3D; uc3=id2=UUphwoPq8l6RSWmJuw%3D%3D&lg2=VT5L2FSpMGV7TQ%3D%3D&nk2=AQWXT8s4%2FnI%3D&vt3=F8dBxGJkmmCYmi1Wjmk%3D; uc4=id4=0%40U2grGRvmz3awCzNAzYX1fCs5s%2FYUElZ4&nk4=0%40A6jN89MCWyt2dd100rryB22sMg%3D%3D; sgcookie=E41wJVnTjnM13OCVb34gZ; csg=93c75414; enc=Pf99cJFaJo5hBH3muF25MsYEgGQT9ctP1rQ2NvQowi9QRbP4qGII7jjZWzVKbgpkyH7j4jmQXCpSkfigDBx1iHwS1vGuu3IBotvXiu2NDqs%3D; cq=ccp%3D0; _m_h5_tk=d8f8aed551db79c9cbcfcc67dbc4984a_1594295982376; _m_h5_tk_enc=fa5846124b4f789e21e658d8d330acbe; x5sec=7b22746d616c6c7365617263683b32223a223431636133643366303966303263366438366633636463316530386233313938435058796d2f67464549696e6e64614435364c7056786f514d6a49774f4451354d544d794f5451354e7a73794e773d3d227d; res=scroll%3A1903*10565-client%3A1903*937-offset%3A1903*10565-screen%3A1920*1080; pnm_cku822=098%23E1hvgpvUvbpvUpCkvvvvvjiPnLFUtjDRR2sUlj3mPmPUsj3ER2LWzjY8PLcOgjEhPuwCvvpvvhHh2QhvCPMMvvvCvpvVvUCvpvvvuphvmvvvpLbWvx2PkphvC9hvpyP9sbyCvm9vvhCvvvvvvvvvBGwvvUjZvvCj1Qvvv3QvvhNjvvvmmvvvBGwvvvUUmphvLU8p3gwa1COqrqpyCW2%2B%2Bfmt%2BeCBTWeARdItb9TxfXkK53hzZIeUHd8reC69D70OdiZBEH4D0Bh7%2Bul1bPoxdXkKD7UjAO97%2Bu0XjovtvpvhvvCvpv%3D%3D; l=eBQYJ3TROjBPSi-tXOfZourza77T7IRAguPzaNbMiOCP_b5p5g9CWZlyJ1Y9CnGVh62eR379TqKMBeYBqIYpBkymtBALukkmn; isg=BDMz4r_NaNyLKiQIUmq24K1vwjddaMcqRIoUluXQk9KJ5FOGbTpeeTJ2mhQKxB8i','referer': 'https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.8.212b1c0bt68AVX&s=20&q=%D0%C2%BD%AE&sort=s&style=w&active=1&type=pc','sec-fetch-dest': 'document','sec-fetch-mode': 'navigate','sec-fetch-site': 'same-origin','sec-fetch-user': '?1','upgrade-insecure-requests': '1','user-agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
}for i in range(1,6): #一共有80页,为了避免访问频率太快,5页5页的爬,且每页访问间隔3秒。但是,爬20多页的时候,就被认定为爬虫了。try:print(f'第{i}页')url = num_url.format((i-1)*20)response = requests.get(url,headers=headers)html = etree.HTML(response.text)items = html.xpath('//div[@class="shopCon"]/div')for item in items:try:address = item.xpath('div[@class="shopHeader"]/div[@class="shopHeader-info"]/p/text()')[1].strip('所在地:')except IndexError:address = ''if '新疆' in address:store_name = item.xpath('div[@class="shopHeader"]/div[@class="shopHeader-info"]/a/text()')[0]store_url = 'https://list.tmall.com/'+item.xpath('div[@class="shopHeader"]/div[@class="shopHeader-info"]/a/@href')[0]xj_address = item.xpath('div[@class="shopHeader"]/div[@class="shopHeader-info"]/p/text()')[1].strip('所在地:')print(f'{store_name}|{xj_address}|{store_url}')list = [store_name,xj_address,store_url]csv_file = open('新疆.csv', 'a', newline='')writer = csv.writer(csv_file)writer.writerow(list)else:passfinally:time.sleep(3)
csv_file.close()

python爬虫最难爬取网站——天猫淘宝,多页爬取遭反爬IP被禁。求大佬赐教。相关推荐

  1. Python爬虫进阶——urllib模块使用案例【淘宝】

    Python爬虫基础--HTML.CSS.JavaScript.JQuery网页前端技术 Python爬虫基础--正则表达式 Python爬虫基础--re模块的提取.匹配和替换 Python爬虫基础- ...

  2. 23个Python爬虫开源项目代码:微信、淘宝、豆瓣、知乎、微博...

    文末有干货 "Python高校",马上关注 真爱,请置顶或星标 来源:Python数据科学 今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新 ...

  3. 必须收藏!23个Python爬虫开源项目代码:微信、淘宝、等

    今天分享的文章为大家整理了23个Python爬虫项目. 整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心,所有链接指向GitHub,微信不能直接打开,老规矩,可以用电脑打开.. 1. ...

  4. python爬虫中requests库和正则表达式之淘宝爬虫实战

    #python版本基于2.7 使用requests库是需要安装的,requests库相比urllib 库来说更高级方便一点,同时与scrapy相比较还是不够强大,本文主要介绍利用requests库和正 ...

  5. HTML+CSS+JS大作业:商城网购网站设计——淘宝1页

    ⛵ 源码获取 文末联系 ✈ Web前端开发技术 描述 网页设计题材,DIV+CSS 布局制作,HTML+CSS网页设计期末课程大作业 | 在线商城购物 | 水果商城 | 商城系统建设 | 多平台移动商 ...

  6. 爬虫 某全国律师执业诚信信息公示平台 DES加密+中文字体反爬

    某全国律师执业诚信信息公示平台 DES加密+中文字体反爬 目标网站:aHR0cHM6Ly9jcmVkaXQuYWNsYS5vcmcuY24v 无限debugger DES加密 中文字体反爬 目标网站: ...

  7. Python爬虫实战(六) 天猫(淘宝)评论爬取与分析实战

    目录 一.天猫(淘宝)爬取地址对比 二.防爬技巧 三.数据分析 代码更新12.19,均可爬取(若爬取失效,请先检查cookie的有效性) 一.天猫(淘宝)爬取地址对比 天猫评论抓包json数据如下,在 ...

  8. python爬虫爬取京东、淘宝、苏宁上华为P20购买评论

    爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图 三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东 淘宝 苏宁 4.分析 这三个网站上的评论数据 ...

  9. Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情

    Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情 先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包 <!-- 爬虫相关Jar包依赖 --><d ...

最新文章

  1. 程序员水平分级 你属于哪一类?
  2. ignite在MacOS或Linux上的安装
  3. Content的startActivity方法需添加FLAG_ACTIVITY_NEW_TASK flag
  4. Mybatis+mysql动态分页查询数据案例——房屋信息的接口(IHouseDao)
  5. 利用 Flask 动态展示 Pyecharts 图表数据的几种方法
  6. 手机号归属地区编码_Excel隐藏手机号中间4位的6种方法,你见过几种?
  7. opencv 指定分辨率_使用opencv拉伸图像扩大分辨率示例
  8. 十四五规划和2035年远景目标纲要 第五篇 加快数字化发展 建设数字中国
  9. mysql md5 sha1_PHP md5 vs sha1 性能测试
  10. linux pam认证 用户名,Linux-PAM 认证 模块
  11. java早餐点餐外卖网站系统
  12. 苹果开发者账号双重验证忘记密保终极解决办法
  13. C#时间格式转换为时间戳
  14. Ubuntu 16.04 桌面字体太小让它大大大
  15. Java微服务框架一览
  16. MDA110-16-ASEMI单臂共阳极整流模块MDA110-16
  17. 【模块间的通讯】数据接口及通讯代理系统架构
  18. 【JAVA】 容纳对象 数组
  19. BSON与JSON的区别
  20. 数据挖掘第四课(贝叶斯网络)

热门文章

  1. 2021年最新海信电视安装第三方软件两个方法
  2. 关于moto Q8刷机
  3. 3.JVM内存区域划分
  4. java中dynamic_介绍@dynamic的用法
  5. 邮件服务器配置错误Unknown SMTP host:
  6. 手机屏幕投影到macbook
  7. 解决高通刷机进fastboot模式后设备就自动重启的问题
  8. 蓝魔i100pro刷linux,双系统新旗舰 蓝魔i100 Pro首发评测
  9. 1,21条MySQL性能调优经验
  10. 一文了解超融合信创云基础设施