搞session搞不来,只能是假登录获取cookie来登入商品界面,现在好像都是这种反爬虫机制了....无语子

具体关于得到head头的cookie参考了一下(写的挺棒的):https://blog.csdn.net/Guanhai1617/article/details/104120581?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase

代码:

import re
import requests
import openpyxl
import os
from openpyxl.chart import BarChart, Series, Reference
file_path=os.path.join(os.getcwd(),'医用口罩表.xlsx')ex_file=openpyxl.Workbook()
sheet_1=ex_file.active
sheet_1.title='口罩供应商'
sheet_1['A1']='商品名'
sheet_1['B1']='价格'head = {'authority': 's.taobao.com','cache-control': 'max-age=0','upgrade-insecure-requests': '1','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 Edg/83.0.478.61','accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','sec-fetch-site': 'same-origin','sec-fetch-mode': 'navigate','sec-fetch-user': '?1','sec-fetch-dest': 'document','referer': 'https://www.taobao.com/','accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6','cookie': 'cna=ZgeSF8aFQVACAbYjez4Ty5y9; t=8d85d6b62500f814ed50db2334f0add9; lgc=tb273784045; tracknick=tb273784045; mt=ci=3_1; thw=cn; sgcookie=EbIswQASovHSpBjnzvBGi; uc3=lg2=VT5L2FSpMGV7TQ%3D%3D&vt3=F8dBxGPqBv6pkowrnic%3D&nk2=F5RHpr9uzAWJicw%3D&id2=Vy0SO4B6bdNywg%3D%3D; uc4=id4=0%40VXqco%2FSSqiyYs5UXCwvMGyfEQi9m&nk4=0%40FY4MtL6QaaEQPaMnL1B9ECPNtmc0WA%3D%3D; _cc_=Vq8l%2BKCLiw%3D%3D; enc=kfakK3WSKs%2B1oSznMN9NCKKDpwt7vBhces3UcPxcrFhj6ZDUq2x1u%2FIT%2F6%2BcRKh3jFeYoL0mdgMzHZ6jXpCXEg%3D%3D; tfstk=ceGNBm4bbCdwBCFXe5NV1fIrqH9OaoE0V6zzIYU9uD4R4Cyg4sfcDyYCDyzVvDeG.; hng=CN%7Czh-CN%7CCNY%7C156; v=0; uc1=cookie14=UoTV6OdKEo%2BuDg%3D%3D; cookie2=178023102a4627e1de09dd51e785519f; _tb_token_=70e0e3fe7b613; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; l=eBLoDB0eOg5ISLiSBOfaourza779LIRbouPzaNbMiOCPOvfH5SJhWZlGuqLMCnGVnsieR3l2C1l6B0YLRyzHh2nk8b8CgsDLVdTh.; isg=BOHh3pSHGrtWD7bPqgMryXls8K37jlWAANmQckO2j-hHqgB8i969UZToCN4sZO24; JSESSIONID=0C30007EE8F7A0FA543EA9BA8B3A0D88',
}
infos=[]
url='https://s.taobao.com/search?initiative_id=tbindexz_20170306&ie=utf8&spm=a21bo.2017.201856-taobao-item.2&sourceId=tb.index&search_type=item&ssid=s5-e&commend=all&imgfile=&q=%E5%8C%BB%E7%94%A8%E5%8F%A3%E7%BD%A9&suggest=history_1&_input_charset=utf-8&wq=&suggest_query=&source=suggest&sort=sale-desc&bcoffset=0&p4ppushleft=%2C44&s='
for i in range(0,3):url_new=url+str(i*44)  #读三页r=requests.get(url_new,headers=head)if r.status_code==200:r.encoding=r.apparent_encodingtitle=re.findall(r'\"raw_title\":\"(.*?)\"',r.text)price=re.findall(r'\"view_price\":\"(.*?)\"',r.text)for j in range(len(price)):infos.append([title[j],eval(price[j])])  #保存商品名和价格goods=[]
for i in range(0,len(infos)):goods.append(infos[i][0])goods.append(infos[i][1])end_num='B'+str(len(goods)//2+1)
i=0
for line in sheet_1['A2':end_num]:for one_cell in line:sheet_1[one_cell.coordinate]=goods[i]   #表单添加数据i+=1ex_file.save(file_path) #保存并创建文件到指定路径ex_file=openpyxl.load_workbook('医用口罩表.xlsx',data_only=True)  #重新打开文件
sheet_1=ex_file.active
sheet_1.column_dimensions['A'].width=70     #设置列宽
data=openpyxl.chart.Reference(sheet_1,min_row=1,min_col=2,max_row=len(goods)//2+1)  #读取数据
titles=openpyxl.chart.Reference(sheet_1,min_row=2,min_col=1,max_row=len(goods)//2+1)  #读取纵轴
chart=openpyxl.chart.BarChart3D()
chart.title='医用口罩比较'
chart.add_data(data=data,titles_from_data=True)  #导入数据
chart.set_categories(titles)  #绑定纵轴
chart.height=15
chart.width=100sheet_1.add_chart(chart,'D2')  #设置位置
ex_file.save('医用口罩表.xlsx')

生成

打开它

先看数据区:(爬了三页,效果不错

柱状图就在旁边太大了勉强看看吧:

爬虫到这里就结束了,简单入了个门,不搞了,专心搞点其它喜欢的。

Python按销量爬取淘宝医用口罩前三页导入Excel并生成柱状图相关推荐

  1. python + selenium多进程爬取淘宝搜索页数据

    python + selenium多进程爬取淘宝搜索页数据 1. 功能描述 按照给定的关键词,在淘宝搜索对应的产品,然后爬取搜索结果中产品的信息,包括:标题,价格,销量,产地等信息,存入mongodb ...

  2. python+scrapy简单爬取淘宝商品信息

    python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...

  3. python不登陆爬取淘宝数据_python登录并爬取淘宝信息代码示例

    本文主要分享关于python登录并爬取淘宝信息的相关代码,还是挺不错的,大家可以了解下. #!/usr/bin/env python # -*- coding:utf-8 -*- from selen ...

  4. python使用requests爬取淘宝搜索页数据

    前一段时间负责爬取淘宝的一些商品信息,本来接到爬取淘宝的任务的时候,下意识的就想用selenium(毕竟淘宝有点不好搞).但是使用selenium时搜索页面也得需要登录,并且当使用selenium时不 ...

  5. 3每天Python小例-爬取淘宝网页商品

    代码是从https://github.com/gxcuizy/Python/tree/master/%E4%BB%8E%E9%9B%B6%E5%AD%A6Python-%E6%8E%98%E9%87% ...

  6. Python如何快速爬取淘宝MM呢?教你一招

    本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式 在这里我们用到的URL ...

  7. python网络爬虫--爬取淘宝联盟

    互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML.JS.CSS代码返回给浏览器,这些代码经过浏览器解析.渲染,将丰富多彩的网页呈现我们眼前. 网络爬虫,也叫网络蜘蛛(W ...

  8. 【python爬虫】爬取淘宝网商品信息

    相信学了python爬虫,很多人都想爬取一些数据量比较大的网站,淘宝网就是一个很好的目标,其数据量大,而且种类繁多,而且难度不是很大,很适合初级学者进行爬取.下面是整个爬取过程: 第一步:构建访问的u ...

  9. 使用python的selenium爬取淘宝标题价格,就算小白也能看懂的教学!!

    第一步 爬取前准备 安装selenium,以及如何启动自动控制请看下一章. 打开淘宝页面按下F12,即可跳出控制台(开发者模式),这里只要你技术好,网页上的资料你都能轻松获取.温馨提示:爬虫爬的好,牢 ...

最新文章

  1. Hibernate中get方法和load方法的区别
  2. Python3.3 学习笔记1 - 初步安装
  3. sql server修改索引名称_索引基本知识和索引优化
  4. Swagger使用————接口参数注解的使用缺陷
  5. Warning: Data truncated for column #39;AirPress#39; at row 1
  6. html中input里的time怎么用,HTML Input Time stepDown()用法及代码示例
  7. 红帽企业linux7 u盘安装,RedHat企业版7 “yum”重装 CentOS7 “yum”
  8. MySQL搭建主从(一主一从)
  9. Spring(SpringBoot)--事务传播机制--应用/实例/详解
  10. 海思3559A 内置RTC模块调试
  11. android studio smail变量值,Android Studio + smalidea进行smail动态调试
  12. 【项目管理案例】第九期:如何做好项目整合管理
  13. 用户粘性︱如何提升用户忠诚度
  14. Win10巧用自带输入法轻松打出特殊字符
  15. Linux学习之安装配置VM虚拟机
  16. c语言编程基础 王森,《C语言编程基础第2版》王森版 习题答案
  17. import()函数和import语句
  18. 1077篇 ! ICCV2019论文接收结果公布(附70篇论文链接抢先读,含Oral) 更新中
  19. 解决FTP文件访问需要输入用户名和密码的问题
  20. 对于VS2012的位图无法加载到资源视图“Bitmap”中的解决方案

热门文章

  1. c语言编程如何实现-十进制数转换成二进制和输出
  2. Jmeter系列之《3.badboy脚本开发技术详解》
  3. 浅谈互联网金融,了解互联网金融数字货币交易所
  4. 《万王之王3》主题歌歌词有奖大征集
  5. transformerOcr
  6. Python+selenium下载数据初探
  7. 需求-数据资源管理平台
  8. 全球可用的NTP服务器列表与解析服务
  9. 看懂巴菲特推荐的指数基金定投,Python验证
  10. 第05天C语言(01):打飞机