转眼就到12月份了，但是没想到今年的冬天这么冷，基本取暖靠抖，太冷啦！

于是，赶紧打开了Python，用它爬取并分析一波棉袄，找到一件最合适的棉袄给裹到身上。

01 数据采集

数据采集是数据可视化分析的第一步，也是最基础的一步，数据采集的数量和质量越高，后面分析的准确的也就越高，我们来看一下淘宝网的数据该如何爬取。

淘宝网站是一个动态加载的网站，我们之前可以采用解析接口或者用Selenium自动化测试工具来爬取数据，但是现在淘宝对接口进行了加密，使我们很难分析出来其中的规律，同时淘宝也对Selenium进行了反爬限制，所以我们要换种思路来进行数据获取。

打开开发者模式，开始对网页进行观察后发现，淘宝商品的数据竟然在源网页中存储着。

我翻了几页网页之后发现，每翻一页，网页的params参数中的s参数就会增加44(初始值是0)。

经过以上分析，现在我们就可以开始构造爬虫程序了。

1. 导入爬虫使用的库

import requests
import re
import time
import random
import openpyxl

2. 发起请求

for page in range(1,101):params = (('q', '棉袄'),('imgfile', ''),('commend', 'all'),('ssid', 's5-e'),('search_type', 'item'),('sourceId', 'tb.index'),('spm', 'a21bo.jianhua.201856-taobao-item.2'),('ie', 'utf8'),('initiative_id', 'tbindexz_20170306'),('hintq', '1'),('s', str(page*44)),)
response = requests.get(url,  params=params)

3. 数据存储

 a = 0b = 0for i in range(44):try:sheet.append([dianpumingcheng[i],shangpinming[i],float(jiage[i]),fahuodi[i],fukuanrenshu[i]])except:a+=1if a>30:print(f"第{page}页数据未爬取......")wb.save('棉袄.xlsx')# 把xxx改成你想要的存储的名称即可b = 1breakif b == 1:breakprint(f"已爬取完第{page}页数据......")time.sleep(random.randint(3,5))
print(f'共爬取{page}页数据......')

02 数据清洗

数据采集后，要对其进行清洗，剔除脏数据，用以提高分析的准确性。

1. 导入商品数据

用pandas读取爬取后的商品数据并预览。

import pandas as pd
df = pd.read_excel('棉袄.xlsx',names=['店铺名称','商品名','价格','产地','付款人数'])
print(df.head())

2.删除重复数据

df.drop_duplicates()

删除重复数据后，还有2008条数据。

3. 数据类型转换

我们发现付款人数是字符串类型，我们需要将其转换成整数类型。

wb = openpyxl.load_workbook('棉袄.xlsx')
int_list = []
sheet = wb['Sheet']
for i in range(2,2008):str = sheet[f'E{i}'].valueif '万+' in str:int_list.append(int(int(str[:-2])*random.uniform(1,2)*10000))elif '+' in str:int_list.append(int(int(str[:-1])+random.random()*1000))else:int_list.append(int(str))
for i in range(2,2008):sheet.cell(i,5).value = int_list[i-2]
wb.save('3.xlsx')

4.查看数据类型

查看字段类型和缺失值情况，符合分析需要，无需另做处理。

df.info()

03 可视化分析

我们来对这2008家棉袄商品数据进行可视化分析。可视化图是由Python、Tableau和Excel共同绘制而来。

1.在售棉袄特点

通过对棉袄的商品名称进行词云图绘制，我们发现，今年棉袄的样式以宽松、潮流、韩版、短款类居多。

制作代码如下：

from imageio import imread
import jieba
from wordcloud import WordCloud, STOPWORDSwith open("1.txt",'r',encoding='utf-8') as f:job_title_1 = f.read()
contents_cut_job_title = jieba.cut(job_title_1)
contents_list_job_title = " ".join(contents_cut_job_title)
wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False,background_color="white",font_path=r"K:\msyh.ttc",width=400, height=300, random_state=42,mask=imread('棉袄.jpg', pilmode="RGB"))
wc.generate(contents_list_job_title)
wc.to_file("推荐语.png")

2.各省产量分布图

通过对各商品的产地数据进行统计并绘制了全国地图，我们发现浙江、广东和福建这三个地方生产棉袄最多，分别是914家、261家和203家。

制作代码如下：

import openpyxl
from collections import Counter
from pyecharts import Map
wb = openpyxl.load_workbook('棉袄.xlsx')
sheet = wb['Sheet']
a = []
for i in range(2,1960):D = sheet[f'D{i}']a.append(D.value)
province_distribution = dict(Counter(a))
provice = list(province_distribution.keys())
values = list(province_distribution.values())
map = Map("中国地图",width=1200, height=600)
map.add("", provice, values, visual_range=[0, 50], maptype='china', is_visualmap=True,
visual_text_color='#000',is_label_show=True)
map.render(path="地图.html")

我们进一步对浙江省的产地数据进行分析发现，杭州的棉袄商家最多，占全省的40%。

3. 棉袄价格区间分布

我们对棉袄价格以100为分点，进行可视化后发现，价格在100-200的棉袄商品最多，有869家，其次是价格在201-300之间的，有501家。看来棉袄的价格还是相对便宜的~

4.棉袄月销量top20商家

销量最高的竟然不是旗舰店，是一个李广森的自制时尚女装店，打开她们家的店铺看了看，感觉还不错，可以给对象入手一套~

冻成狗啦我用Python爬取某宝2008条棉袄，终于买到心仪的棉袄了相关推荐

冻成狗啦！我用Python爬取某宝2008条棉袄，终于买到心仪的棉袄了！
大家好,我是菜鸟哥~ 转眼就到12月份了,但是没想到今年的冬天这么冷,基本取暖靠抖,太冷啦! 于是,菜鸟哥赶紧打开了Python,用它爬取并分析一波棉袄,找到一件最合适的棉袄给裹到身上. 01 数据采 ...
Python 爬取 B 站 5000 条视频，揭秘为何千万人为它流泪！
[CSDN 编者按]<哪吒>看哭了无数人!编者看的那场,有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下 ...
python爬取淘宝商品图片
python爬取淘宝商品的图片话不多说,直接上代码: from selenium import webdriver from selenium.webdriver.common import key ...
python爬取国家男女比例_用python爬取3万多条评论，看韩国人如何评价韩国电影《寄生虫》？...
用python爬取3万多条评论,看韩国人如何评价韩国电影<寄生虫>? 朱小五凹凸数据大家好,我是朱小五今天给大家带来一个关于电影的数据分析文章. 别走啊,这次不是豆瓣,也不是猫眼真 ...
Python爬取淘宝女模特信息
前言 Python爬取淘宝美女信息下载本地并同时存储mysql数据库,存储数据库用到了pymysql模块,sql语句简单好用,直接上代码,源码请点链接Python-Spiders文集. 项目结构: 本 ...
python爬取+BI分析5000条内衣数据，发现妹子最爱这款文胸
生活中我们经常会用python进行数据爬取,但是爬取简单分析难,很多人喜欢用echarts图表接口或者是python的第三方库进行数据可视化,甚至是用matlab,基本上都需要用代码实现,在数据展示上 ...
python 爬取淘宝网课
python爬取淘宝网课,打开web控制台,发现有个链接可以下载到对应的内容,下载的格式是m3u8,用文本打开里面是许多.ts链接,当然百度后得知可以直接下个vlc然后下载,但是还是想用python试 ...
python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据（写在记事本）
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...
用Python爬取淘宝网商品信息
用Python爬取淘宝网商品信息转载请注明出处网购时经常会用到淘宝网点我去淘宝但淘宝网上的商品琳琅满目,于是我参照中国大学 MOOC的代码写了一个爬取淘宝网商品信息的程序代码如下: impor ...

冻成狗啦我用Python爬取某宝2008条棉袄，终于买到心仪的棉袄了

01 数据采集

1. 导入爬虫使用的库

2. 发起请求

3. 数据存储

02 数据清洗

1. 导入商品数据

2.删除重复数据

3. 数据类型转换

4.查看数据类型

03 可视化分析

1.在售棉袄特点

2.各省产量分布图

3. 棉袄价格区间分布

4.棉袄月销量top20商家

冻成狗啦我用Python爬取某宝2008条棉袄，终于买到心仪的棉袄了相关推荐

最新文章

热门文章

冻成狗啦 我用Python爬取某宝2008条棉袄，终于买到心仪的棉袄了

01 数据采集

1. 导入爬虫使用的库

2. 发起请求

3. 数据存储

02 数据清洗

1. 导入商品数据

2.删除重复数据

3. 数据类型转换

4.查看数据类型

03 可视化分析

1.在售棉袄特点

2.各省产量分布图

3. 棉袄价格区间分布

4.棉袄月销量top20商家

冻成狗啦 我用Python爬取某宝2008条棉袄，终于买到心仪的棉袄了相关推荐

最新文章

热门文章

冻成狗啦我用Python爬取某宝2008条棉袄，终于买到心仪的棉袄了

冻成狗啦我用Python爬取某宝2008条棉袄，终于买到心仪的棉袄了相关推荐