最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!
在有几天就是中秋节了,不知道大家有没有选择困难症,面对琳琅满目的商品,不知道挑哪款月饼送长辈最好。
不过好在会Python,将淘宝上的月饼商品都爬取了下来,并进行可视化分析,从而你看看哪款月饼是最合适的。
01
数据采集
数据采集是数据可视化分析的第一步,也是最基础的一步,数据采集的数量和质量越高,后面分析的准确的也就越高,我们来看一下淘宝网的数据该如何爬取。
淘宝网站是一个动态加载的网站,我们之前可以采用解析接口或者用Selenium自动化测试工具来爬取数据,但是现在淘宝对接口进行了加密,使我们很难分析出来其中的规律,同时淘宝也对Selenium进行了反爬限制,所以我们要换种思路来进行数据获取。
打开开发者模式,开始对网页进行观察后发现,淘宝商品的数据竟然在源网页中以注释的方式存储着。
已经发现了数据存储的位置和方式,那我们可以直接构建爬虫了,部分代码如下:
import requests
import re
import openpyxlresponse = requests.get(url, headers=headers, params=params)for i in range(44): try:if (fukuanrenshu[i] == '1.5万+'):f = 15000elif (fukuanrenshu[i] == '1.0万+'):f = 10000elif ('+'in fukuanrenshu[i]):f = re.findall('\d+', fukuanrenshu[i])else:f = fukuanrenshu[i]if float(jiage[i]) > 10:sheet.append([dianpumingcheng[i], shangpinming[i], float(jiage[i]), fahuodi[i], f])
02
数据清洗
数据采集后,要对其进行清洗,剔除脏数据,有助于提高分析的准确性。
01
导入商品数据
用pandas读取爬取后的商品数据并预览。
import pandas as pd
df = pd.read_excel('月饼.xlsx',names=['店铺名称','商品名','价格','产地','付款人数'])
print(df.head())
02
删除重复数据
df.drop_duplicates()
03
查看数据类型
查看字段类型和缺失值情况,符合分析需要,无需另做处理。
df.info()
03
可视化分析
我们来对这1166家月饼商品数据进行可视化分析。可视化图是由Python、Tableau和Excel共同绘制而来。
01
在售月饼的特点
通过对月饼的商品名称进行词云图绘制,发现蛋黄、广式、五仁、莲蓉、豆沙味的月饼售卖较多,同时淘宝上售卖的月饼大多是用来给人们送礼的。
制作代码如下:
from imageio import imread
import jieba
from wordcloud import WordCloud, STOPWORDSwith open("1.txt",'r',encoding='utf-8') as f:job_title_1 = f.read()
contents_cut_job_title = jieba.cut(job_title_1)
contents_list_job_title = " ".join(contents_cut_job_title)
wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False,background_color="white",font_path=r"K:\msyh.ttc",width=400, height=300, random_state=42,mask=imread('月饼.jpg', pilmode="RGB"))
wc.generate(contents_list_job_title)
wc.to_file("推荐语.png")
02
各省产量分布图
通过对各商品的产地数据进行统计并绘制了全国地图,我们发现广东、浙江和北京这三个地方生产月饼最多,分别是312家、221家和131家。
制作代码如下:
import openpyxl
from collections import Counter
from pyecharts import Map
wb = openpyxl.load_workbook('月饼.xlsx')
sheet = wb['Sheet']
a = []
for i in range(2,1960):D = sheet[f'D{i}']a.append(D.value)
province_distribution = dict(Counter(a))
provice = list(province_distribution.keys())
values = list(province_distribution.values())
map = Map("中国地图",width=1200, height=600)
map.add("", provice, values, visual_range=[0, 50], maptype='china', is_visualmap=True,
visual_text_color='#000',is_label_show=True)
map.render(path="地图.html")
我们进一步对广东省的产地数据进行分析发现,广州的月饼商家最多,占全省的40%。
03
月饼价格区间分布
我们对月饼价格以100为分点,进行可视化后发现,价格在100以内的月饼商品最多,有478家,其次是价格在100-200之间的,有399家。看来月饼的价格还是相对便宜的~
04
月饼月销量top20商家
我们发现月饼销量top20的商店都是旗舰店,看来大家在网上购买食品类商品时还是喜欢去官方的店铺进行购买。其中稻香村食品店的月饼销量最高,一会去这家看看。
看完月销量,在来看看月销额。我们发现美心官方旗舰店的月销额很高,但是它的月销量很低,看来它的月饼商品价格略高。
05
入手的月饼
经过以上的分析和对宝贝的评价、好评率等数据进行综合考虑之后,最终选择购买这款月饼来送给长辈。
推荐阅读:
入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 | 从万众期待到口碑扑街!唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影
趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!| 再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|
年度爆款文案
1).卧槽!Pdf转Word用Python轻松搞定!
2).学Python真香!我用100行代码做了个网站,帮人PS旅行图片,赚个鸡腿吃
3).首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密
4).80行代码!用Python做一个哆来A梦分身
5).你必须掌握的20个python代码,短小精悍,用处无穷
6).30个Python奇淫技巧集
7).我总结的80页《菜鸟学Python精选干货.pdf》,都是干货
8).再见Python!我要学Go了!2500字深度分析!
9).发现一个舔狗福利!这个Python爬虫神器太爽了,自动下载妹子图片
点阅读原文,领AI全套资料
最好吃的月饼!用Python爬取了某宝1166家月饼进行可视化分析!相关推荐
- 用Python爬取了全国近5000家旅游景点,分析国庆去哪玩
双节同庆,小长假如约而至 我想今年大家在家都憋坏了 这么长的假期,当然是出去 玩玩玩! 每当长假的时候,有没有想起被人山人海支配的恐惧! 该去哪些地方呢? 我用 Python 爬取了全国近 5000 ...
- python爬取旅游信息_用Python爬取了全国近5000家旅游景点,分析国庆去哪玩
2020 国庆马上就要到了 我想今年大家在家都憋坏了 今年国庆和中秋刚好又是同一天,加起来有 8 天假 这么长的假期,当然是出去 玩玩玩! 但是每次长假期间,你有没有想起被人山人海支配的恐惧呢? 那么 ...
- 通过Python爬取QQ空间说说并通过Pyechart进行可视化分析
有一天我突然发现自己空间的说说竟然已经达到1833条,于是萌生了爬一下看看的想法(其实就是想学下python爬虫).我找了一些博客,方法不少,但是有些并不适用.所以我把真正能用的方法记录下来,并且爬取 ...
- 【Python】手把手教你用Python爬取某网小说数据,并进行可视化分析
网络文学是以互联网为展示平台和传播媒介,借助相关互联网手段来表现文学作品及含有一部分文字作品的网络技术产品,在当前成为一种新兴的文学现象,并快速兴起,各种网络小说也是层出不穷,今天我们使用seleni ...
- Python爬取南京地铁微博发布客流数据并进行分析
Python爬取南京地铁微博发布客流数据并进行分析 之前在网上看到了分析北京地铁客流数据的开源项目,就想试着分析一下南京地铁的客流数据,可是找了很久没有找到可以获得南京地铁客流数据的接口,就去南京地铁 ...
- 使用python爬取BOSS直聘岗位数据并做可视化(Boss直聘对网页做了一些修改,现在的代码已经不能用了)
使用python爬取BOSS直聘岗位数据并做可视化 结果展示 首页 岗位信息 岗位详情 薪资表 学历需求 公司排名 岗位关键词 福利关键词 代码展示 爬虫代码 一.导入库 二.爬取数据 1.爬取数据代 ...
- python 抓取解析接口数据_[干货]用python抓取摩拜单车API数据并做可视化分析(源码)...
原标题:[干货]用python抓取摩拜单车API数据并做可视化分析(源码) 在APP中能看到很多单车,但走到那里的时候,才发现车并不在那里.有些车不知道藏到了哪里:有些车或许是在高楼的后面,由于有GP ...
- 利用python爬取东方财富网股吧评论并进行情感分析(一)
利用python爬取东方财富网股吧评论(一) python-东方财富网贴吧文本数据爬取 分享一下写论文时爬数据用到的代码,有什么问题或者改善的建议的话小伙伴们一起评论区讨论.涉及内容在前人的研究基础之 ...
- python爬取数据分析淘宝商品_python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍 有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是 ...
- Python爬取网易云歌曲评论,做词云分析
前言 emmmm 没什么说的,想说的都在代码里 环境使用 Python 3.8 解释器 3.10 Pycharm 2021.2 专业版 selenium 3.141.0 本次要用到selenium模块 ...
最新文章
- 2800:垂直直方图
- WINSERVER 2008 CA 证书有效期修改
- python 立方体切割块数_blender python通过三角函数调整立方体Location排成圆
- 如何给Linux操作系统(CentOS 7为例)云服务器配置环境等一系列东西
- java判断一个整数是不是素数(质数)
- 判斷指定資料庫存取權
- 云服务器如何重新引导,重新启动server服务器
- YII2 搭建redis拓展(教程)
- Java中数字朝着0.5的倍数取舍
- Snmp4j编程简介之二:PDU
- 反转字符串 不同方式
- 重复可记,证明没有忘记这回事
- 超星考试浏览器_超星浏览器官方下载
- win11字体模糊不清怎么办 windows1字体模糊不清的解决方法
- 哔哩哔哩下载的视频怎么找不到?
- android系统裁剪优化
- C++课程设计订单信息管理系统
- php里pluck,Pluck CMS后台另两处任意代码执行
- 人脑与计算机之间有什么联系,再谈人脑与电脑的关系
- Win10 tensorflow 1.12 gpu + CUDA10 + Anaconda3-4.4 python3.6 安装过程
热门文章
- AT91SAM9260不能与sam-ba连接的解决方法
- python怎样输出字符串和数字_从零开始py个thon2:数字与字符串
- 企业微信自建应用 网页授权登录 获取用户信息
- 人体如何区分阴虚和阳虚?
- 海底捞“清疮”300店:千亿龙头的虚与实
- php 单词替换,单词替换 - Shiyin's note
- excel筛选排序从小到大_用Excel函数实现排序与筛选的方法
- 怎么在bios里设置光驱启动 bios设置光驱启动图文教程
- 计算机在材料科学中的应用上机二,计算机在材料科学与工程中应用综合实验
- Excel怎么做均值-极差控制图