‍‍

来源 | 数据分析与统计学之美

作者 | 黄伟呢

本文简介

端午节快要到了,旅游?回家?拜访亲友?少不了要带上粽子。那么:

  • 选择什么牌子的粽子呢?

  • 选择什么口味的粽子呢?

  • 选择什么价格区间呢?

今年,黄同学用Python爬取了京东上面的 “粽子数据” 进行分析,看看有啥发现吧!

本文就从数据爬取、数据清洗、数据可视化,这三个方面入手,但你简单完成一个小型的数据分析项目,让你对知识能够有一个综合的运用。

整个思路如下:

  • 爬取网页:https://www.jd.com/

  • 爬取说明:基于京东网站,我们搜索网站“粽子”数据,大概有100页。我们爬取的字段,既有一级页面的相关信息,还有二级页面的部分信息;

  • 爬取思路:先针对某一页数据的一级页面做一个解析,然后再进行二级页面做一个解析,最后再进行翻页操作;

  • 爬取字段:分别是粽子的名称(标题)、价格、品牌(店铺)、类别(口味);

  • 使用工具:requests+lxml+pandas+time+re+pyecharts

  • 网站解析方式:xpath

最终的效果如下:

数据爬取

京东网站,一般是动态加载的,也就是说,采用一般方式只能爬取到某个页面的前30个数据(一个页面一共60个数据)。

基于本文,我仅用最基本的方法,爬取了每个页面的前30条数据(如果大家有兴趣,可以自行下去爬取所有的数据)。

那么,本文究竟爬取了哪些字段呢?我给大家做一个展示,大家有兴趣,可以爬取更多的字段,做更为详细的分析。

下面为大家展示爬虫代码:

import pandas as pd
import requests
from lxml import etree
import chardet
import time
import redef get_CI(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; X64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}rqg = requests.get(url,headers=headers)rqg.encoding = chardet.detect(rqg.content)['encoding']html = etree.HTML(rqg.text)# 价格p_price = html.xpath('//div/div[@class="p-price"]/strong/i/text()')# 名称p_name = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/em')p_name = [str(p_name[i].xpath('string(.)')) for i in range(len(p_name))]# 深层urldeep_ur1 = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/@href')deep_url = ["http:" + i for i in deep_ur1]# 从这里开始,我们获取“二级页面”的信息           brands_list = []kinds_list = []for i in deep_url:rqg = requests.get(i,headers=headers)rqg.encoding = chardet.detect(rqg.content)['encoding']html = etree.HTML(rqg.text)# 品牌brands = html.xpath('//div/div[@class="ETab"]//ul[@id="parameter-brand"]/li/@title')brands_list.append(brands)# 类别kinds = re.findall('>类别:(.*?)</li>',rqg.text)kinds_list.append(kinds)data = pd.DataFrame({'名称':p_name,'价格':p_price,'品牌':brands_list,'类别':kinds_list})return(data)x = "https://search.jd.com/Search?keyword=%E7%B2%BD%E5%AD%90&qrst=1&wq=%E7%B2%BD%E5%AD%90&stock=1&page="
url_list = [x + str(i) for i in range(1,200,2)]
res = pd.DataFrame(columns=['名称','价格','品牌','类别'])# 这里进行“翻页”操作
for url in url_list:res0 = get_CI(url)res = pd.concat([res,res0])time.sleep(3)# 保存数据
res.to_csv('aliang.csv',encoding='utf_8_sig')

最终爬取到的数据:

数据清洗

从上图可以看到,整个数据算是很整齐的,不是特别乱,我们只做一些简单的操作即可。

先使用pandas库,来读取数据。

import pandas as pddf = pd.read_excel("粽子.xlsx",index_col=False)
df.head()

结果如下:

我们分别针对 “品牌”、“类别” 两个字段,去掉中括号。

df["品牌"] = df["品牌"].apply(lambda x: x[1:-1])
df["类别"] = df["类别"].apply(lambda x: x[1:-1])
df.head()

结果如下:

①  粽子品牌排名前10的店铺
df["品牌"].value_counts()[:10]

结果如下:

② 粽子口味排名前5的味道

def func1(x):if x.find("甜") > 0:return "甜粽子"else:return x
df["类别"] = df["类别"].apply(func1)
df["类别"].value_counts()[1:6]

结果如下:

③ 粽子售卖价格区间划分
def price_range(x): # 按照我的购物习惯,划分价格if x <= 50:return '<50元'elif x <= 100:return '50-100元'elif x <= 300:return '100-300元'elif x <= 500:return '300-500元'elif x <= 1000:return '500-1000元'else:return '>1000元'df["价格区间"] = df["价格"].apply(price_range)
df["价格区间"].value_counts()

结果如下:

由于数据不是很多,没有很多字段,也就没有很多乱数据。因此,这里也没有做数据去重、缺失值填充等操作。所以,大家可以下去获取更多字段,更多数据,用于数据分析。

数据可视化

俗话说:字不如表,表不如图。通过可视化分析,我们可以将数据背后 “隐藏” 的信息,给展现出来。

拓展:当然,这里只是 “抛砖引玉”,我并没有获取太多的数据,也没有获取太多的字段。这里给学习的朋友当一个作业题,自己下去用更多的数据、更多的字段,做更透彻的分析。

在这里,我们基于以下几个问题,做一个可视化展示,分别是:

  • ① 粽子销售店铺Top10柱形图;

  • ② 粽子口味排名Top5柱形图;

  • ③ 粽子销售价格区间划分饼图;

  • ④ 粽子商品名称词云图;

鉴于整个文章排版,本文可视化部分的代码均可在本文末尾获取。

① 粽子销售店铺Top10柱形图

结论分析:去年,我们分析了一些月饼的数据,“五芳斋”“北京稻香村” 这几个牌子记忆犹新,可谓是做月饼、粽子的老店。像 “三全” 和 “思念”,在我印象中一直以为它们只做水饺和汤圆,粽子是否值得一试呢?当然,这里还有一些新的牌子,像 “诸老大”“稻香私房” 等一些牌子,大家都可以下去搜索一下。买东西,就是要精挑细选,品牌也重要。

② 粽子口味排名Top5柱形图

结论分析:在我印象中,小时候一直吃的最多的就是 “甜粽子”,直到我上了初中才知道,粽子还可以有肉?当然,从图中可以看出,卖 “鲜肉粽” 的店铺还是居多,毕竟这个送人,还是显得高端、大气一些。这里还有一些口味,像 “蜜枣粽”“豆沙粽”,我基本没吃过。如果你送人,你会送什么口味的呢?

③ 粽子销售价格区间划分饼图

结论分析:这里,我故意把价格区间细分。这个饼图也很符合实际,毕竟每年就过一次端午节,还是以薄利多销为主,接近80%的粽子,售价都在100元以下。当然,还有一些中档的粽子,价格在100-300元。大于300元,我觉得也没有吃的必要,反正我是不会花这么多钱去买粽子。

④ 粽子商品名称词云图

结论分析:从图中,可以大致看出商家的卖点了。毕竟是节日,“送礼”“礼品” 体现了节日氛围。“猪肉”、“豆沙” 体现了粽子口味。当然,它是否是 “早餐” 好选择呢?购买的话,还支持 “团购” 哦。这些字眼,多多少少都会各自吸引一部分人的眼球。

⑤ 图形组合为大屏

本文的可视化采用的pyecharts库,进行绘制。我们先单独做好每一张图,然后进行图形整合,即可做出一张漂亮的可视化大屏。关于如何制作,可以文末获取我的源代码文件!【粽子.ipynb】

生于2001年的《程序员》曾陪伴了无数开发者成长,影响了一代又一代的中国技术人。时隔20年,《新程序员》带着全球技术大师深邃思考、优秀开发者技术创造等深度内容回来了!同时将全方位为所有开发者呈现国内外核心技术生态体系全景图。扫描下方小程序码即可立即订阅!

‍‍

“端午节” 送亲戚,送长辈,粽子可视化大屏来帮忙!相关推荐

  1. Python实战 | 送亲戚,送长辈,月饼可视化大屏来帮忙!

    中秋节介绍 中秋节,又称祭月节.月光诞.月夕.秋节.仲秋节.拜月节.月娘节.月亮节.团圆节等,是中国民间的传统节日. 中秋节自古便有祭月.赏月.吃月饼.玩花灯.赏桂花.饮桂花酒等民俗,流传至今,经久不 ...

  2. 送你几款数据可视化大屏项目,科技感爆棚!!

    点击关注公众号,实用技术文章及时了解 来源:blog.csdn.net/hwhsong/article/ details/80805511 数据可视化:把相对复杂的.抽象的数据通过可视的.交互的方式进 ...

  3. 20套大屏可视化模板大放送,分分钟做出酷炫的可视化大屏不是梦

    犹记得好莱坞大片<摩天营救>中,监控中心的全方位展示屏幕给人印象深刻,而这种立体化大屏幕似乎已成了科幻电影大片的标配.其实,这种逼格很高的镜头就是一个数据可视化大屏.如今在会议展厅.园区管 ...

  4. 使用VUE实现可视化大屏的适配思路总结(文末送vue版可视化大屏源码)

    页面布局 在拿到设计图后,通常会先通过设计图的布局来思考代码的设计,这也是开始着手写代码前必须要进行的一步,在项目中,我曾遇到,在一张大屏图开发到一半的时候介入,和另一个前端一起进行开发,结果由于她将 ...

  5. Python + 爬虫:可视化大屏帮你选粽子

    来源 | 数据分析与统计学之美 头图 | 下载于ICphoto 端午节快要到了,旅游?回家?拜访亲友?少不了要带上粽子.那么,选择什么牌子的粽子呢?选择什么口味的粽子呢?选择什么价格区间呢? 今年,我 ...

  6. 那些让老板赞不绝口的可视化大屏,附模板和教程

    最近可视化大屏又在网上火了起来,知乎上也有很多人在问关于大屏幕实时数据可视化解决方案的: 像我这种日常要跟数据打交道的人,经常要从数据库里导出数据,然后导入到数据分析工具里制作可视化报告,但是老板又觉 ...

  7. 企业可视化大屏如何搭建

    数据可视化是一个通用术语,描述了通过将数据转化为图形表格方式帮助人们理解数据重要性的任何努力.数据可视化软件可以使基于文本的数据无法检测到的模式,趋势和相关性更易于识别和识别. 当今的数据可视化工具超 ...

  8. 要数字孪生实现,你只需这款数据可视化大屏软件就够了

    如果你想实现数字孪生,那么选择一款优秀的软件非常重要.选择一款优秀的软件,不仅可以提高工作效率,最终呈现的效果也会更好. 山海鲸可视化是一款优秀的数据可视化大屏软件,其上手门槛很低,同时软件性能十分强 ...

  9. 0门槛的数据可视化软件,帮你快速上手制作炫酷的可视化大屏

    山海鲸可视化是一款非常适合新手用户使用的数据可视化软件,使用山海鲸可视化不仅极大降低了用户制作可视化大屏的上手门槛,而且还能实现更加炫酷的可视化效果. 下面让我们一起来看看这款软件的特色之处吧. 种类 ...

最新文章

  1. 使用jdk8新特性实现数据库性能优化
  2. 小程序canvas的一个坑
  3. 一脸懵逼学习Storm的搭建--(一个开源的分布式实时计算系统)
  4. 使用scikit-learn进行机器学习的简易教程
  5. 局网计算机无法访问,局域网计算机不能访问服务器的原因是什么
  6. linux下网络编程设置非阻塞,UNIX网络编程 非阻塞connect的实现
  7. io.circe_如何使用Circe(Un)在Akka HTTP中封送JSON
  8. maven启动web服务报错原因
  9. K-摇臂赌博机算法与实现
  10. 学习python: 常见面试题总结
  11. Excel 函数大全
  12. python爬虫实现hdu自动交题
  13. 工商银行计算机社招笔试题,2019中国工商银行招聘面试试题及答案(一)
  14. 一个不常用的DOM原生API,closest
  15. 【每周CV论文推荐】初学基于GAN的三维图像生成有哪些经典论文需要阅读
  16. 神通数据库connect by用法
  17. Java基础篇:什么是hashCode 以及 hashCode()与equals()的联系
  18. 用于深度神经网络的语音信号预处理
  19. NRF24L01 大数据分包组包传输
  20. 树莓派魔镜——MagicMirror使用(一):开启MagicMirror

热门文章

  1. 【秋招必备】LeetCode神器,算法刷题宝典.pdf
  2. 重磅开源!所有的李航老师《统计学习方法》算法代码实现!!!
  3. 【北大微软】用于视频目标检测的记忆增强的全局-局部聚合
  4. 谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
  5. 人工智能 60 年技术简史
  6. Tensorflow实现的深度NLP模型集锦(附资源)
  7. 干货 | 拒当调参师工程师:超参数搜索算法一览
  8. 国内35所人工智能学院大盘点
  9. Google联合OpenAI揭秘神经网络黑箱:AI的智慧,都藏在激活地图里
  10. 史上最强GAN被谷歌超越!标注数据少用90%,造假效果却更逼真