本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于菜J学Python ,作者数据分析pjy

前言

这是巨变的中国,人和食物,比任何时候走的更快。近日,J哥为了寻味中国,奔走于某五线城市的大街小巷,结果除了累,啥也没寻到。

于是,J哥默默打开了各大美食网站,如豆果美食、下厨房、美食天下等。经过甄选,最终爬取了豆果网最新发布的中国菜系共3032个菜谱,然后清洗数据并做可视化分析,试图走上美食博主的康庄大道。

豆果美食网的数据爬取比较简单,如果您对爬虫感兴趣,可以看一看。

本次爬取的数据范围为川菜、粤菜、湘菜等八个中国菜系,包含菜谱名、链接、用料、评分、图片等字段。限于篇幅,仅给出核心代码。

 1# 主函数2def main(x):3    url = 'https://www.douguo.com/caipu/{}/0/{}'.format(caipu,x*20)4    print(url)5    html = get_page(url)6    parse_page(html,caipu)78if __name__ == '__main__':9    caipu_list = ['川菜', '湘菜','粤菜','东北菜','鲁菜','浙菜','湖北菜','清真菜'] #中国菜系
10    start = time.time()  # 计时
11    for caipu in caipu_list:
12        for i in range(22):
13            # 爬取多页
14            main(x=i)
15            time.sleep(random.uniform(1, 2))
16            print(caipu,"第" + str(i+1) + "页提取完成")
17    end = time.time()
18    print('共用时',round((end - start) / 60, 2), '分钟')

短短几分钟就爬下了3032个菜谱信息,为了方便可视化分析,还需要对爬取的数据进行简单清洗。

本文数据清洗主要用到Python的Pandas库。

导入数据

用pd.read方法导入爬取到的菜谱数据,并添加列名。预览数据如下:

删除重复项

爬虫过程中少量菜谱数据被重复抓取,需要用drop_duplicates方法删除。

缺失值处理

通过info方法发现少量记录含有缺失值,用dropna方法删除。

评分字段清洗

爬取的评分字段含有多余的字符串且为object类型,需要替换多余字符串并转换为数字类型,方便后续计算。

添加用料数字段

为方便菜谱用料分析,需要根据用料字段计算出每个菜谱的用料数量。由于用料字段都是以逗号分隔,计算逗号数即可间接得到。

本文数据可视化主要用到pyecharts库,它能轻松实现酷炫的图表效果。如果您对可视化感兴趣,可查看J哥往期原创文章「数据可视化分析系列」,涉及地产、电商、招聘等各领域。

菜谱评分分布

 1from pyecharts import options as opts2from pyecharts.charts import Page, Pie3cut = lambda x : '4分以下' if x < 4 else ('4.1-4.5分' if x <= 4.5 else('4.6-4.9分' if x <= 4.9 else '5分'))4df['评分分布'] = df['评分'].map(cut)5df2 = df.groupby('评分分布')['评分'].count()6df2 = df2.sort_values(ascending=False)7df2 = df2.round(2)8print(df2)9c = (
10        Pie()
11        .add(
12            "",
13            [list(z) for z in zip(df2.index.to_list(),df2.to_list())],
14            radius=["20%", "80%"],# 圆环的粗细和大小
15            rosetype='area' #玫瑰图
16        )
17        .set_global_opts(
18            title_opts=opts.TitleOpts(title="菜谱评分分布"
19                                     ),
20            legend_opts=opts.LegendOpts(
21                orient="vertical", pos_top="5%", pos_left="2%" ,textstyle_opts=opts.TextStyleOpts(font_size=14)# 左面比例尺
22            ),
23
24
25        )
26        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18),
27                      )
28    )
29c.render_notebook()

豆果美食网菜谱评分实行5分制。由上图可知,4分以下的菜谱占比不到2%,满分菜谱高达32.6%,可见用户对中国菜系菜谱评价普遍较高。

各菜系菜谱数量对比

 1from pyecharts import options as opts2from pyecharts.charts import Page, Pie 3df2 = df.groupby('菜系')['评分'].count() #按菜系分组,对评分计数4df2 = df2.sort_values(ascending=False) #降序5print(df2)6c = (7        Pie()8        .add("", [list(z) for z in zip(df2.index.to_list(),df2.to_list())])9        .set_global_opts(title_opts=opts.TitleOpts(title="各菜系菜谱数量占比",subtitle="数据来源:豆果美食"))
10        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
11    )
12c.render_notebook()

由上图可知,川菜和粤菜菜谱数量较多,显示出作为中国“八大菜系”成员的地位。湖北菜和清真菜菜谱数量较少,相对更为小众。

各菜系评分对比

 1from pyecharts import options as opts2from pyecharts.charts import Page, Pie3df2 = df.groupby('菜系')['评分'].mean()4df2 = df2.sort_values(ascending=False)5df2 = df2.round(2)6print(df2)7c = (8        Pie()9        .add(
10            "",
11            [list(z) for z in zip(df2.index.to_list(),df2.to_list())],
12            radius=["40%", "75%"],   # 圆环的粗细和大小
13        )
14        .set_global_opts(
15            title_opts=opts.TitleOpts(title="各菜系平均评分"),
16            legend_opts=opts.LegendOpts(
17                orient="vertical", pos_top="5%", pos_left="2%"  # 左面比例尺
18            ),
19        )
20        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{c}"))
21    )
22c.render_notebook()

由上图可知,各菜系评分非常接近,用户平均评分都在4.6分以上。相对一致的评分,导致通过用户评分来评价菜谱的可信度降低。

各菜系用料数量对比

 1from pyecharts.charts import Bar,Pie2from pyecharts import options as opts3df1 = df.groupby('菜系')['用料数'].mean() #按菜系分组,对评分计数4df1 = df1.sort_values(ascending=False) #降序5df1 = df1.round(0)6print(df1)7bar = Bar()8bar.add_xaxis(df1.index.to_list())9bar.add_yaxis("用料数量",df1.to_list())
10bar.set_global_opts(title_opts=opts.TitleOpts(title="各菜系用料数量",subtitle="数据来源:豆果美食"))
11bar.render_notebook()

由上图可知,川菜和东北菜用料较足。川菜素有取材广泛、调味多、菜式多样等特点,虽然东北菜没有排在传统的“八大菜系”中,但豪迈热情的东北人从不吝啬菜肴里的用料。

粤菜更注重菜品的原味鲜香,具有清、鲜、爽、嫩、滑等特色,因此用料相对更少。清真饮食风俗源于伊斯兰教,部分食材属于禁忌物,因此用料也不多。

川菜用料分析

1# 绘制词云图
2text1 = get_cut_words(content_series=df[df['菜系']=='川菜']['用料'])
3stylecloud.gen_stylecloud(text=' '.join(text1), max_words=1000,
4                          collocations=False,
5                          font_path='字酷堂清楷体.ttf',
6                          icon_name='fas fa-thumbs-up',
7                          size=653,
8                          output_name='./川菜.png')
9Image(filename='./川菜.png')

由川菜用料词云图可知,川菜主要用料包括花椒、豆瓣酱和干辣椒。不怕辣的四川人喜好种植花椒,四川火锅也因为有了花椒的加入更有吸引力,千千万万的海内外寻味者奔涌相随。

料实材真,一般都能出美味。川菜用料最足的菜谱为川味砂锅之足不出户的麻辣烫,共用料35种。

用料明细:毛肚,黄喉,鲜牛肉片,自制肉,鸭血,金针菇,平菇,豆芽,苕粉,冬笋片,白菜,莴笋叶,鹌鹑蛋(煮熟剥壳),猪骨汤,猪油,牛油,植物油(菜油上佳),姜片,大粒的蒜,郫县豆瓣,八角,茴香,桂皮,丁香,陈皮,香叶,白胡椒粉,冰糖,生抽,盐,葱结,花椒,干辣椒,鸡精丸,午餐肉

粤菜用料分析

由粤菜用料词云图可知,粤菜主要用料包括胡椒粉、五花肉和白糖。粤菜的圣地在顺德,粤菜注重质和味,口味相对清淡,力求清中求鲜、淡中求美。

粤菜用料最足的菜谱为广式肠粉,共用料23种。

用料明细:粉浆用料,粘米粉(米打的粉),澄面(小麦淀粉),土豆淀粉,粟米粉(玉米淀粉),水,酱汁用料,独头蒜,大蒜籽,姜片,香菜(不吃香菜的可用葱代替),鸡汤,鲜味生抽,老抽,蚝油,蜂蜜,鱼露(可不放),鸡精(个人喜欢就放,不放也很鲜了),水,肠粉里面放的料,肉末,鸡蛋,生菜叶

湘菜用料词云图

由湘菜用料词云图可知,湘菜主要用料包括辣椒、大蒜、花椒等。辣不怕的湖南人以辣椒为生,尤其以剁椒出名。J哥虽不是湖南人,但在湖南待了几年后,目前也成了个胖子。美食虽美,可不要贪多哦~

湘菜用料最足的菜谱为麻辣卤鸭三件,共用料20种。

用料明细:鸭爪(清水泡一小时),鸭翅膀(清水泡一小时啊),鸭肠(洗干净后捆成一个个小捆),白芷,桂皮,香叶,大料(两个焯水用,三个卤用),干辣椒(根据个人喜辣程度放),小茴香,花椒,麻椒,草果,生姜(一块焯水去味用,一块卤用),蒜瓣(全部去皮),辣椒酱(根据个人喜辣放),老抽,生抽,料酒,白糖,盐

东北菜用料词云图

由东北菜用料词云图可知,东北菜主要用料包括土豆、面粉、胡萝卜等。东北菜在做法上也融合了一些宫廷菜点和汉族饮食所长,利用东北特产原料和纯绿色食品原料。土豆和胡萝卜在黑土地的孕育下为东北菜源源不断输送着美味配方。

东北菜用料最足的菜谱为翡翠白菜水饺,共用料20种。

翡翠白菜水饺 图片来源:豆果美食

用料明细:面皮制作,面粉(绿色面团所用),面粉(白色面团所用),小白菜叶(取汁),清水,馅料制作,猪五花肉,大白菜,胡萝卜,葱碎,姜末,盐,生抽,老抽,蚝油,芝麻油,糖,鸡精,花椒粉,花生油

湖北菜用料词云图

由湖北菜用料词云图可知,湖北菜主要用料包括糯米、花椒、面粉等。千湖之省湖北坐落于江汉平原,同时作为重要的商品粮基地,从来不缺美食原料。

湖北菜用料最足的菜谱为家常美味——香菇鸡肉面,共用料23种。

用料明细:鸡脯肉或鸡腿肉,香菇,刀削面或宽面,芹菜,青菜,郫县红油豆瓣,葱,姜,蒜,干辣椒,花椒,八角,老抽,生抽,料酒,淀粉,蛋清,十三香,白胡椒,鸡精,盐,蒜苗,香菜

浙菜用料词云图

浙菜主要用料包括白糖、冰糖、胡椒粉等。俗话说“上有天堂,下有苏杭”,素有鱼米之乡之称的浙江,赋予了浙菜丰富的原料。浙菜菜式小巧玲珑,菜品甜而不腻。

浙菜用料最足的菜谱为经典糖醋排骨,共用料17种。

经典糖醋排骨 图片来源:豆果美食

用料明细:猪肋排,小葱段(煮排骨用),姜(煮排骨用),料酒(煮排骨用),冷水,绵白糖,米醋,香醋,老抽,盐,绵白糖(浇汁用),米醋(浇汁用),香醋(浇汁用),淀粉(浇汁用),温水(浇汁用),食用油,熟白芝麻

鲁菜用料词云图

鲁菜主要用料包括面粉、胡萝卜、蚝油等。鲁菜讲究原料质地优良,以本地用料为主。作为我国第二大小麦主产区,能够为面粉的制作提供充足的储备,同时还盛产胡萝卜、大白菜等蔬菜,成为鲁菜常用的配菜来源。

鲁菜用料最足的菜谱为大白菜炖牛肉,共用料28种。

用料明细:炖牛肉,牛肉,葱姜,小香葱,冰糖,八角,草果,小茴香,香叶,干辣椒,蒜,洋葱,油,生抽,甜面酱,番茄酱,盐,清水,啤酒,大白菜炖牛肉,大白菜,熟牛肉,牛肉汤,粉丝,食用油,葱花,水淀粉,盐

清真菜用料词云图

清真菜主要用料包括蛋白、蛋清、面粉等。在我国,包括回族、维吾尔族、哈萨克族等10个少数民族具有清真饮食习惯,清真菜最突出的特点在于饮食禁忌比较严格,因此在用料上明显与其他菜系有所区别。清真菜的口味偏重咸鲜,汁浓味厚,肥而不腻,嫩而不膻。

清真菜用料最足的菜谱为糖醋蛋白肉,共用料15种。

糖醋蛋白肉 图片来源:豆果美食

用料明细:蛋白肉,尖椒,小米椒,蒜瓣,小葱,食用油,糖,醋,蒸鱼豆豉,生抽,黄酒,番茄酱,淀粉,清水,盐

采集美食网站3032个菜谱数据,对比各大菜系美食的数量、用料相关推荐

  1. 我用Python爬取美食网站3032个菜谱并分析,没有我不会做的菜!

    这是巨变的中国,人和食物,比任何时候走的更快.近日,J哥为了寻味中国,奔走于某五线城市的大街小巷,结果除了累,啥也没寻到. 于是,J哥默默打开了各大美食网站,如豆果美食.下厨房.美食天下等.经过甄选, ...

  2. html美食网站项目案例,11个美味的餐厅和美食网站案例

    11个美味的餐厅和美食网站案例 4月 29, 2014 评论 Sponsor 很久之前我们分享过一组<40个越赞的餐厅美食网站设计欣赏>,然而今天我们再来一组新美食网站供大家参考,制作这里 ...

  3. java美食网站设计与实现_毕业设计 基于JAVA的美食娱乐分享网站的设计与实现

    毕业设计-基于JAVA的美食娱乐分享网站的设计与实现 相关表格 7 孙骎骅--答辩记录表.doc  [33.00KB] 6 孙骎骅--中期检查表.doc  [33.50KB] 5 孙骎骅--开题论证审 ...

  4. 云计算与大数据基础之大数据

    什么是大数据 维基百科将大数据描述为: 大数据是现有数据库管理工具和传统数据处理应用很难处理的大型.复杂的数据集,大数据的挑战包括采集.存储.搜索.共享.传输.分析和可视化等. 大数据的"大 ...

  5. 爬空气质量MySQL_爬虫:利用selenium采集某某环境网站的空气质量数据

    前言:在上一篇文章中,我们介绍了在http://PM2.5.in这个网站采集空气质量的数据,本篇文章是对其产生的一些问题的另一种解决方案,提供更加权威的数据采集. 技术框架:selenium.json ...

  6. Python+Django+Mysql开发在线美食推荐网 协同过滤推荐算法在美食网站中的运用 基于用户、物品的协同过滤推荐算法 个性化推荐算法、机器学习、分布式大数据、人工智能开发

    Python+Django+Mysql开发在线美食推荐网 协同过滤推荐算法在美食网站中的运用 基于用户.物品的协同过滤推荐算法 个性化推荐算法.机器学习.分布式大数据.人工智能开发 FoodRecom ...

  7. 采集学校网站数据的10个经典方法

    采集学校网站数据的10个经典方法 学校网站数据采集全网抓取网页数据.全网搜索.网页爬虫.采集网站数据.网页数据采集软件.python爬虫.HTM网页提取.APP数据抓包.APP数据采集.一站式网站采集 ...

  8. HTML5期末大作业:美食网站设计——美食汇-美食菜谱(5页) HTML+CSS+JS网页设计期末课程大作业

    HTML5期末大作业:美食网站设计--美食汇-美食菜谱(5页) HTML+CSS+JS网页设计期末课程大作业 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电商. 宠物. 电器. 茶 ...

  9. 采用thinkpphp5 采集完成的优惠券采集网站,采集有淘宝,好单库,大淘客网站商品数据

    采用thinkpphp5 采集完成的优惠券采集网站,采集有淘宝,好单库,大淘客网站商品数据 前台页面 后台页面 手机端页面 [网站链接] 每天可以省个买水钱

最新文章

  1. 浅谈Java的输入输出流
  2. js 关键字 in 的使用方法
  3. Qt5.15 连接MySQL数据库的实现策略
  4. shell多行匹配如何实现
  5. 《openssl 编程》之 DH
  6. 知了课堂 python_没想到你是这样的“知了课堂”
  7. java input回车,用java怎样编写加减乘除,从键盘输入,例如:1+2按回车得到
  8. 在text html模版中写js,Rails3使用text/html内容类型而不是text/javascript呈现js.erb模板...
  9. [BZOJ 1026] [SCOI 2009] Windy数 【数位DP】
  10. Lombok ——自动化方法生成器
  11. Mybatis 动态传入表名 字段名 的解决办法
  12. java.sql.SQLException: Field 'id' doesn't have a default value解决方法
  13. transition的合理运用
  14. (转)用Wineskin 让Windows 的程序在Mac 上运行
  15. 【HAVENT原创】Mac 下编译 ReactNative(CRN) 踩坑记录
  16. win10安装双系统——ubuntu20.04安装步骤
  17. 如何把一张照片的像素提高_不改变像素尺寸怎么增加图片的文件大小
  18. 找数据?这几个数据源网站就够用了?
  19. IIR数字滤波器原理与应用
  20. Redis三主三从集群搭建(三台机器)

热门文章

  1. 量化交易中用到的回测评估指标(策略收益、基准收益、Alpha比率、Beta比率、夏普比率、索提诺比率)详解
  2. django实现qq一键登录(qq互联)
  3. Excel导出(浏览器下载器下载导出Excel)
  4. 赛科尔亚洲招聘Axapta顾问
  5. 通过uid对b站用户等级进行划分脚本
  6. 安卓手机全局背景美化教程
  7. 微信小程序版的登录注册
  8. yolov5训练结果解析
  9. Laplace算子和Laplacian矩陣
  10. notepad++格式化xml文件