这是巨变的中国，人和食物，比任何时候走的更快。近日，J哥为了寻味中国，奔走于某五线城市的大街小巷，结果除了累，啥也没寻到。

于是，J哥默默打开了各大美食网站，如豆果美食、下厨房、美食天下等。经过甄选，最终爬取了豆果网最新发布的中国菜系共3032个菜谱，然后清洗数据并做可视化分析，试图走上美食博主的康庄大道。

数据获取

豆果美食网的数据爬取比较简单，如果您对爬虫感兴趣，可查看J哥往期原创文章「实战|手把手教你用Python爬虫(附详细源码)」，思路一致。

本文爬取的数据范围为川菜、粤菜、湘菜等八个中国菜系，包含菜谱名、链接、用料、评分、图片等字段。限于篇幅，仅给出核心代码。

 # 主函数
def main(x):url = 'https://www.douguo.com/caipu/{}/0/{}'.format(caipu,x*20)print(url)html = get_page(url)parse_page(html,caipu)if __name__ == '__main__':caipu_list = ['川菜', '湘菜','粤菜','东北菜','鲁菜','浙菜','湖北菜','清真菜'] #中国菜系start = time.time()  # 计时for caipu in caipu_list:for i in range(22):# 爬取多页main(x=i)time.sleep(random.uniform(1, 2))print(caipu,"第" + str(i+1) + "页提取完成")end = time.time()print('共用时',round((end - start) / 60, 2), '分钟')

数据清洗

短短几分钟就爬下了3032个菜谱信息，为了方便可视化分析，还需要对爬取的数据进行简单清洗。

本文数据清洗主要用到Python的Pandas库，如果您对Pandas感兴趣，可查看J哥往期原创专辑「Pandas基础系列」，共五篇。

导入数据

用pd.read方法导入爬取到的菜谱数据，并添加列名。

import pandas as pd
import numpy as np
df = pd.read_csv('/Users/spider_cook/cai.csv',names = ['菜谱','菜谱链接', '用料', '评分', '用户','图片','菜系'])
df.head()

删除重复项

爬虫过程中少量菜谱数据被重复抓取，需要用drop_duplicates方法删除。

df = df.drop_duplicates()

缺失值处理

通过info方法发现少量记录含有缺失值，用dropna方法删除。

df.info()
df = df.dropna(axis=0, how='any')

评分字段清洗

爬取的评分字段含有多余的字符串且为object类型，需要替换多余字符串并转换为数字类型，方便后续计算。

df['评分'] = df['评分'].str.replace('分','').astype('float') #替换"分"为空，转换为浮点型

添加用料字段

为方便菜谱用料分析，需要根据用料字段计算出每个菜谱的用料数量。由于用料字段都是以逗号分隔，计算逗号数即可间接得到。

df['用料'] = df['用料'].str.replace('，',',')
df['用料数'] = df['用料'].str.count(',') + 1

预览数据

df.head()

数据可视化

本文数据可视化主要用到pyecharts库，它能轻松实现酷炫的图表效果。如果您对可视化感兴趣，可查看J哥往期原创文章「数据可视化分析系列」，涉及地产、电商、招聘等各领域。

菜谱评分分布

from pyecharts import options as opts
from pyecharts.charts import Page, Pie
cut = lambda x : '4分以下' if x < 4 else ('4.1-4.5分' if x <= 4.5 else('4.6-4.9分' if x <= 4.9 else '5分'))
df['评分分布'] = df['评分'].map(cut)
df2 = df.groupby('评分分布')['评分'].count()
df2 = df2.sort_values(ascending=False)
df2 = df2.round(2)
print(df2)
c = (Pie().add("",[list(z) for z in zip(df2.index.to_list(),df2.to_list())],radius=["20%", "80%"],# 圆环的粗细和大小rosetype='area' #玫瑰图).set_global_opts(title_opts=opts.TitleOpts(title="菜谱评分分布"),legend_opts=opts.LegendOpts(orient="vertical", pos_top="5%", pos_left="2%" ,textstyle_opts=opts.TextStyleOpts(font_size=14)# 左面比例尺),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18),))
c.render_notebook()

豆果美食网菜谱评分实行5分制。由上图可知，4分以下的菜谱占比不到2%，满分菜谱高达32.6%，可见用户对中国菜系菜谱评价普遍较高。

各菜系菜谱数量对比

from pyecharts import options as opts
from pyecharts.charts import Page, Pie
df2 = df.groupby('菜系')['评分'].count() #按菜系分组，对评分计数
df2 = df2.sort_values(ascending=False) #降序
print(df2)
c = (Pie().add("", [list(z) for z in zip(df2.index.to_list(),df2.to_list())]).set_global_opts(title_opts=opts.TitleOpts(title="各菜系菜谱数量占比",subtitle="数据来源：豆果美食")).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}",font_size=18)))
c.render_notebook()

由上图可知，川菜和粤菜菜谱数量较多，显示出作为中国“八大菜系”成员的地位。湖北菜和清真菜菜谱数量较少，相对更为小众。

各菜系评分对比

from pyecharts.charts import Bar,Pie
from pyecharts import options as opts
df1 = df.groupby('菜系')['评分'].mean() #按菜系分组，对评分求平均
df1 = df1.sort_values(ascending=True)
df1 = df1.round(2)
print(df1)
bar = Bar()
bar.add_xaxis(df1.index.to_list())
bar.add_yaxis("",df1.to_list()).reversal_axis() #X轴与y轴调换顺序
bar.set_global_opts(title_opts=opts.TitleOpts(title="各菜系平均评分",subtitle="数据来源：豆果美食"),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=16)), #更改横坐标字体大小yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=16)), #更改纵坐标字体大小)
bar.set_series_opts(label_opts=opts.LabelOpts(font_size=16,position='right'))
bar.render_notebook()

由上图可知，各菜系评分非常接近，用户平均评分都在4.6分以上。相对一致的评分，导致通过用户评分来评价菜谱的可信度降低。

各菜系用料数量对比

from pyecharts.charts import Bar,Pie
from pyecharts import options as opts
df1 = df.groupby('菜系')['用料数'].mean() #按菜系分组，求用料均值
df1 = df1.sort_values(ascending=False) #降序
df1 = df1.round(0)
print(df1)
bar = Bar()
bar.add_xaxis(df1.index.to_list())
bar.add_yaxis("用料数量",df1.to_list())
bar.set_global_opts(title_opts=opts.TitleOpts(title="各菜系用料数量",subtitle="数据来源：豆果美食"),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=18)) #更改横坐标字体大小)
bar.set_series_opts(label_opts=opts.LabelOpts(font_size=16))
bar.render_notebook()

由上图可知，川菜和东北菜用料较足。川菜素有取材广泛、调味多、菜式多样等特点，虽然东北菜没有排在传统的“八大菜系”中，但豪迈热情的东北人从不吝啬菜肴里的用料。

粤菜更注重菜品的原味鲜香，具有清、鲜、爽、嫩、滑等特色，因此用料相对更少。清真饮食风俗源于伊斯兰教，部分食材属于禁忌物，因此用料也不多。

川菜用料分析

# 绘制词云图
text1 = get_cut_words(content_series=df[df['菜系']=='川菜']['用料'])
stylecloud.gen_stylecloud(text=' '.join(text1), max_words=1000,collocations=False,font_path='字酷堂清楷体.ttf',icon_name='fas fa-thumbs-up',size=653,output_name='./川菜.png')
Image(filename='./川菜.png')

由川菜用料词云图可知，川菜主要用料包括花椒、豆瓣酱和干辣椒。不怕辣的四川人喜好种植花椒，四川火锅也因为有了花椒的加入更有吸引力，千千万万的海内外寻味者奔涌相随。

料实材真，一般都能出美味。川菜用料最足的菜谱为川味砂锅之足不出户的麻辣烫，共用料35种。

用料明细：毛肚,黄喉,鲜牛肉片,自制肉,鸭血,金针菇,平菇,豆芽,苕粉,冬笋片,白菜,莴笋叶,鹌鹑蛋（煮熟剥壳）,猪骨汤,猪油,牛油,植物油（菜油上佳）,姜片,大粒的蒜,郫县豆瓣,八角,茴香,桂皮,丁香,陈皮,香叶,白胡椒粉,冰糖,生抽,盐,葱结,花椒,干辣椒,鸡精丸,午餐肉

粤菜用料分析

由粤菜用料词云图可知，粤菜主要用料包括胡椒粉、五花肉和白糖。粤菜的圣地在顺德，粤菜注重质和味，口味相对清淡，力求清中求鲜、淡中求美。

粤菜用料最足的菜谱为广式肠粉，共用料23种。

用料明细：粉浆用料,粘米粉（米打的粉）,澄面（小麦淀粉）,土豆淀粉,粟米粉（玉米淀粉）,水,酱汁用料,独头蒜,大蒜籽,姜片,香菜（不吃香菜的可用葱代替）,鸡汤,鲜味生抽,老抽,蚝油,蜂蜜,鱼露（可不放）,鸡精（个人喜欢就放，不放也很鲜了）,水,肠粉里面放的料,肉末,鸡蛋,生菜叶

湘菜用料分析

由湘菜用料词云图可知，湘菜主要用料包括辣椒、大蒜、花椒等。辣不怕的湖南人以辣椒为生，尤其以剁椒出名。J哥虽不是湖南人，但在湖南待了几年后，目前也成了个胖子。美食虽美，可不要贪多哦~

湘菜用料最足的菜谱为麻辣卤鸭三件，共用料20种。

用料明细：鸭爪（清水泡一小时）,鸭翅膀（清水泡一小时啊）,鸭肠（洗干净后捆成一个个小捆）,白芷,桂皮,香叶,大料（两个焯水用，三个卤用）,干辣椒（根据个人喜辣程度放）,小茴香,花椒,麻椒,草果,生姜（一块焯水去味用，一块卤用）,蒜瓣（全部去皮）,辣椒酱（根据个人喜辣放）,老抽,生抽,料酒,白糖,盐

东北菜用料分析

由东北菜用料词云图可知，东北菜主要用料包括土豆、面粉、胡萝卜等。东北菜在做法上也融合了一些宫廷菜点和汉族饮食所长，利用东北特产原料和纯绿色食品原料。土豆和胡萝卜在黑土地的孕育下为东北菜源源不断输送着美味配方。

东北菜用料最足的菜谱为翡翠白菜水饺，共用料20种。

用料明细：面皮制作,面粉（绿色面团所用）,面粉（白色面团所用）,小白菜叶（取汁）,清水,馅料制作,猪五花肉,大白菜,胡萝卜,葱碎,姜沫,盐,生抽,老抽,蚝油,芝麻油,糖,鸡精,花椒粉,花生油

湖北菜用料分析

由湖北菜用料词云图可知，湖北菜主要用料包括糯米、花椒、面粉等。千湖之省湖北坐落于江汉平原，同时作为重要的商品粮基地，从来不缺美食原料。

湖北菜用料最足的菜谱为家常美味——香菇鸡肉面，共用料23种。

用料明细：鸡脯肉或鸡腿肉,香菇,刀削面或宽面,芹菜,青菜,郫县红油豆瓣,葱,姜,蒜,干辣椒,花椒,八角,老抽,生抽,料酒,淀粉,蛋清,十三香,白胡椒,鸡精,盐,蒜苗,香菜

浙菜用料分析

浙菜主要用料包括白糖、冰糖、胡椒粉等。俗话说“上有天堂，下有苏杭”，素有鱼米之乡之称的浙江，赋予了浙菜丰富的原料。浙菜菜式小巧玲珑，菜品甜而不腻。

浙菜用料最足的菜谱为经典糖醋排骨，共用料17种。

用料明细：猪肋排,小葱段（煮排骨用）,姜（煮排骨用）,料酒（煮排骨用）,冷水,绵白糖,米醋,香醋,老抽,盐,绵白糖（浇汁用）,米醋（浇汁用）,香醋（浇汁用）,淀粉（浇汁用）,温水（浇汁用）,食用油,熟白芝麻

鲁菜用料分析

鲁菜主要用料包括面粉、胡萝卜、蚝油等。鲁菜讲究原料质地优良，以本地用料为主。作为我国第二大小麦主产区，能够为面粉的制作提供充足的储备，同时还盛产胡萝卜、大白菜等蔬菜，成为鲁菜常用的配菜来源。

就不一一展示了，所有的数据代码都有想要的话就加下群：1136192749

我用Python爬取美食网站3032个菜谱并分析，没有我不会做的菜！相关推荐

Python | 使用Python爬取Wallhaven网站壁纸并上传百度网盘
更多详情请查看Honker Python | 使用Python爬取Wallhaven网站壁纸并上传百度网盘给大家推荐一款超好用的壁纸下载网站-- wallhaven 第一次知道这个网站的时候,惊为天 ...
使用Python爬取马蜂窝网站的游记和照片
使用Python爬取马蜂窝网站的游记和照片特殊原因需要在马蜂窝上爬取一些游记和照片作为后续分析处理的数据,参考网上一些类似的爬虫文章,自己尝试了一下,这次爬取的是马蜂窝上所有有关苏州的游记(包括游记 ...
Python爬取素材网站的音频文件
这篇文章主要介绍了基于Python爬取素材网站音频文件,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下,另外我建立了一个Python学习圈子群:115 ...
python爬取豆瓣读书并进行图形化分析
python爬取豆瓣读书并进行图形化分析豆瓣读书网页数据爬取并保存至csv 对数据进行分析并汇成图形绘制散点图图形效果展示以下代码内容大多是团队小伙伴的杰作,而本人只是为了能让更多的人学习到知 ...
python爬取知乎回答并进行舆情分析：爬取数据部分
python爬取知乎回答并进行舆情分析:爬取数据部分背景 Ajax原理介绍 Request URL分析 json报文结构分析代码参考链接背景近期导师让我从社交媒体平台(包括微博.知乎.贴吧等 ...
python爬取boss直聘招聘信息_年底啦，利用Python爬取Boss直聘的招聘信息，为明年跳槽做准备...
原标题:年底啦,利用Python爬取Boss直聘的招聘信息,为明年跳槽做准备前言为什么都说程序员的薪资高,但是刚开始入职的你,薪资并不是自己想象中的那样,首先是你的工作经验不足,其次就是需要不断的 ...
python爬取知乎回答并进行舆情分析：舆情分析部分
python爬取知乎回答并进行舆情分析:舆情分析部分背景生成词云文本预处理(使用停用词.自定义分词) 统计词频生成词云折线图统计每日回答数生成折线图展望背景在上一节中,利用爬虫爬取 ...
python爬取小说网站资源_利用python的requests和BeautifulSoup库爬取小说网站内容
1. 什么是Requests?html Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库.python 它比urlli ...
Python爬取小说网站下载小说
1前言这个小程序是用来爬取小说网站的小说的,一般的盗版小说网站都是很好爬取的因为这种网站基本没有反爬虫机制的,所以可以直接爬取该小程序以该网站http://www.126shu.com/15/下 ...

我用Python爬取美食网站3032个菜谱并分析，没有我不会做的菜！