【爬虫】【原创】08 使用简单正则表达式爬取下厨房（早餐，午餐，晚餐）

目的

1) 提取下厨房关键词为（早餐，午餐，晚餐）的菜谱

2) 获取“菜谱链接，图片地址，菜名，材料，七天内多少人做过，作者“，存储到MONGODB

3) 对每个菜谱进行网页截图，保存到本地

2. 目标站点分析

网址：

http://www.xiachufang.com/

输入关键词“早餐”，发现是跳转链接（暂时没想到这种怎么处理比较好，就单独拿出来处理吧）

午餐和晚餐的网址就比较一致

3. 爬取思路（以午餐为例）

1) 根据午餐关键词，组合url，请求得到第一页结果

2) 解析第一页结果，使用正则表达式获取，提取详情页信息和其他信息

3) 根据详情页信息的url获取详情页，截图保存，文件夹使用详情页URL的ID_菜名

4) 改变page参数，获取多页内容

4. 需要处理的

1) 早餐的url独立处理（跳转的url还没学过怎么处理）

2) 有一些菜谱存在综合评分的数字，有些不存在，无法用正则表达式统一提取，待改进

3) 获取的菜谱名和用户名几乎都会存在windows下文件夹不能存在的特殊字符，使用链式replace替换

4) page用于多线程处理

5) 截图使用selenium和Phantomjs完成，暂时只会截取全屏，还没研究过怎么截取需要的部分

6) 增量更新，包括数据库和网页截图的方法（做法变化或者作者更新删除等的判断），这些还没学会怎么做（虽然现在的爬虫框架比如Scrapy/Pyspider都提供了去重的功能，但是具体实现还没研究过），这是一个造轮子的过程

5. 代码部分

1) 解析每一页，得到“菜谱链接，图片地址，菜名，材料，七天内多少人做过，作者”

2) 解析详情页，并截图

3) 存到MongoDB

4) 开启多线程

以前写个爬虫要1天时间，现在好了一点，2小时能撸完一个简单的爬虫，再接再厉

爬取效果：

18页结果一共运行了5分半钟（4核处理器）

代码地址：

https://github.com/copywang/spiders_collection/tree/master/08_xiachufang

【爬虫】【原创】08 使用简单正则表达式爬取下厨房（早餐，午餐，晚餐）相关推荐

爬虫项目实操二、爬取“下厨房”网站的菜名、所需材料、和菜名所对应的详情页URL
项目-爬取"下厨房"网站的菜名.所需材料.和菜名所对应的详情页URL. 它有一个固定栏目,叫做"本周最受欢迎",收集了当周最招人喜欢的菜谱.地址如下: http ...
python3爬虫实战：requests库+正则表达式爬取头像
python3爬虫实战:requests库+正则表达式爬取头像网站url:https://www.woyaogexing.com/touxiang/qinglv/new/ 浏览网页:可以发现每个图片 ...
PY爬虫 | 爬取下厨房的本周最受欢迎
# CY3761 | 2021-10-27 20:03# 爬取下厨房的本周最受欢迎-列表数据 import base64 import os.path from urllib import reque ...
爬虫从头学之Requests+正则表达式爬取猫眼电影top100
爬取思路当我们想要爬取一个页面的时候,我们要保证思路清晰,爬虫的思路分四个步骤,发起请求,获取响应内容,解析内容,存储内容.根据这四个内容我们的思路就很清晰.以下为具体步骤使用requests库爬 ...
Python爬虫之九：用正则表达式爬取赶集网租房信息
一.项目分析 1.查询主页和详情页面的关系得出数据关系:每一个 class 属性为 f-list-item ershoufang-list 的 div 包含着整个需要爬取数据的信息,且查询 ersh ...
Python爬虫实战01：Requests+正则表达式爬取猫眼电影
1 目标站点的分析 2 流程框架抓取单页内容利用requests请求目标站点,得到单个网页HTML代码,返回结果. 正则表达式分析根据HTML代码分析得到电影的名称.主演.上映.时间.评分.图片 ...
python爬虫（一）：正则表达式爬取网页文本
文章目录 1 正则表达式 2 网页文本爬取 2.1 单页文本 2.2 多页文本 2.2.1 演示文本 2.2.2 文本信息获取 3 实战记录 3.1 网页纯文本处理 3.1.1 常规网页 3.1.2 ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
目录前言一.正则表达式的学习 1.正则表达式的匹配工具 2.正则表达式的样式 3.正则表达式的案例二.爬取网页图片 1.分析网页 2.获取数据爬取妹子网的案例后记前言 hello,大家好 ...
python周末吃什么_python爬虫第10关项目周末吃什么（每周五自动爬取下厨房本周最受欢迎的菜谱）...
目标:我们曾在第3关爬取了下厨房网站中的"本周最受欢迎菜谱",现在,我们完善这个程序,让程序在每个周五爬取数据,并把菜谱发送到我们的邮箱. import requests impo ...
爬取下厨房网站菜名与食材
方法一: import requests# 引用requests库from bs4 import BeautifulSoup# 引用BeautifulSoup库 res_foods = request ...

【爬虫】【原创】08 使用简单正则表达式爬取下厨房（早餐，午餐，晚餐）

【爬虫】【原创】08 使用简单正则表达式爬取下厨房（早餐，午餐，晚餐）相关推荐

最新文章

热门文章