一只入门级python爬虫

  • 前言
  • 基础
  • 流程
  • 代码
  • 进阶

前言

本文目的:根据本人的习惯与理解,用最简洁的表述,介绍爬虫的定义、组成部分、爬取流程,并讲解示例代码。

基础

爬虫的定义:定向抓取互联网内容(大部分为网页)、并进行自动化数据处理的程序。主要用于对松散的海量信息进行收集和结构化处理,为数据分析和挖掘提供原材料。

今日t条就是一只巨大的“爬虫”。

爬虫由URL库、采集器、解析器组成。

流程

如果待爬取的url库不为空,采集器会自动爬取相关内容,并将结果给到解析器,解析器提取目标内容后进行写入文件或入库等操作。

代码

第一步:写一个采集器

如下是一个比较简单的采集器函数。需要用到requests库。
首先,构造一个http的header,里面有浏览器和操作系统等信息。如果没有这个伪造的header,可能会被目标网站的WAF等防护设备识别为机器代码并干掉。

然后,用requests库的get方法获取url内容。如果http响应代码是200 ok,说明页面访问正常,将该函数返回值设置为文本形式的html代码内容。

如果响应代码不是200 ok,说明页面不能正常访问,将函数返回值设置为特殊字符串或代码。

import requestsdef get_page(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}response = requests.get(url, headers= headers)if response.status_code == 200:return response.textelse:return 'GET HTML ERROR !'

第二步:解析器

解析器的作用是对采集器返回的html代码进行过滤筛选,提取需要的内容。
作为一个14年忠实用户,当然要用豆瓣举个栗子 _

我们计划爬取豆瓣排名TOP250电影的8个参数:排名、电影url链接、电影名称、导演、上映年份、国家、影片类型、评分。整理成字典并写入文本文件。

待爬取的页面如下,每个页面包括25部电影,共计10个页面。

在这里,必须要表扬豆瓣的前端工程师们,html标签排版非常工整具有层次,非常便于信息提取。

下面是“肖申克的救赎”所对应的html代码:(需要提取的8个参数用红线标注)

根据上面的html编写解析器函数,提取8个字段。该函数返回值是一个可迭代的序列。
我个人喜欢用re(正则表达式)提取内容。8个(.*?)分别对应需要提取的字段。

import redef parse_page(html):pattern = re.compile('<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?)&nbsp.*?<br>(.*?)&nbsp;/&nbsp;(.*?)&nbsp;/&nbsp;(.*?)</p>.*?<span class="rating_num".*?"v:average">(.*?)</span>' , re.S)items = re.findall(pattern , html)for item in items:yield {'rank': item[0],'href': item[1],'name': item[2],'director': item[3].strip()[4:],'year': item[4].strip(),'country': item[5].strip(),'style': item[6].strip(),'score': item[7].strip()}

提取后的内容如下:

整理成完整的代码:(暂不考虑容错)

import requests
import re
import jsondef get_page(url):#采集器函数headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}response = requests.get(url, headers= headers)if response.status_code == 200:return response.textelse:return 'GET HTML ERROR ! 'def parse_page(html):#解析器函数pattern = re.compile('<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?)&nbsp.*?<br>(.*?)&nbsp;/&nbsp;(.*?)&nbsp;/&nbsp;(.*?)</p>.*?<span class="rating_num".*?"v:average">(.*?)</span>' , re.S)items = re.findall(pattern , html)for item in items:yield {'rank': item[0],'href': item[1],'name': item[2],'director': item[3].strip()[4:],'year': item[4].strip(),'country': item[5].strip(),'style': item[6].strip(),'score': item[7].strip()}def write_to_file(content):#写入文件函数with open('result.txt' , 'a' , encoding = 'utf-8') as file:file.write(json.dumps(content , ensure_ascii = False) + '\n')if __name__== "__main__":# 主程序for i in range(10):url= 'https://movie.douban.com/top250?start='+ str(i*25)+ '&filter'for res in parse_page(get_page(url)):write_to_file(res)

非常简洁,非常符合python简单、高效的特点。

说明:

  1. 需要掌握待爬取url的规律,才能利用for循环等操作自动化处理。
    前25部影片的url是https://movie.douban.com/top250?start=0&filter,第26-50部影片url是https://movie.douban.com/top250?start=25&filter。规律就在start参数,将start依次设置为0、25、50、75。。。225,就能获取所有页面的链接。
  2. parse_page函数的返回值是一个可迭代序列,可以理解为字典的集合。
  3. 运行完成后,会在程序同目录生成result.txt文件。内容如下:

进阶

关于认证、cookie、ajax等动态渲染内容爬取,我会在空闲的时候整理成文档与大家分享。
欢迎交流沟通。

一只入门级python爬虫相关推荐

  1. 爬虫只能用python吗_只针对 Python 爬虫,该如何学习?

    最近刚好准备开始写一个 从零开始写python爬虫的系列专栏 希望能帮助到你. 这里先把导言部分贴过来 ------------------------------------------- 从零开始 ...

  2. 没有python基础直接学爬虫_只针对 Python 爬虫,该如何学习?

    最近刚好准备开始写一个 从零开始写python爬虫的系列专栏 希望能帮助到你. 这里先把导言部分贴过来 ------------------------------------------- 从零开始 ...

  3. python 爬虫 教程_一个入门级python爬虫教程详解

    前言 本文目的:根据本人的习惯与理解,用最简洁的表述,介绍爬虫的定义.组成部分.爬取流程,并讲解示例代码. 基础 爬虫的定义:定向抓取互联网内容(大部分为网页).并进行自动化数据处理的程序.主要用于对 ...

  4. Python爬虫入门级(二)

    Python爬虫入门级 Python爬虫(二) 获取商品关键信息 遍历获取每一页数据 写入到磁盘中 Python爬虫(二) 从京东商城爬取数据,写入到本地的text文件中 获取商品关键信息 获取商品评 ...

  5. Python爬虫:常用的爬虫工具汇总

    按照网络爬虫的的思路: #mermaid-svg-YOkYst4FalQf6wUn {font-family:"trebuchet ms",verdana,arial,sans-s ...

  6. python爬虫源码附注解_Python小白写的三个入门级的爬虫(附代码和注释)

    Python小白写的三个入门级的爬虫(附注释) 写在前面的话:作者目前正在学习Python,还是一名小白,所以注释可以会有些不准确的地方,望谅解. 这三个小爬虫不是很难,而且用处可能也不大,主要还是锻 ...

  7. python简单爬虫代码-python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息...

    原标题:python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息 最近经常有人问我,明明看着教程写个爬虫很简单,但是自己上手的时候就麻爪了...那么今天就给刚开始学习爬虫的同学,分享一下怎么一步 ...

  8. 作为一只Python爬虫:如何破解滑动验证码

    做爬虫总会遇到各种各样的反爬限制,反爬的第一道防线往往在登录就出现了,为了限制爬虫自动登录,各家使出了浑身解数,所谓道高一尺魔高一丈. 今天分享个如何简单处理滑动图片的验证码的案例. 类似这种拖动滑块 ...

  9. 如何用python做考勤_【python爬虫教程 考勤】如何用Python实现一只小爬虫,爬取拉勾网...

    python爬虫入门教程全集 千锋官网上有一些是零基础入门学习的很不错 如何用Python实现一只小爬虫,爬取拉勾网 1.首先打开拉,并搜索"java",显示出职位信息就是我们的目 ...

最新文章

  1. React Bind Handle的思考
  2. visio 模板_盒图模板一键套用,便捷绘制精美盒图图表
  3. POJ1328-Radar Installation
  4. boost::hana::all用法的测试程序
  5. 前端学习(650):标识符 关键字 保留字
  6. C++ —— C++三大分支结构(顺序、选择、循环)
  7. Android中的Handler总结
  8. 中国象棋口诀及要领精髓
  9. (原创)Python 自动化测试框架详解
  10. C++ Segmentation fault 一般原因
  11. Protel99SE 50个常见问题解决方法与技巧
  12. Linux文件禁止删除修改,Linux文件保护禁止修改、删除、移动文件等,使用chattr +i保护...
  13. mysql创建管理员账户
  14. javascript检测5到10位数的QQ号
  15. ArduPilot 开发环境安装
  16. Culling技术的一些介绍
  17. 使用FTPClient封装FtpUtil
  18. 88是python的整数类型吗_python基本数据类型
  19. Android 高质量开发之崩溃优化,kotlin协程跟线程
  20. 力引导算法深入理解及其在d3.js中实现的源码分析

热门文章

  1. usb接口供电不足怎么处理? 刚买的电脑为什么usb接口会供电不足?怎么解决?
  2. python链表怎么定义_链表初介绍以及python实现
  3. 【操作系统】调度算法(FCFS、SJF、HRRN、RR、优先级调度、多级反馈队列)
  4. 电大本科计算机考试,电大本科计算机考试
  5. 斐讯发力渲染云 打造“互联网+”文创产业链
  6. git 进行内网-外网地址切换
  7. asio学习之一:asio下载安装
  8. mysql遭遇1577
  9. 微信小程序-云函数连接MySQL数据库
  10. 微信公众号运营数据分析(三):菜单分析讲解