最精简的爬虫 --仅需4行代码(python)

刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享

今天,我们主要讲述的是思路,思路,思路。

相比起,直接贴代码,思路显的更为重要

当初,自己的坑,希望后面的人可以避免

*********

爬虫逻辑:

1,请求网页(利用python向web服务器进行请求)

2,通过匹配找到对应的目标(F12查看网页的结构)

3,下载对应目标

方法:(2种)

一种是百度上陈述的传统方法,通过urllib库来请求,并且urllib.request.urlretrieve 来对目标下载

另一种是使用简便,逻辑清晰,代码复杂度率低

方法一:

^这里我们主要介绍的 一种简便的,实用的,逻辑清晰,代码量少的

import requests #请求网页

from bs4 import BeautifulSoup #分析html的结构

我们主要利用到2个库:requests,bs4

库的用法,读者请自行百度,

tips:bs4库非内置库,需要另行安装:pip3 install beautifulsoup4

然后,我们再对目标进行写入:

with open('picfile','wb') as f: #这里的picfile为存放文件

f.write(pic) #这里pic为请求到的图片对象

ok,这样爬取到的pic就存到了picfile文件里了,这里介绍的为单目标存放,实际中都是多目标文件的,所以,接下来,我们将用到for循环进行处理:(请读者自行思考,如何加for循环)

爬虫代码如下:

import requests

with open('picfile','wb') as f:

f.write(pic.content)

这是最简单的入门例子,实际中,是多个内容一起爬取,下一步就是增加bs4库针对网站进行过滤,然后再加for循环进行批量存储,请读者进行思考(在本文的最下方,会附上一个完整版的demo)

——————————————————————————————————————————————————

方法二:

^现在,介绍百度上比较统一的一种方法:

(个人觉得,晦涩难懂,对于初学者来讲,并且代码冗余)

import urllib.request

import re #正则匹配目标文件

import os

import urllib

思路:利用urllib库进行网页的请求

然后,再利用正则表达式得出目标文件 (这里需要注意正则的编写,需要极度精确到位)

最后,urllib.request.urlretrieve 这个函数,将目标进行下载

这里,再对re库进行一个补充,这是一个常用的正则匹配

regex = re.compile()

file.search()

最后,来详细陈述下第一种方法的优势:

1,requests使用简便,是再urllib基础之上产生的一个页面请求库

2,采取bs4进行过滤,会使在过滤手段更加简洁易理解,避免复杂正则表达式所带来的困惑

3,采用的write写针对for循环进行多文件的。

https://zhuanlan.zhihu.com/p/33614014

import requests

import os,sys,time

import bs4

url = 'https://xkcd.com'

os.makedirs('xkcd',exist_ok=True)

#re = requests.get('https://xkcd.com')

#status = re.status_code()

while not url.endswith('#'):

print('downing the %s...' %url)

re = requests.get('https://xkcd.com')

re.raise_for_status()

soup = bs4.BeautifulSoup(re.text)

comicElen = soup.select('#comic img')

print(type(comicElen))

#print(comicElen)

if comicElen == []:

print('not find pic')

else:

# print('2')

comicUrl = comicElen[0].get('src')

comicUrl = 'https:' + comicUrl

print('downing image %s ' % (comicUrl))

re = requests.get(comicUrl)

re.raise_for_status()

#print('1')

imageFile = open(os.path.join('xkcd'+os.path.basename(comicUrl)),'wb')

for chunk in re.iter_content(100000):

imageFile.write(chunk)

imageFile.close()

prevlink = soup.select('a[rel="prev"]')[0]

url = 'https://xkcd.com' + prevlink.get('href')

print('done!')

最简单的爬虫代码 python_最精简的爬虫 --仅需4行代码(python)相关推荐

  1. python简单爬虫代码-最精简的爬虫 --仅需4行代码(python)

    最精简的爬虫 --仅需4行代码(python) 刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享 今天,我们主要讲述的是思路,思路,思路. 相比起,直接贴代码,思路显的更为重要 当初,自己的坑,希 ...

  2. python爬虫代码1000行-最精简的爬虫 --仅需4行代码(python)

    最精简的爬虫 --仅需4行代码(python) 刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享 今天,我们主要讲述的是思路,思路,思路. 相比起,直接贴代码,思路显的更为重要 当初,自己的坑,希 ...

  3. 神经网络 c++ 源码 可以直接复制运行,提供数据集,操作简单,最少仅需4行代码

    神经网络 c++ 源码 可以直接复制运行,提供数据集,操作简单,最少仅需4行代码 本文的神经网络,让你省去Python那些花里胡哨的变量名,最少仅需4行代码即可完成自己的神经网络** 本文章采用c++ ...

  4. python加密敏感信息_仅需10行代码,使用python加密用户敏感数据

    原标题:仅需10行代码,使用python加密用户敏感数据 数据分析师必须要遵守的一个规则就是数据保密,但在跨部门沟通的时候,难免会有数据泄露的情况,所以,对于用户的姓名.手机号.地址等敏感信息,一般需 ...

  5. OpenCV-Python实战(14)——人脸检测详解(仅需6行代码学会4种人脸检测方法)

    OpenCV-Python实战(14)--人脸检测详解(仅需6行代码学会4种人脸检测方法) 0. 前言 1. 人脸处理简介 2. 安装人脸处理相关库 2.1 安装 dlib 2.2 安装 face_r ...

  6. [Unity实战]仅需25行代码 安卓/ios打包跳过Unity启动Logo动画...[新手开箱可用][全平台支持]

    [Unity实战]仅需25行代码 安卓/ios打包跳过Unity启动Logo动画 参考文章 接上一篇文章-unity隐私协议包通过审查 1.直接上代码: 2.打包后使用效果展示: 3.源码地址: 参考 ...

  7. python房子代码_基于python的链家小区房价爬取——仅需60行代码!

    简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...

  8. python爬取南京市房价_基于python的链家小区房价爬取——仅需60行代码

    简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...

  9. 网传梅姨照片竟然是电脑合成的!仅需 100 行代码,你也能做到!

    近日,有关人贩子"梅姨"的图片在朋友圈以及网络平台热传,所有人都以为这是一张官方发布的照片,于是纷纷在朋友圈转发. 但是当天下午,公安部儿童失踪信息紧急发布平台曾发布消息称,&qu ...

最新文章

  1. ES5-Array-push(),pop(),shift(),unshift()
  2. 25个Linux性能监控工具
  3. 激励理论在人力资源管理中的运用
  4. harmonyos能装app吗,真机运行HarmonyOS应用APP
  5. EasyUI中Messager消息框的简单使用
  6. Python基础之:struct和格式化字符
  7. Go语言 命令行解析(二)
  8. 【MFC系列-第17天】企业信息管理软件开发
  9. yytextview多种格式_iOS YYText的使用笔记一(YYTextView图文编辑器)
  10. Springboot 整合 Dubbo/ZooKeeper你不知道的那点事,大神必修课
  11. leetcode 整数反转
  12. amaplocation无法获取高度_kali一款高度可定制的WiFi钓鱼工具 WiFiPhisher
  13. 7-7 旅游规划 (25 分)
  14. 内容超过7行显示查看全文
  15. 第九章 亚瑟龙的召唤
  16. 外服游戏服务器如何显示中文,避免国外服务器出现乱码的办法
  17. git报错:error.GitError: manifests rev-list (‘^HEAD‘, ‘14686468c69c63f1995ab2a0a9ad90b2e1d5e01c‘, ‘--‘)
  18. 旧显卡插上去使用黑屏,需要在BIOS中修改启动模式修改为CMS
  19. 点击左右箭头实现内容滑动
  20. python查重算法_用Python实现通过哈希算法检测图片重复的教程

热门文章

  1. 通过JS+DIV+CSS排版布局实现选项卡效果
  2. 汉语诗词 LaTeX 排版样式
  3. react-native 之 redux 与 react-redux
  4. 《敏捷可执行需求说明 Scrum提炼及实现技术》—— 3.1 运用试错法
  5. ThinkPHP实现登陆功能
  6. linux 安装mysql 5.7.16
  7. android——wifi系统架构
  8. iOS 推送通知详解
  9. U盘autorun病毒清理
  10. 模板之家php mysql_PHP+APACHE+MYSQL安装方法