python简单爬虫代码-最精简的爬虫 --仅需4行代码(python)
最精简的爬虫 --仅需4行代码(python)
刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享
今天,我们主要讲述的是思路,思路,思路。
相比起,直接贴代码,思路显的更为重要
当初,自己的坑,希望后面的人可以避免
*********
爬虫逻辑:
1,请求网页(利用python向web服务器进行请求)
2,通过匹配找到对应的目标(F12查看网页的结构)
3,下载对应目标
方法:(2种)
一种是百度上陈述的传统方法,通过urllib库来请求,并且urllib.request.urlretrieve 来对目标下载
另一种是使用简便,逻辑清晰,代码复杂度率低
方法一:
^这里我们主要介绍的 一种简便的,实用的,逻辑清晰,代码量少的
import requests #请求网页
from bs4 import BeautifulSoup #分析html的结构
我们主要利用到2个库:requests,bs4
库的用法,读者请自行百度,
tips:bs4库非内置库,需要另行安装:pip3 install beautifulsoup4
然后,我们再对目标进行写入:
with open('picfile','wb') as f: #这里的picfile为存放文件
f.write(pic) #这里pic为请求到的图片对象
ok,这样爬取到的pic就存到了picfile文件里了,这里介绍的为单目标存放,实际中都是多目标文件的,所以,接下来,我们将用到for循环进行处理:(请读者自行思考,如何加for循环)
爬虫代码如下:
import requests
with open('picfile','wb') as f:
f.write(pic.content)
这是最简单的入门例子,实际中,是多个内容一起爬取,下一步就是增加bs4库针对网站进行过滤,然后再加for循环进行批量存储,请读者进行思考(在本文的最下方,会附上一个完整版的demo)
——————————————————————————————————————————————————
方法二:
^现在,介绍百度上比较统一的一种方法:
(个人觉得,晦涩难懂,对于初学者来讲,并且代码冗余)
import urllib.request
import re #正则匹配目标文件
import os
import urllib
思路:利用urllib库进行网页的请求
然后,再利用正则表达式得出目标文件 (这里需要注意正则的编写,需要极度精确到位)
最后,urllib.request.urlretrieve 这个函数,将目标进行下载
这里,再对re库进行一个补充,这是一个常用的正则匹配
regex = re.compile()
file.search()
最后,来详细陈述下第一种方法的优势:
1,requests使用简便,是再urllib基础之上产生的一个页面请求库
2,采取bs4进行过滤,会使在过滤手段更加简洁易理解,避免复杂正则表达式所带来的困惑
3,采用的write写针对for循环进行多文件的。
https://zhuanlan.zhihu.com/p/33614014
import requests
import os,sys,time
import bs4
url = 'https://xkcd.com'
os.makedirs('xkcd',exist_ok=True)
#re = requests.get('https://xkcd.com')
#status = re.status_code()
while not url.endswith('#'):
print('downing the %s...' %url)
re = requests.get('https://xkcd.com')
re.raise_for_status()
soup = bs4.BeautifulSoup(re.text)
comicElen = soup.select('#comic img')
print(type(comicElen))
#print(comicElen)
if comicElen == []:
print('not find pic')
else:
# print('2')
comicUrl = comicElen[0].get('src')
comicUrl = 'https:' + comicUrl
print('downing image %s ' % (comicUrl))
re = requests.get(comicUrl)
re.raise_for_status()
#print('1')
imageFile = open(os.path.join('xkcd'+os.path.basename(comicUrl)),'wb')
for chunk in re.iter_content(100000):
imageFile.write(chunk)
imageFile.close()
prevlink = soup.select('a[rel="prev"]')[0]
url = 'https://xkcd.com' + prevlink.get('href')
print('done!')
python简单爬虫代码-最精简的爬虫 --仅需4行代码(python)相关推荐
- python房子代码_基于python的链家小区房价爬取——仅需60行代码!
简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...
- python爬取南京市房价_基于python的链家小区房价爬取——仅需60行代码
简介 首先打开相关网页(北京链家小区信息). 注意本博客的代码适用于爬取某个城市的小区二手房房价信息. 如果需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多. 效果展示 因为只需要60行 ...
- 神经网络 c++ 源码 可以直接复制运行,提供数据集,操作简单,最少仅需4行代码
神经网络 c++ 源码 可以直接复制运行,提供数据集,操作简单,最少仅需4行代码 本文的神经网络,让你省去Python那些花里胡哨的变量名,最少仅需4行代码即可完成自己的神经网络** 本文章采用c++ ...
- 最简单的爬虫代码 python_最精简的爬虫 --仅需4行代码(python)
最精简的爬虫 --仅需4行代码(python) 刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享 今天,我们主要讲述的是思路,思路,思路. 相比起,直接贴代码,思路显的更为重要 当初,自己的坑,希 ...
- python爬虫代码1000行-最精简的爬虫 --仅需4行代码(python)
最精简的爬虫 --仅需4行代码(python) 刚刚整理了下爬虫系列,于是乎就开始了第一次的技术分享 今天,我们主要讲述的是思路,思路,思路. 相比起,直接贴代码,思路显的更为重要 当初,自己的坑,希 ...
- python加密敏感信息_仅需10行代码,使用python加密用户敏感数据
原标题:仅需10行代码,使用python加密用户敏感数据 数据分析师必须要遵守的一个规则就是数据保密,但在跨部门沟通的时候,难免会有数据泄露的情况,所以,对于用户的姓名.手机号.地址等敏感信息,一般需 ...
- OpenCV-Python实战(14)——人脸检测详解(仅需6行代码学会4种人脸检测方法)
OpenCV-Python实战(14)--人脸检测详解(仅需6行代码学会4种人脸检测方法) 0. 前言 1. 人脸处理简介 2. 安装人脸处理相关库 2.1 安装 dlib 2.2 安装 face_r ...
- [Unity实战]仅需25行代码 安卓/ios打包跳过Unity启动Logo动画...[新手开箱可用][全平台支持]
[Unity实战]仅需25行代码 安卓/ios打包跳过Unity启动Logo动画 参考文章 接上一篇文章-unity隐私协议包通过审查 1.直接上代码: 2.打包后使用效果展示: 3.源码地址: 参考 ...
- 干货案例!Python实现视频批量加水印,仅需50行代码
最近由于工作安排,同事需要经常大批量给视频添加水印,昨天反馈给我说,用的某软件批量添加水印过程真的很繁琐,效率也很低,加一个水印要好几分钟时间,你能不能帮我开发一个小工具直接达到"一键添加& ...
最新文章
- Struts从2.1升级到2.3版本过程
- 不讲码德!坏味道偷袭我这个老码农
- GetLastError返回值的意义----适用在eVC和VC++
- sougou ubuntu 优麒麟_优麒麟(Ubuntu Kylin)17.04 正式版及银河麒麟社区版发布
- win10使用虚拟光驱安装vcenter6.7
- Java基础篇:数组
- python读取nc文件并转换成csv_Python提取netCDF数据并转换为csv文件
- Golang中使用kafka
- java ee cdi_Java EE CDI程序化依赖关系消歧示例–注入点检查
- golang的Channel初始化的有缓存与无缓存解释
- GSCOOLINK GSV2006替CH6002 HDMI2.0接口芯片
- julia Pkg.add() 安装package时卡着不动慢怎么办
- 《稻盛和夫给年轻人的忠告》阅读笔记
- 1. 遥控器-华科尔Devo7e 改造成为支持 dsm2/dsmx 的多制式遥控器
- Criteo启动上海数据中心,加大对中国市场的投入
- nginx http强制跳转https 配置相关信息
- 微博创作者网址及申请条件,微博创作者收益
- 哲理故事(51)-一万小时定律(10000小时法则)
- Android10有sdcard读写权限,仍无法读写sdcard中文件问题解决
- 2021-2027全球与中国电动垂直起降(eVTOL)飞行器基础设施市场现状及未来发展趋势