Python爬虫学习——开始一个小爬虫(一)
Python爬虫学习
文章目录
- Python爬虫学习
- 前言
- 一、什么是爬虫
- 爬虫的矛与盾
- 二、开启一个小爬虫
- 1、导入urlopen包
- 2、打开一个网址,得到响应
- 3、解码
- 4、保存到文件
- 5、打开
前言
写项目书找资料实在头大,还有训练模型采集图片更让人头大,同样也是复习一下自己的python,于是便开启了Python爬虫之旅,为了自己以后查找资料能更加方便
一、什么是爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫就是一段代码,从网络上自动寻找一些自己需要的资料,就比如我想搜一些资料,自己铺天盖地得搜,使用爬虫可以通过关键字筛选我们需要的。或者你想看评分很高得电影,这个时候你也可以用爬虫,找到一些评分很高得电影。
爬虫的矛与盾
1、反爬机制
2、反反爬策略
3、robots.txt(君子协议)
二、开启一个小爬虫
使用软件Pycharm
爬虫:通过编写程序来获取互联网资源
需求:用程序模拟浏览器。输入一个网址,从该网址中获得资源或者内容
1、导入urlopen包
from urllib.request import urlopen
2、打开一个网址,得到响应
from urllib.request import urlopen #导入urlopen
url = "http://www.baidu.com/" #要爬取的网址
resp = urlopen(url) #打开网址并返回响应
print(resp.read()) #打印信息
最前面有个b’,这个意思是字节,我们需要将字节转字符串
3、解码
看charest等号后面的内容,通过resp.read.decode()进行解码
from urllib.request import urlopen #导入urlopenurl = "http://www.baidu.com/" #要爬取的网址
resp = urlopen(url) #打开网址并返回响应
print(resp.read().decode("utf-8")) #打印解码信息
4、保存到文件
from urllib.request import urlopen #导入urlopenurl = "http://www.baidu.com/" #要爬取的网址
resp = urlopen(url) #打开网址并返回响应with open("mybaidu.html",mode="w",encoding='utf-8') as f: #创建html文件并保存 ,encoding设置编码f.write(resp.read().decode("utf-8")) #读取网页的页面源代码
print("文件保存完成")
这个时候信息就保存在了html文件中了
5、打开
这个时候就会打开百度。
上面是我们搜索打开百度的网址,下面的网址很明显是不一样的
其本质是相同的,可以查看网页页面源代码,你会发现源代码是相同的,上面也有提到
f.write(resp.read().decode("utf-8")) #读取网页的页面源代码
同样也可以对央视频进行爬取
from urllib.request import urlopen #导入urlopenurl = "http://v.cctv.com/" #要爬取的网址
resp = urlopen(url) #打开网址并返回响应
#print(resp.read().decode("utf-8"))
with open("my2.html",mode="w",encoding='utf-8') as f: #创建html文件并保存 ,encoding设置编码f.write(resp.read().decode("utf-8")) #读取网页的页面源代码
print("文件保存完成")
Python爬虫学习——开始一个小爬虫(一)相关推荐
- 【直播】手把手带你 5 分钟写一个小爬虫,从入门到超神!
在程序员界流传着这么一个顺口溜:爬虫玩得好,监狱进得早.数据玩得溜,牢饭吃个够--时不时还有 "XX 公司做违法爬虫,程序员坐牢" 的新闻爆出. 在看热闹的同时,很多人都会提出疑问 ...
- 第一个python爬虫_Python爬虫01——第一个小爬虫
Python小爬虫--贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能 然后实现对用户所给的链接进行抓取 最后要有一定的 ...
- Python爬虫01——第一个小爬虫
原文:https://www.cnblogs.com/Axi8/p/5757270.html Python小爬虫--贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. ...
- 用NodeJs做一个小爬虫
作者:北京起步科技前端研究员,专注分享HTML5 App快速开发工具 WeX5 的黑魔法以及相应的前端技术. 前言 利用爬虫可以做很多事情,单身汉子们可以用爬虫来收集各种妹子情报,撩妹族们可以用爬虫收 ...
- Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】
Python3 爬虫学习笔记第十七章 -- [爬虫框架 pyspider - 基本使用] 文章目录 [17.1]初识 pyspider [17.2]使用 pyspider [17.2.1]主界面 [1 ...
- Python3 爬虫学习笔记 C18【爬虫框架 pyspider — 深入理解】
Python3 爬虫学习笔记第十八章 -- [爬虫框架 pyspider - 深入理解] 文章目录 [18.1]启动参数 [18.2]运行单个组件 [18.2.1]运行 Scheduler [18.2 ...
- Java学习|先定一个小目标比如让行为聚焦
2019独角兽企业重金招聘Python工程师标准>>> 版权声明:本文为北京尚学堂原创文章,未经允许不得转载. 如果你想达成一个结果,而且保持效率和质量,就必须让自己行为聚焦到一点 ...
- python学习之 12306的一个小爬虫
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 本文思路 ...
- python爬虫:做一个界面爬虫小软件
任务目标: 1.抓取不同类型的图片 2.编写一个GUI界面爬虫程序,打包成exe重新文件 3.遇到的难点 1.分析如何抓取不同类型的图片 首先打开网站,可以看到有如下6个类型的菜单 点击不同菜单,发现 ...
最新文章
- 嵌入式四大通信接口的解释
- nodemanager不能正常关闭_Java虚拟机关闭钩子(Shutdown hook)
- linux php 安装mysql数据库_linux php安装mysql数据库有哪些方法
- php 数组 双向链表,一个字节数组双向链表类,主要针对串口通讯而开发的
- Shell 脚本的时间的加减,以及时间差的计算
- SAP Spartacus cxFocus的config属性的赋值原理
- pearsonr() python_十分钟搞懂“Python数据分析”
- access exex控制pc_ownCloud/Nextcloud文件访问控制(Files Access Control)
- 2021年文山州一中高考成绩查询,云南文山第一中学2021年录取分数线
- 使用 shell 在多服务器上批量操作
- JAVA导入gpx文件_使用传单加载多个gpx文件
- php解析抖音视频链接,PHP抖音视频无水印解析接口
- 苹果手机有护眼模式吗_调节手机明暗度能起到护眼模式一样的效果?
- 可鸡的三大充要条件来了!!
- MATLAB算法实战应用案例精讲-【人工智能】枝晶生长模型(附matlab代码实现)
- numpy.meshgrid()理解
- PostGIS中的常用函数
- Python Tox介绍和使用
- Setup time和Holdon time
- 对比 iOS 14.5 最强更新功能,Android 系统做得怎么样?
热门文章
- java bean 设置初始值_spring注入怎么样设置默认值?
- 【Linux】Linux中IP地址的配置及常见网络问题
- 了解图像分类与imageNet数据集
- Socket学习心得
- java 爬取 豆瓣_谁说Java不能搞爬虫,哥带你一起爬取豆瓣电影Top250
- 市盈率概念及计算2021-1-19
- php抢红包 并发 超时,处理高并发 IO瓶颈解决红包程序
- Vue组件、Vue插件创建与使用
- 用键盘8个键演奏一首蒲公英的约定送给996的自己或者一首月亮代表我的心给七夕的她...
- win7计算机用户配置文件存储路径,Windows下的用户配置文件管理(一)