Python爬虫学习

文章目录

  • Python爬虫学习
  • 前言
  • 一、什么是爬虫
    • 爬虫的矛与盾
  • 二、开启一个小爬虫
    • 1、导入urlopen包
    • 2、打开一个网址,得到响应
    • 3、解码
    • 4、保存到文件
    • 5、打开

前言

写项目书找资料实在头大,还有训练模型采集图片更让人头大,同样也是复习一下自己的python,于是便开启了Python爬虫之旅,为了自己以后查找资料能更加方便

一、什么是爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫就是一段代码,从网络上自动寻找一些自己需要的资料,就比如我想搜一些资料,自己铺天盖地得搜,使用爬虫可以通过关键字筛选我们需要的。或者你想看评分很高得电影,这个时候你也可以用爬虫,找到一些评分很高得电影。

爬虫的矛与盾

1、反爬机制
2、反反爬策略
3、robots.txt(君子协议)

二、开启一个小爬虫

使用软件Pycharm
爬虫:通过编写程序来获取互联网资源
需求:用程序模拟浏览器。输入一个网址,从该网址中获得资源或者内容

1、导入urlopen包

from urllib.request import  urlopen

2、打开一个网址,得到响应

from urllib.request import urlopen #导入urlopen
url = "http://www.baidu.com/"   #要爬取的网址
resp = urlopen(url)           #打开网址并返回响应
print(resp.read())     #打印信息


最前面有个b’,这个意思是字节,我们需要将字节转字符串

3、解码


看charest等号后面的内容,通过resp.read.decode()进行解码

from urllib.request import urlopen #导入urlopenurl = "http://www.baidu.com/"   #要爬取的网址
resp = urlopen(url)           #打开网址并返回响应
print(resp.read().decode("utf-8"))     #打印解码信息

4、保存到文件

from urllib.request import urlopen #导入urlopenurl = "http://www.baidu.com/"   #要爬取的网址
resp = urlopen(url)           #打开网址并返回响应with open("mybaidu.html",mode="w",encoding='utf-8') as f:  #创建html文件并保存 ,encoding设置编码f.write(resp.read().decode("utf-8"))  #读取网页的页面源代码
print("文件保存完成")




这个时候信息就保存在了html文件中了

5、打开


这个时候就会打开百度。

上面是我们搜索打开百度的网址,下面的网址很明显是不一样的


其本质是相同的,可以查看网页页面源代码,你会发现源代码是相同的,上面也有提到

       f.write(resp.read().decode("utf-8"))  #读取网页的页面源代码

同样也可以对央视频进行爬取

from urllib.request import urlopen #导入urlopenurl = "http://v.cctv.com/"   #要爬取的网址
resp = urlopen(url)           #打开网址并返回响应
#print(resp.read().decode("utf-8"))
with open("my2.html",mode="w",encoding='utf-8') as f:  #创建html文件并保存 ,encoding设置编码f.write(resp.read().decode("utf-8"))  #读取网页的页面源代码
print("文件保存完成")

Python爬虫学习——开始一个小爬虫(一)相关推荐

  1. 【直播】手把手带你 5 分钟写一个小爬虫,从入门到超神!

    在程序员界流传着这么一个顺口溜:爬虫玩得好,监狱进得早.数据玩得溜,牢饭吃个够--时不时还有 "XX 公司做违法爬虫,程序员坐牢" 的新闻爆出. 在看热闹的同时,很多人都会提出疑问 ...

  2. 第一个python爬虫_Python爬虫01——第一个小爬虫

    Python小爬虫--贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能 然后实现对用户所给的链接进行抓取 最后要有一定的 ...

  3. Python爬虫01——第一个小爬虫

    原文:https://www.cnblogs.com/Axi8/p/5757270.html Python小爬虫--贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. ...

  4. 用NodeJs做一个小爬虫

    作者:北京起步科技前端研究员,专注分享HTML5 App快速开发工具 WeX5 的黑魔法以及相应的前端技术. 前言 利用爬虫可以做很多事情,单身汉子们可以用爬虫来收集各种妹子情报,撩妹族们可以用爬虫收 ...

  5. Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】

    Python3 爬虫学习笔记第十七章 -- [爬虫框架 pyspider - 基本使用] 文章目录 [17.1]初识 pyspider [17.2]使用 pyspider [17.2.1]主界面 [1 ...

  6. Python3 爬虫学习笔记 C18【爬虫框架 pyspider — 深入理解】

    Python3 爬虫学习笔记第十八章 -- [爬虫框架 pyspider - 深入理解] 文章目录 [18.1]启动参数 [18.2]运行单个组件 [18.2.1]运行 Scheduler [18.2 ...

  7. Java学习|先定一个小目标比如让行为聚焦

    2019独角兽企业重金招聘Python工程师标准>>> 版权声明:本文为北京尚学堂原创文章,未经允许不得转载.​ 如果你想达成一个结果,而且保持效率和质量,就必须让自己行为聚焦到一点 ...

  8. python学习之 12306的一个小爬虫

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 本文思路 ...

  9. python爬虫:做一个界面爬虫小软件

    任务目标: 1.抓取不同类型的图片 2.编写一个GUI界面爬虫程序,打包成exe重新文件 3.遇到的难点 1.分析如何抓取不同类型的图片 首先打开网站,可以看到有如下6个类型的菜单 点击不同菜单,发现 ...

最新文章

  1. 嵌入式四大通信接口的解释
  2. nodemanager不能正常关闭_Java虚拟机关闭钩子(Shutdown hook)
  3. linux php 安装mysql数据库_linux php安装mysql数据库有哪些方法
  4. php 数组 双向链表,一个字节数组双向链表类,主要针对串口通讯而开发的
  5. Shell 脚本的时间的加减,以及时间差的计算
  6. SAP Spartacus cxFocus的config属性的赋值原理
  7. pearsonr() python_十分钟搞懂“Python数据分析”
  8. access exex控制pc_ownCloud/Nextcloud文件访问控制(Files Access Control)
  9. 2021年文山州一中高考成绩查询,云南文山第一中学2021年录取分数线
  10. 使用 shell 在多服务器上批量操作
  11. JAVA导入gpx文件_使用传单加载多个gpx文件
  12. php解析抖音视频链接,PHP抖音视频无水印解析接口
  13. 苹果手机有护眼模式吗_调节手机明暗度能起到护眼模式一样的效果?
  14. 可鸡的三大充要条件来了!!
  15. MATLAB算法实战应用案例精讲-【人工智能】枝晶生长模型(附matlab代码实现)
  16. numpy.meshgrid()理解
  17. PostGIS中的常用函数
  18. Python Tox介绍和使用
  19. Setup time和Holdon time
  20. 对比 iOS 14.5 最强更新功能,Android 系统做得怎么样?

热门文章

  1. java bean 设置初始值_spring注入怎么样设置默认值?
  2. 【Linux】Linux中IP地址的配置及常见网络问题
  3. 了解图像分类与imageNet数据集
  4. Socket学习心得
  5. java 爬取 豆瓣_谁说Java不能搞爬虫,哥带你一起爬取豆瓣电影Top250
  6. 市盈率概念及计算2021-1-19
  7. php抢红包 并发 超时,处理高并发 IO瓶颈解决红包程序
  8. Vue组件、Vue插件创建与使用
  9. 用键盘8个键演奏一首蒲公英的约定送给996的自己或者一首月亮代表我的心给七夕的她...
  10. win7计算机用户配置文件存储路径,Windows下的用户配置文件管理(一)