上篇文章地址:https://blog.csdn.net/BanTanger/article/details/122233914

编译器:pycharm

python版本:python3


所需模块:(python标准库函数,无需安装,直接调用)

from urllib import request 向互联网发送申请响应的模块


import urllib.request == from urllib import request 但后者书写函数更加方便。

涉及使用函数:   Request(),  urlopen()

request = request.Request(url = {},headers = {})

respond = request.urlopen(request)

read().decode() 配合使用


{}代表传递参数,用户自定义数据,

url = 所需要爬取的网址,headers = 需要伪装的User-Agent信息。

Request()函数是对爬取信息进行封装,

urlopen()函数是对响应对象的回应,需要传递从Request函数返回的数据

标准格式

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'}
#这里header接收的是一个字典数据,需要{},然后里面的参数要用单引号来引用。
url = 'http://www.baidu.com'req = request.Request(url = url,headers = headers)
#url=是固定格式,后面的url是用户传递参数,也就是变量,headers同理
res = request.urlopen(req)
#urlopen(),参数传递request,并用res变量来接收respond

爬虫代码:

"""
使用Request函数来包装,避免网站反爬,重构User-Agent
"""
from urllib import request
url = 'https://baidu.com/'
headers = {'User-Agent':' Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv,2.0.1) Gecko/20100101 Firefox/4.0.1'}
# 2.包装请求 Request()
req = request.Request(url=url,headers=headers)
# 3.发请求 urlopen()
res = request.urlopen(req)
# 4.获取响应内容
html = res.read().decode('utf-8')
print(html)"""
请求网站三步走
--构造请求对象 req = request.Request(url = {},headers = {})
--获取响应内容 res = request.urlopen(req)
--提取响应对象内容 html = res.read().decode()
"""

运行:

很nice,我们成功啦,更深知识我们下篇文章再讲

爬虫学习日记 Day1 开始爬虫相关推荐

  1. 爬虫学习日记 Day1 什么是request,respond,url,headers

    注:这些知识只是必要的前件知识,没有必要打破沙锅问到底,只需了解即可 前件知识: 1.request和respond request是爬虫向互联网发送请求,respond是互联网对爬虫的回应. 在我们 ...

  2. 爬虫学习日记1-豆瓣top250电影信息爬取

    @ 爬虫学习日记1-豆瓣top250电影信息爬去 学习任务:结合requests.re两者的内容爬取https://movie.douban.com/top250里的内容, 要求抓取名次.影片名称.年 ...

  3. Python学习日记-day1基础篇 字符 输出 注释

    Python学习日记-day1基础篇 字符 输出 注释 by北栀一刺 # -*- coding: utf-8 -*- """ Spyder EditorThis is a ...

  4. 尚学堂Java学习日记Day1

    尚学堂学习日记Day1 #今天开始写学习博客记录自己学习java的点滴成长历程,希望能成为学弟学妹们的前车之鉴. 先大概的自我介绍下,我原本从事的是网络工程师,学习的是Cisco(思科)并拥有CCNP ...

  5. Python爬虫学习——开始一个小爬虫(一)

    Python爬虫学习 文章目录 Python爬虫学习 前言 一.什么是爬虫 爬虫的矛与盾 二.开启一个小爬虫 1.导入urlopen包 2.打开一个网址,得到响应 3.解码 4.保存到文件 5.打开 ...

  6. python商业爬虫_商业爬虫学习笔记day1

    day1 一. HTTP 1.介绍: https://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html http://blog.csdn.ne ...

  7. Python3 爬虫学习笔记 C18【爬虫框架 pyspider — 深入理解】

    Python3 爬虫学习笔记第十八章 -- [爬虫框架 pyspider - 深入理解] 文章目录 [18.1]启动参数 [18.2]运行单个组件 [18.2.1]运行 Scheduler [18.2 ...

  8. Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】

    Python3 爬虫学习笔记第十七章 -- [爬虫框架 pyspider - 基本使用] 文章目录 [17.1]初识 pyspider [17.2]使用 pyspider [17.2.1]主界面 [1 ...

  9. Sumo学习日记 - day1 从traci开始

    Sumo学习日记 之前经常使用sumo,但是网络上相关教程较少,且并没有行成系统的教学.官方文档教育效果很棒,但是对于想学习sumo这个软件的萌新来说好像有点不友好,所以在这里开一个专题 主要介绍su ...

最新文章

  1. 写给小白看的线程和进程,高手勿入
  2. mysql主从不同步怎么恢复_mysql主从不同步时,怎么恢复
  3. HTML 5常用的交互元素————内容交互元素(2)
  4. MATLAB从入门到精通系列-非线性曲线拟合函数lsqcurve()详解
  5. JS与flash交互通信控制的方法
  6. 转载-----Java Longest Palindromic Substring(最长回文字符串)
  7. 【GNN框架系列】DGL第一讲:使用Deep Graph Library实现GNN进行节点分类
  8. 关于Kubernetes集群中常见问题的排查方法的一些笔记
  9. 2022年应届毕业生求职简历模板:电子商务、销售、新媒体运营,80份毕业生个人简历模板
  10. PrestaShop加速11招立刻加速PrestaShop外贸电子商务网站无额外插件
  11. 微软私有云服务器,微软私有云
  12. 欧阳青C语言,[转载]恨君爱 作者 欧阳青
  13. 护理自考本科科目计算机应用基础,护理自考本科考哪些科目
  14. Promise的resolve方法和reject方法
  15. flutter版本升级
  16. 推荐系统用户反馈延迟新解法!阿里提出CVR无偏估计算法
  17. DNS 文件传输协议
  18. android接收红外传感器发送的脉冲信号,esp8266_sdk_ir_rx_tx红外遥控示例
  19. springboot中使用kafka
  20. 腾讯云服务器高性能云盘和SSD云硬盘区别及选择

热门文章

  1. Linux-(C/C++)动态链接库生成以及使用(libxxx.so)
  2. TCP解决connect函数的超时问题
  3. IDC报告:阿里云领跑中国数据库市场年度份额首超传统厂商
  4. 技术干货 | “选图预览并上传”的场景如何解?全网最全方案汇总来了
  5. 我们为什么要做 SoloPi
  6. MaxCompute规格详解 让您花更低的成本获得更高的业务价值
  7. 新功能:阿里云负载均衡SLB支持HTTP访问强制跳转HTTPS
  8. 2018年云栖社区值得订阅的11个精选技术期刊!
  9. 【惊天】京东任命周伯文担任京东云与AI事业部负责人 全面负责AI、云计算、IoT三大技术领域!
  10. 豪投10亿!华为放话:3年培养100万AI人才!网友神回应了