所谓爬虫,就是通过编写程序获取互联网上的资源!

1.导入Python包

打开PyCharm,导入Python包,具体代码如下所示:

from urllib.request import urlopen

就是在urllib库中找到request库,从request库中导入urlopen

2.得到相应

导入Python包后,需要确定要爬取的网址,这里以爬取百度为例,然后可以用urlopen从请求路径中得到相应,具体代码如下所示:

# 确定要爬取网址的路径
url = "http://www.baidu.com"
# 访问网址得到相应
resp = urlopen(url)

3.解析主体内容并保存到文件

我们直接从上一步得到的是内容字节,需要字节转字符串,因此我们需要对得到的响应进行解码并保存到文件中,并且要防止中文乱码!具体代码如下所示:

with open("mybaidu.html", mode="w", encoding="utf-8") as f:f.write(resp.read().decode("utf-8"))  # 从响应中读取到页面源代码
print("保存结束")

4.展示爬取效果

执行前三步后,便将百度中爬取的主体内容保存到同级目录下的mybaidu.html中,我们直接点击进入该文件,右键执行即可看见百度官网的样式,看路径可以发现,这个不是百度官网的url,而是我们的项目路径具体如下所示:

5.展示全部代码

# 需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
from urllib.request import urlopen
# 确定要爬取网址的路径
url = "http://www.baidu.com"
# 访问网址得到相应
resp = urlopen(url)
# 想得到内容
# decode 就是为了解码,以utf-8的形式解码
# print(resp.read().decode("utf-8"))
with open("mybaidu.html", mode="w", encoding="utf-8") as f:f.write(resp.read().decode("utf-8"))  # 从响应中读取到页面源代码
print("保存结束")

Python爬虫简单入门相关推荐

  1. Python爬虫简单入门教程

    这篇 Python 爬虫教程主要讲解以下 5 部分 了解网页结构: 使用 requests 库抓取网站数据: 使用 Beautiful Soup 解析网页: 清洗和组织数据: 爬虫攻防战: 了解网页结 ...

  2. 爬取每日必应图片,python爬虫简单入门

    爬取每日必应图片: 网址:微软必应搜索 第一步,打开网站: 右键,查看网页源代码: 初看有点吓人,不过幸运的是图片地址就在开头几行显眼的位置 ![在这里插入图片描述](https://img-blog ...

  3. python爬虫简单入门(爬网页文本信息)

    环境 python 3.8.2 Shell 也可以使用PyCharm 一.爬网页文本基本步骤 1.请求目标网页,用requests请求,如果还没有安装,打开cmd,输入下面命令进行安装 pip ins ...

  4. python爬虫从入门到精通-Python爬虫从入门到精通视频(2018新版)

    原标题:Python爬虫从入门到精通视频(2018新版) Python在软件质量控制.提升开发效率.可移植性.组件集成.丰富库支持等各个方面均处于先进地位,并且随着人工智能的兴起,Python发展得越 ...

  5. Python爬虫新手入门教学(十):爬取彼岸4K超清壁纸

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  6. python爬虫从入门到实战笔记——第四章Scrapy框架

    推荐阅读: python爬虫从入门到实战笔记--第一章爬虫原理和数据爬取 python爬虫从入门到实战笔记--第二章非结构化数据和结构化数据的提取 python爬虫从入门到实战笔记--第三章动态HTM ...

  7. Python爬虫新手入门教学(十六):爬取好看视频小视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  8. Python爬虫新手入门教学(十五):爬取网站音乐素材

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  9. Python爬虫新手入门教学(二十):爬取A站m3u8视频格式视频

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前文内容 Python爬虫新手入门教学(一):爬取豆瓣电影排行信息 Python爬虫新手入门 ...

  10. Python爬虫从入门到精通——爬虫实战:爬取今日头条图片新闻

    分类目录:<Python爬虫从入门到精通>总目录 本文为实战篇,需提前学习Python爬虫从入门到精通中<基本库requests的使用>和<Ajax数据爬取(一):基本原 ...

最新文章

  1. MySQL环境配置和入门讲解!
  2. python计算相关系数
  3. 编辑器的合并用不了_Excel多工作簿合并为一个工作簿,10秒搞定,这才是最高效的方式...
  4. Uva 442 - Matrix Chain Multiplication(模拟)
  5. 【dfs】【模拟】【树】I Like Matrix Forever!
  6. JavaFX鼠标移动事件
  7. java jbutton文字_java JButton 改变按钮文字
  8. 在阿里云ECS上安装Docker、Tomcat并部署官网(无后端交互)
  9. 《Android游戏开发详解》一2.18 使用Java API中的对象
  10. AngularJs -- 模 块
  11. 计算机安全防范系统维护,安防系统维护与设备维修(全彩)
  12. 从集合(内存)中创建RDD
  13. 使用Seam Framework + JBoss 5.0 开发第一个Web应用 - 简单投票程序
  14. 【渗透测试常见漏洞概述及修复方法】
  15. 不忘初心,持之以恒,笔耕不辍,利人利己
  16. MFC C++知道当前日期,求昨天或前天的日期
  17. 利用Photoshop制作棋盘(黑白格)
  18. python super
  19. BENQ23G的彩信发送及编码格分析
  20. ssci源刊里有开源期刊吗_科学网—报告SCI数据库,以下几个期刊可疑专坑中国作者 - 喻海良的博文...

热门文章

  1. python并行编程手册 pdf_Python并行编程手册
  2. IDEA配置java开发环境
  3. python deap_Python遗传算法框架DEAP-Creating Types
  4. 计算机组成原理 确定片选逻辑,唐朔飞 计算机组成原理习题答案.ppt
  5. java给出汉字“你”“我”“他”在Unicode表中的位置
  6. 拼多多上市关你什么事?
  7. 如何在没有电脑的情#况下用安卓手机制作windows pe启动盘
  8. VMware 12 专业版永久许可证密钥
  9. qq代码大全可复制_给QQ换上“彩色动态昵称”,太酷了!
  10. 步进与伺服电机区别与选型