无敌python爬虫教程学习笔记(二)
系列文章目录
无敌python爬虫教程学习笔记(一)
无敌python爬虫教程学习笔记(二)
无敌python爬虫教程学习笔记(三)
无敌python爬虫教程学习笔记(四)
手刃一个小爬虫
- 系列文章目录
- 前言
- 基本的爬虫源码及改善
前言
编写的一个爬虫小程序
基本的爬虫源码及改善
#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步from urllib.request import urlopen#导包url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应print(resp.read())#读取响应
运行结果:
结果其实是有中文的,需要解码,怎么解,其实可以观察到是utf-8。
我们加入解码,重新运行。
#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步from urllib.request import urlopen#导包url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应print(resp.read().decode("utf-8"))#读取响应
结果也是显示中文。
但是还是有问题,大家看到的还是一堆看不懂的东西,和浏览器看到的还是有区别的。我们现在把他保存在一个文件中。
再次修改代码,让我们看的舒服点,能看懂。
#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步from urllib.request import urlopen#导包url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应with open("mybaidu.html",mode="wb") as f:f.write(resp.read())print("over!!!")
提示操作成功,爬取到的内容放入了mybaidu.html中。
发现和刚刚区别不大,不着急我们点击run,运行这个HTML文件。
这就是一个最基础的爬虫框架,只需要改目标网址即可。
无敌python爬虫教程学习笔记(二)相关推荐
- 无敌python爬虫教程学习笔记(一)
python爬虫系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 本文目录 ...
- (Python入门)学习笔记二,Python学习路线图
(Python入门)学习笔记二,Python学习路线图 千里之行始于足下,谋定而后动,冰冻三尺非一日之寒.之所以说这三句话,就是对于下面整理的路线图,即不让自己感觉路途的遥远而感到达到巅峰神界的遥遥无 ...
- 【莫烦Python】Python 基础教程——学习笔记
文章目录 本笔记基于p1-p29[莫烦Python]Python 基础教程 大家可以根据代码内容和注释进行学习. 安装 我的:python3.8+anaconda+VS code print() pr ...
- Python基础教程学习笔记:第一章 基础知识
Python基础教程 第二版 学习笔记 1.python的每一个语句的后面可以添加分号也可以不添加分号:在一行有多条语句的时候,必须使用分号加以区分 2.查看Python版本号,在Dos窗口中输入&q ...
- 【python爬虫】学习笔记1-爬取某网站妹子图片
最近刚刚学习爬虫,看了视频之后准备自己写一个爬虫练习,爬妹子图 这次准备爬取的网站是:http://www.umei.cc/p/gaoqing/xiuren_VIP/ 接下来先说一下我的思路: 首先我 ...
- python基础教程学习笔记十二
图形用户界面 Tkinter Wxpython Pythonwin Java swing PyGTK pyQt 第五章 数据库支持 一python数据库api 1 全局变量 Apilevel 版本 ...
- python爬虫个人学习笔记
1.URI 是统一资源标识符(Universal Resource Identifier),URL 是统一资源定位符(Universal Resource Locator),URI 是用字符串来标识某 ...
- python笔记基础-Python基础教程学习笔记-1
今天学习了第9章的八皇后问题,Python简洁的语法令我叹服.现总结如下: Python实现程序如下: def conflict(state,nextX): nextY=len(state) for ...
- 【莫烦Python】Python 基础教程学习笔记与代码
文章目录 2 print 3 数学 4 自变量 5 while循环 6 for循环 7 if 条件 8 if else条件 9 if elif else 10 def 函数 11 函数.参数 12 函 ...
最新文章
- Java BufferImage图片处理(获取宽高、图片截取、转换灰度图)
- datafactory生成mysql数据_测试数据生成工具DataFactory的使用
- Ubuntu 16.04安装VirtualBox 5.1实现无缝模式
- 如何去掉文章里的非关键词c++_平台运营|阿里国际站代码查找产品三个关键词的方法...
- JQuery Datatables —— 自定义导出列
- Linux Shell脚本入门教程系列之(五)Shell字符串
- Android Studio 3.1无法导入模块的解决办法
- php代码敲得很慢,thinkphp好慢 帮忙看看什么原因?已贴代码
- 从excel读取数据到datatable
- TCP,UDP,IP数据包格式详解
- 转python 发送邮件实例
- MarkDown公式输入
- 2017安防摄像头技术发展趋势分析
- 模拟鼠标键盘操作,含硬件模拟技术。[转]
- 网站推荐:快速查询 “中国传统配色” 的色值和色名
- 设置淘宝sku方法技巧 淘宝SKU如何设置
- i12蓝牙耳机使用说明书图片_蓝牙耳机使用常见问题
- 浅谈与时俱进的OS发展史
- 应用机器学习 Applied Machine Learning (AML) ppt2
- 从网红店到家居设计,“Ins风”正在无孔不入