python网络爬虫之入门[一]
目录
- 前言
- 一、探讨什么是python网络爬虫?
- 二、一个针对于网络传输的抓包工具fiddler
- 三、学习request模块来爬取第一个网页
- * 扩展内容(爬取top250的网页)
- 后记
前言
hello,本次就是给大家带来的是满满的干货哦,学习如何使用Python爬虫功能。
在这个系列里是完全可以学会滴,按照一步一步来吧。
奥力给!!!
废话不多说,先整理一下本次内容:
1、探讨什么是python网络爬虫?
2、一个针对于网络传输的抓包工具fiddler
3、学习request模块来爬取第一个网页
一、探讨什么是python网络爬虫?
相信大家如果是刚学python或是刚学java的各位来说的话,一定会有来自灵魂深处的四问。。。
我是谁?,我在那?…额,不是
咳咳,是这个:
1、什么是网络爬虫?
2、为什么要学网络爬虫?
3、网络爬虫用在什么地方?
4、网络爬虫是否合法?
哟西,放马过来,一个一个来。
1、什么是网络爬虫?
如果说网络就是一张网的话,那么网络爬虫就是可以在网上获取食物的蜘蛛(spider)
2、为什么要学网络爬虫?
这个的话,就感觉是在问你为什么要学习python一样。。(~ ̄▽ ̄)~
嘛,总的来说就是教你可以在网上爬取到什么样的数据以及学到神马东西。
3、网络爬虫用在什么地方?
额,用在什么地方,什么地方都能用到哦,比如:在找工作的时候把所有的招聘信息爬取下来,然后再自己慢慢解析,又比如:爬取某些网站的图片…
4、网络爬虫是否合法?
enn,先说好啊,本章博客是用来学习博客,不会用来做任何商业用途
5、最后说一下,接下来会学习的内容,不过可能会有些变动
let`go
二、一个针对于网络传输的抓包工具fiddler
这个我就不讲了,因为之前做过之类的博客。额,有不懂的可以私信
直接上传送门:Fiddler抓包工具
三、学习request模块来爬取第一个网页
喔,因为我没有整理其他的比如:python解释器的安装之类的,额,不懂的暂时先可以去看看基础之类的。
python入门【一】
这个内容可能比较的枯燥啊。
1、下载requesets模块
没有的话就下载
2、对网页的解析(百度www.baidu.com)
按F进入坦克…
额,不是 按F12进入开发者模式
搜索"中国"
3、开始爬取(嘿嘿,因为本人感觉一个一个放上去忒麻烦了吧,一张图给你解决)
其实有很多注解了的,多看看,当然对一个网页的分析尤为重要
具体代码实现:
import requests# 标明要请求的路径
url = "http://www.baidu.com/s?"
headers = {"Cookie": "BAIDUID=BB84703BA1CB50B295F2E42435DF6A4F:FG=1; BIDUPSID=BB84703BA1CB50B295F2E42435DF6A4F; PSTM=1570674385; BD_UPN=12314753; ispeed_lsm=2; BDUSS=VpqdTlafmxiM28zVktufnBvQkJCc3l-OUtMemFsR0NFSFBkRzVvbWF6UTZqZmRkSVFBQUFBJCQAAAAAAAAAAAEAAAD~lxnTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAADoA0F06ANBdb; pgv_pvi=5531878400; COOKIE_SESSION=98297_6_9_8_4_26_0_3_8_7_10_8_18582_21681_0_0_1574259377_1574259241_1574591094%7C9%2321663_55_1574259212%7C9; BD_HOME=1; H_PS_PSSID=1427_21090_29567_29221_26350","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)", "Host": "www.baidu.com"
}params = {"wd": "中国"
}# 得到请求后的响应
response = requests.get(url,params=params,headers=headers)response.encoding = "UTF-8"
print(f"响应的编码:{response.encoding}")print(f"响应的状态码:{response.status_code}")
print(response.text)with open("中国.html", "w", encoding="UTF-8") as f:f.write(response.text)
* 扩展内容(爬取top250的网页)
因为重点代码都在上面讲了,所以就放如何解析网页;
第一页的数据
第一页的猜测网址:结果没问题。
可以直接点击第二页就看看网址,
然后就可以分析分析网址了
所以我们的一个代码就是这个
"""
爬取豆瓣电影TOP250,分页保存电影数据
"""
import requests
import timeheaders = {"User-Agent": "Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14"
}for i in range(10):url = f"https://movie.douban.com/top250?start={i*25}"response = requests.get(url, headers=headers, verify=False)print(response.status_code)if response.status_code == 200:# 获取网页数据with open(f"第{i+1}页.txt", "w", encoding="UTF-8") as f:f.write(response.text)print(f"{url} 保存成功")time.sleep(2)
后记
爬虫重点在于分析哈
python网络爬虫之入门[一]相关推荐
- python编程入门到实践 百度云-python网络爬虫从入门到实践pdf
python网络爬虫从入门到实践pdf是一本非常热门的编程教学.这本书籍详细讲解了Python以及网络爬虫相关知识,非常适合新手阅读,需要的用户自行下载吧. Python网络爬虫从入门到实践电子书介绍 ...
- python网络爬虫教程-终于明了python网络爬虫从入门到实践
Python是一款功能强大的脚本语言,具有丰富和强大的库,重要的是,它还具有很强的可读性,易用易学,非常适合编程初学者入门.以下是小编为你整理的python网络爬虫从入门到实践 环境配置:下载Pyth ...
- 【读书笔记】Python网络爬虫从入门到实践(第2版)-唐松,爬虫基础体系巩固和常见场景练习
[概述] 书名:Python网络爬虫从入门到实践(第2版) 作者:唐松 日期:2021年08月01日 读书用时:1568页,100小时,59个笔记 [读书笔记] ◆ 1.2 网络爬虫是否合法 爬虫协议 ...
- python网络爬虫从入门到实践 第5章 (二)
python网络爬虫从入门到实践 第5章 (二) https://beijing.anjuke.com/sale/ \xa0 是不间断空白符 我们通常所用的空格是 \x20 ,是在标准ASCII可 ...
- 《Python网络爬虫——从入门到实践》第六章将数据存储至MySQL数据库的学习心得与总结(出错与纠正方法)
<Python网络爬虫--从入门到实践>第六章将数据存储至MySQL数据库的学习心得与总结(出错与纠正方法) 作为刚开始入门python的小白,对大数据,网络爬虫比较感兴趣.完全是自我修炼 ...
- python爬出书籍下载-Python网络爬虫从入门到实践 PDF 高质量扫描版
给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫.入门.实践方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小154.1 MB,唐松/陈智铨编写,目前 ...
- 《Python网络爬虫从入门到实践 第2版》第14章 爬虫实践一:维基百科
第14章 爬虫实践一:维基百科 "是骡子是马,拉出来遛遛".我们已经将Python网络爬虫的技术系统地学习完了,后面几个章节开始进入实践环节.每一章都会使用之前学习的技术,通过实践 ...
- python从入门到精通pdf下载-Python网络爬虫从入门到精通 PDF 下载
第1章 Python与网络爬虫1 1.1 Python语言1 1.1.1 什么是Python1 1.1.2 Python的应用现状2 1.2 Python的安装与开发环境配置3 1.2.1 在Wind ...
- python爬虫教程下载-Python网络爬虫从入门到精通 PDF 下载
第1章 Python与网络爬虫1 1.1 Python语言1 1.1.1 什么是Python1 1.1.2 Python的应用现状2 1.2 Python的安装与开发环境配置3 1.2.1 在Wind ...
最新文章
- 从头学习Drupal--基本架构二
- MySQL给一个字段递增赋值
- ping网关丢包_网络/摄像机丢包的原因分析
- fatal error LNK1169: 找到一个或多个多重定义的符号 的解决方案
- 20145308刘昊阳 20145302张薇《信息安全系统设计基础》实验五:网络通信 实验报告...
- samba服务器常用指令
- left join, right join , inner join, join, union的意义
- 检测到非法调试,F12被管理员禁用解决方法
- 《统计学习方法》python代码资料
- 跟着【莫烦python】学习神经网络框架TensorFlow和Pytorch学习笔记
- rx550 黑苹果_黑苹果免驱显卡速查表
- 车架号识别系统-VIN码识别查询
- 自动量程万用表的实现原理_自动量程万用表设计方案
- 问题解决_系统识别不了内存
- erlang之ets总结
- C语言中p, *p, p, *p, **p的理解-初级
- 学计算机用商务本还是游戏本,工作学习游戏?这 8 款最具性价比的笔记本电脑,总有一款适合你...
- 模拟电子技术/国外电子与通信教材系列
- 微网通联 一键认证iOS开发文档
- BIM技术多牛逼?BIM技术在建筑工程行业的四大发展趋势