猫哥教你写爬虫 031--爬虫基础-html
回顾
浏览器原理
爬虫工作原理
可以requests.get() 来获取网上的数据
HTML回顾
HTML的学习依序分为三个层次,应该是读懂、修改、编写
只有读懂了HTML,才能看得懂网页结构,才有可能运用Python的其他模块去解析数据和提取数据
什么是html
HTML(Hyper Text Markup Language)是用来描述网页的一种语言,也叫超文本标记语言
HTML之于网页就好比建筑图纸之于建筑
html, css, js的关系
HTML标签
网页头和网页体
属性
id和class
id 是一对一的关系, class是一对多的关系
小作业: 获取网页源代码...
localprod.pandateacher.com/python-manu…
小总结
import requests #调用requests库
from bs4 import BeautifulSoup
# 获取数据
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# res.status_code 状态码
# res.content 二进制
# res.text html代码
# res.encoding 编码
# 解析数据
# soup 是beautifulsoup对象
soup = BeautifulSoup(res.text,'html.parser')
# soup.find(标签名,属性=属性值)
# soup.find_all(标签名, 属性=属性值)
# 提取数据 list 里面是tag对象
item = soup.find_all('div',class_='books')
for i in item:# i.find().find().find() # tag对象, 可以一级一级找下去# i.find_all()# i 是tag对象, 也可以使用find和find_all, 得到结果还是tag对象# i.find().find().find().find()print(i.find('a',class_='title').text) # 获取标签内容print(i.find('a',class_='title')['href']) # 获取标签属性(href)print(i.find('p',class_='info').text) # 获取标签内容
复制代码
快速跳转:
猫哥教你写爬虫 000--开篇.md
猫哥教你写爬虫 001--print()函数和变量.md
猫哥教你写爬虫 002--作业-打印皮卡丘.md
猫哥教你写爬虫 003--数据类型转换.md
猫哥教你写爬虫 004--数据类型转换-小练习.md
猫哥教你写爬虫 005--数据类型转换-小作业.md
猫哥教你写爬虫 006--条件判断和条件嵌套.md
猫哥教你写爬虫 007--条件判断和条件嵌套-小作业.md
猫哥教你写爬虫 008--input()函数.md
猫哥教你写爬虫 009--input()函数-人工智能小爱同学.md
猫哥教你写爬虫 010--列表,字典,循环.md
猫哥教你写爬虫 011--列表,字典,循环-小作业.md
猫哥教你写爬虫 012--布尔值和四种语句.md
猫哥教你写爬虫 013--布尔值和四种语句-小作业.md
猫哥教你写爬虫 014--pk小游戏.md
猫哥教你写爬虫 015--pk小游戏(全新改版).md
猫哥教你写爬虫 016--函数.md
猫哥教你写爬虫 017--函数-小作业.md
猫哥教你写爬虫 018--debug.md
猫哥教你写爬虫 019--debug-作业.md
猫哥教你写爬虫 020--类与对象(上).md
猫哥教你写爬虫 021--类与对象(上)-作业.md
猫哥教你写爬虫 022--类与对象(下).md
猫哥教你写爬虫 023--类与对象(下)-作业.md
猫哥教你写爬虫 024--编码&&解码.md
猫哥教你写爬虫 025--编码&&解码-小作业.md
猫哥教你写爬虫 026--模块.md
猫哥教你写爬虫 027--模块介绍.md
猫哥教你写爬虫 028--模块介绍-小作业-广告牌.md
猫哥教你写爬虫 029--爬虫初探-requests.md
猫哥教你写爬虫 030--爬虫初探-requests-作业.md
猫哥教你写爬虫 031--爬虫基础-html.md
猫哥教你写爬虫 032--爬虫初体验-BeautifulSoup.md
猫哥教你写爬虫 033--爬虫初体验-BeautifulSoup-作业.md
猫哥教你写爬虫 034--爬虫-BeautifulSoup实践.md
猫哥教你写爬虫 035--爬虫-BeautifulSoup实践-作业-电影top250.md
猫哥教你写爬虫 036--爬虫-BeautifulSoup实践-作业-电影top250-作业解析.md
猫哥教你写爬虫 037--爬虫-宝宝要听歌.md
猫哥教你写爬虫 038--带参数请求.md
猫哥教你写爬虫 039--存储数据.md
猫哥教你写爬虫 040--存储数据-作业.md
猫哥教你写爬虫 041--模拟登录-cookie.md
猫哥教你写爬虫 042--session的用法.md
猫哥教你写爬虫 043--模拟浏览器.md
猫哥教你写爬虫 044--模拟浏览器-作业.md
猫哥教你写爬虫 045--协程.md
猫哥教你写爬虫 046--协程-实践-吃什么不会胖.md
猫哥教你写爬虫 047--scrapy框架.md
猫哥教你写爬虫 048--爬虫和反爬虫.md
猫哥教你写爬虫 049--完结撒花.md
转载于:https://juejin.im/post/5cfc4ada6fb9a07ef63fcfd0
猫哥教你写爬虫 031--爬虫基础-html相关推荐
- 猫哥教你写爬虫 046--协程-实践-吃什么不会胖
吃什么不会胖? 低热量食物 食物的数量有千千万,如果我们要爬取食物热量的话,这个数据量必然很大. 使用多协程来爬取大量的数据是非常合理且明智的选择 如果我们要爬取的话,那就得选定一个有存储食物热量信息 ...
- 猫哥教你写爬虫 006--条件判断和条件嵌套
流程控制 复仇者联盟3-无限战争(搜集宝石) python里面, 不需要使用;来结尾, 因为python是使用换行来结束一行代码的 if判断, 没有{}, python使用缩进来表示层级关系 if.. ...
- 猫哥教你写爬虫 002--作业-打印皮卡丘
作业 请你使用print()函数将下面的皮卡丘打印出来, 使用三种方式 へ /|/\7 ∠_// │ / /│ Z _,< / /`ヽ│ ヽ / 〉Y ` / /イ● 、 ● ⊂⊃〈 /() へ ...
- 猫哥教你写爬虫 005--数据类型转换-小作业
小作业 程序员的一人饮酒醉 请运用所给变量,使用**str()**函数打印两句话. 第一句话:1人我编程累, 碎掉的节操满地堆 第二句话:2眼是bug相随, 我只求今日能早归 number1 = 1 ...
- 猫哥教你写爬虫 004--数据类型转换-小练习
小练习, 改一下代码 word = '3.8' number = 1 sentence = '人工智障说:3.8+1等于' print(sentence+str(int(float(word)+num ...
- 猫哥教你写爬虫 037--爬虫-宝宝要听歌
戴上耳机, 这个世界与我无关... 让我们用音乐洗涤心灵吧... 我们从哪个网站爬取资源呢? 专治各种不服... 打开酷狗官网, 可以看到搜索框,我们要爬取的数据就是搜索歌曲后, 酷狗后台返回的歌曲列 ...
- 猫哥教你写爬虫 027--模块介绍
time模块 import time # 时间对象转美式时间字符串 print(time.asctime()) # Wed May 29 09:25:07 2019 print(time.asctim ...
- 猫哥教你写爬虫 000--开篇
写在前面 快速跳转: 猫哥教你写爬虫 000--开篇.md 猫哥教你写爬虫 001--print()函数和变量.md 猫哥教你写爬虫 002--作业-打印皮卡丘.md 猫哥教你写爬虫 003--数据类 ...
- 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫
系列教程 手把手教你写电商爬虫-第一课 找个软柿子捏捏 如果没有看过第一课的朋友,请先移步第一课,第一课讲了一些基础性的东西,通过软柿子"切糕王子"这个电商网站好好的练了一次手,相 ...
- 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 1
系列教程 手把手教你写电商爬虫-第一课 找个软柿子捏捏 如果没有看过第一课的朋友,请先移步第一课,第一课讲了一些基础性的东西,通过软柿子"切糕王子"这个电商网站好好的练了一次手,相 ...
最新文章
- 下载MySQL数据库
- Baidu小窥(一)
- 在Elasticsearch中查询Term Vectors词条向量信息
- Lombok介绍、附比较好用的几种注释推荐
- android版本10好不好,一加正式推送Android 10系统 流畅性怎么样
- CUDA2.1-原理之索引与warp
- ❤️《大前端—Babel》
- api 微信小程序组件库colorui_微信小程序入门ColorUI组件库使用方法
- 风控建模十一:利用外部数据联合建模时,如何选择样本
- 电脑关机程序(源码)
- python你实现视频自动打码,了解妨碍你观看精彩的马赛克是怎么精准形成的
- iOS获取UDID的方法及步骤
- Latex更改参考文献格式
- 周鸿祎:人人需要Mentor,世界没有奇迹
- 斑马打印机驱动安装(ZT410)
- mysql等保测评命令_Mysql等保部分加固
- 【Java学习之代码学习】 Prog28_打印出杨辉三角形的问题
- 惊悚片 VS 恐怖片
- KeyDown,KeyPress和KeyUp详解
- canvas插件 fabric.js 使用