python网络爬虫信息组织与提取

提取HTML中所有URL链接
搜索到所有<a>标签
解析<a>标签格式，提取href后的链接内容！

import requests
r = requests.get("http://python123.io/ws/demo.html")
r.text
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo , "html.parser")
print(soup.prettify())
from bs4 import BeautifulSoup
Soup = BeautifulSoup(demo, “html.parser”)
for link in soup.find_all('a'):
print(link.get(‘href’))

如果输入报错：
https://blog.csdn.net/weixin_42859280/article/details/84203450

find_all(name)

查找所有的tag name：
for tag in soup.find_all(True):
Print(tag.name)

引入正则表达式：import re

匹配含有‘b’的标签。并将其输出！
查找属性。必须带个‘p’。因为这个是一个类别。p中包含course字符串的信息！

对属性做约束！看来通过，id=’link1’进行匹配的错误一个都不可以!

模糊查找，就需要正则表达式啦！
Import re
soup.find_all(id=re.compile(‘link’))
以link开头，但是不完全一致！
用正则表达只需要给出一部分就可以进行模糊搜索！

soup.find_all('a',recursive=False)对子孙进行搜索。

String:<>...</>中字符串区域的检索字符串。

用过之后：

<tag>(..)等价于<tag>.find_all(..)
soup(..)等价于 soup.find_all(..)
7个方法：

总结：

三种标记信息的比较：好多图系列~

YAML:

JSON

HTML:

YAML1：

python网络爬虫信息组织与提取相关推荐

Python 网络爬虫笔记4 -- 信息标记与提取
Python 网络爬虫笔记4 – 信息标记与提取 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Pytho ...
python爬虫可以爬取个人信息吗_手把手教你利用Python网络爬虫获取旅游景点信息...
爬虫系列: 当我们出去旅游时,会看这个地方有哪些旅游景点,景点价格.开放时间.用户的评论等. 本文基于Python网络爬虫技术,以hao123旅游网为例,获取旅游景点信息. 1.项目目标获取网站的景 ...
手把手教你使用Python网络爬虫获取音效信息
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤一腔热血勤珍重,洒去犹能化碧涛. ...
手把手教你利用Python网络爬虫获取链家网的房产信息
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤夜阑卧听风吹雨,铁马冰河入梦来. ...
python链家网爬虫_手把手教你利用Python网络爬虫获取链家网的房产信息
点击上方" Python爬虫与数据挖掘 ",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤夜阑卧听风吹雨,铁马冰河入梦来 ...
手把手教你使用Python网络爬虫获取菜谱信息
/1 前言/ 在放假时 ,经常想尝试一下自己做饭,下厨房这个网址是个不错的选择. 下厨房是必选的网址之一,主要提供各种美食做法以及烹饪技巧.包含种类很多. 今天教大家去爬取下厨房的菜谱 ,保存在wor ...
这些美食你吃过吗！使用Python网络爬虫获取菜谱图文信息一起学习
/1 前言/ 在放假时 ,经常想尝试一下自己做饭,下厨房这个网址是个不错的选择. 下厨房是必选的网址之一,主要提供各种美食做法以及烹饪技巧.包含种类很多. 今天教大家去爬取下厨房的菜谱 ,保存在wor ...
Python网络爬虫（一）：爬虫基础
Python网络爬虫(一)爬虫基础一.爬虫基础 1.HTTP基本原理 1.1URI和URL URI,全称:Uniform Resource Identifier,即统一资源标志符:URL,全称:Un ...
Python网络爬虫数据采集实战：Scrapy框架爬取QQ音乐存入MongoDB
通过前七章的学习,相信大家对整个爬虫有了一个比较全貌的了解 ,其中分别涉及四个案例:静态网页爬取.动态Ajax网页爬取.Selenium浏览器模拟爬取和Fillder今日头条app爬取,基本 ...

python网络爬虫信息组织与提取

python网络爬虫信息组织与提取相关推荐

最新文章

热门文章