提取HTML中所有URL链接
搜索到所有<a>标签
解析<a>标签格式,提取href后的链接内容!

import requests
r = requests.get("http://python123.io/ws/demo.html")
r.text
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo , "html.parser")
print(soup.prettify())
from bs4 import BeautifulSoup
Soup = BeautifulSoup(demo, “html.parser”)
for link in soup.find_all('a'):
print(link.get(‘href’))

如果输入报错:
https://blog.csdn.net/weixin_42859280/article/details/84203450

find_all(name)

查找所有的tag name:
for tag in soup.find_all(True):
 Print(tag.name)

引入正则表达式:import re

匹配含有‘b’的标签。并将其输出!
查找属性。必须带个‘p’。因为这个是一个类别。p中包含course字符串的信息!

对属性做约束!看来通过,id=’link1’进行匹配的错误一个都不可以!

模糊查找,就需要正则表达式啦!
Import re
soup.find_all(id=re.compile(‘link’))
以link开头,但是不完全一致!
用正则表达只需要给出一部分就可以进行模糊搜索!

soup.find_all('a',recursive=False)对子孙进行搜索。

String:<>...</>中字符串区域的检索字符串。

用过之后:

<tag>(..)等价于<tag>.find_all(..)
soup(..)等价于 soup.find_all(..)

7个方法:

总结:

三种标记信息的比较:好多图系列~

YAML:

JSON

HTML:

YAML1:

python网络爬虫信息组织与提取相关推荐

  1. Python 网络爬虫笔记4 -- 信息标记与提取

    Python 网络爬虫笔记4 – 信息标记与提取 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Pytho ...

  2. python爬虫可以爬取个人信息吗_手把手教你利用Python网络爬虫获取旅游景点信息...

    爬虫系列: 当我们出去旅游时,会看这个地方有哪些旅游景点,景点价格.开放时间.用户的评论等. 本文基于Python网络爬虫技术,以hao123旅游网为例,获取旅游景点信息. 1.项目目标 获取网站的景 ...

  3. 手把手教你使用Python网络爬虫获取音效信息

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 一腔热血勤珍重,洒去犹能化碧涛. ...

  4. 手把手教你利用Python网络爬虫获取链家网的房产信息

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来. ...

  5. python链家网爬虫_手把手教你利用Python网络爬虫获取链家网的房产信息

    点击上方" Python爬虫与数据挖掘 ",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来 ...

  6. 手把手教你使用Python网络爬虫获取菜谱信息

    /1 前言/ 在放假时 ,经常想尝试一下自己做饭,下厨房这个网址是个不错的选择. 下厨房是必选的网址之一,主要提供各种美食做法以及烹饪技巧.包含种类很多. 今天教大家去爬取下厨房的菜谱 ,保存在wor ...

  7. 这些美食你吃过吗!使用Python网络爬虫获取菜谱图文信息一起学习

    /1 前言/ 在放假时 ,经常想尝试一下自己做饭,下厨房这个网址是个不错的选择. 下厨房是必选的网址之一,主要提供各种美食做法以及烹饪技巧.包含种类很多. 今天教大家去爬取下厨房的菜谱 ,保存在wor ...

  8. Python网络爬虫(一):爬虫基础

    Python网络爬虫(一)爬虫基础 一.爬虫基础 1.HTTP基本原理 1.1URI和URL URI,全称:Uniform Resource Identifier,即统一资源标志符:URL,全称:Un ...

  9. Python网络爬虫数据采集实战:Scrapy框架爬取QQ音乐存入MongoDB

    ​    通过前七章的学习,相信大家对整个爬虫有了一个比较全貌的了解 ,其中分别涉及四个案例:静态网页爬取.动态Ajax网页爬取.Selenium浏览器模拟爬取和Fillder今日头条app爬取,基本 ...

最新文章

  1. Linux Shell 工作原理
  2. MySQL数据库修改字段的长度
  3. java 正序a~z_Flutter MapString, dynamic 、ListString a-z 排序
  4. 日常生活 -- CSDN博客专家
  5. Android NDK-helloJNI
  6. switch和toggle在软件开发中的含义和区别
  7. 日志log4cxx 封装、实例讲解、配置文件log4cxx.properties
  8. 全开源智睿企业网站管理系统 v11.1.0源码
  9. bzoj 2434 [Noi2011]阿狸的打字机(AC自动机+fail树+dfs序+树状数组)
  10. python︱Anaconda安装、简介(安装报错问题解决、Jupyter Notebook)
  11. redis JAVA hmset_Spring boot 连接Redis实现HMSET操作
  12. 6.S081 Xv6 Lab 2: system calls
  13. Python进行Excel数据处理
  14. 预定义 宏 #define 详解
  15. 桌面运维问题快速定位原因的常用基本思路
  16. Discuz论坛系统
  17. Python Qt GUI设计:UI界面可视化组件、属性概述(基础篇—4)
  18. 《Poluparity Prediction on Social Platforms with Coupled Graph Neural Networks》阅读笔记
  19. 【Python】成功解决 str object has no attribute decode
  20. 表面粗糙度符号表示方法及表面粗糙等级的特征

热门文章

  1. 五分钟搭建BERT服务,实现1000+QPS​,这个Service-Streamer做到了
  2. NLP重大突破?一文读懂XLNet“屠榜”背后的原理
  3. TensorFlow 2.0开发者预览版发布
  4. 0.38秒!MIT 机器人还原3阶魔方的时间再破记录
  5. 同事乱用 Redis 卡爆,我真是醉了...
  6. Java中BigDecimal工具类(支持空值运算版)
  7. Spring Boot + redis解决商品秒杀库存超卖,看这篇文章就够了
  8. Spring Boot+JWT+Shiro+MyBatisPlus实现Restful快速开发后端脚手架
  9. 如何设计一个本地缓存
  10. Java:如何更优雅的处理空值?