案例一:

#coding=utf-8
import json
import requests
from bs4 import BeautifulSoup
url = 'http://www.itest.info/courses' # 定义被抓取页面的url
soup = BeautifulSoup(requests.get(url).text, 'html.parser')# 获取被抓取页面的html代码(注意这里是用 request框架获取的页面源码),并使用html.parser来实例化BeautifulSoup,属于固定套路
for course in soup.find_all('h4'):# 遍历页面上所有的h4标签
  print course.text.encode('utf-8')# 打印出h4标签的text字符    如: 测试开发--试验班
  print course  # 打印出h4的text字符加标签    如:<h4>测试开发--试验班</h4>

案例二:

图例:

url = 'https://www.v2ex.com/'
soup = BeautifulSoup(requests.get(url).text, 'html.parser')
for span in soup.find_all('span', class_='item_hot_topic_title'):#查找span标签 且样式为class_='item_hot_topic_title',注意是class_,不是class,因为class是python的关键字,所以后面要加个尾巴,防止冲突
  print span.find('a').text.encode('utf-8')#获取里面的a标签展示,假如span标签里面有很多a标签,可以 for i in span.find_all('a', href='/t/415664')继续筛选
  print span.find('a')['href'].encode('utf-8') #获取href属性,在bs4里,我们可以通过[attribute_name]的方式来获取元素的属性

转载于:https://www.cnblogs.com/kaibindirver/p/9927297.html

beautifulsoup 基本语法相关推荐

  1. [Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  2. Python使用BeautifulSoup简单实现爬取妹子mm图片--初级篇

    先来个效果截图(屈服在我的淫威之下吧!坏坏...嘿0.0) 因为是简易版而且是自己写着玩玩而已,自己也刚学,亦是笔记亦是分享,大佬轻喷就好.主要目的是希望更多人能够体验爬取一些seqing图片的 快乐 ...

  3. 3.网页信息解析方法:Xpath与BeautifulSoup

    1.BeautifulSoup基本语法 BeautifulSoup只要字符串,它都可以识别,只要你的字符串的格式是HTML或者XML文档就可以 from bs4 import BeautifulSou ...

  4. python简单爬虫程序分析_[Python专题学习]-python开发简单爬虫

    掌握开发轻量级爬虫,这里的案例是不需要登录的静态网页抓取.涉及爬虫简介.简单爬虫架构.URL管理器.网页下载器(urllib2).网页解析器(BeautifulSoup) 一.爬虫简介以及爬虫的技术价 ...

  5. Python开发爬虫之理论篇

    爬虫简介 爬虫:一段自动抓取互联网信息的程序. 什么意思呢? 互联网是由各种各样的网页组成.每一个网页对应一个URL,而URL的页面上又有很多指向其他页面的URL.这种URL之间相互的指向关系就形成了 ...

  6. [Python从零到壹] 四十一.图像处理基础篇之图像采样处理

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  7. [Python从零到壹] 三十七.图像处理基础篇之图像融合处理和ROI区域绘制

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  8. [Python从零到壹] 三十五.图像处理基础篇之OpenCV绘制各类几何图形

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  9. [Python从零到壹] 十四.机器学习之分类算法五万字总结全网首发(决策树、KNN、SVM、分类对比实验)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  10. [Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发(K-Means、BIRCH、树状聚类、MeanShift)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

最新文章

  1. 登陆sqlserver及修改端口号
  2. 基于FFmpeg和Android的音视频同步播放实现
  3. 洛谷 - P2472 [SCOI2007]蜥蜴(最大流)
  4. 看完此文章若你还不能完美的入门Python,我将永远退出IT界
  5. 2016OSC源创会年终盛典-架构与数据专场-杨亮
  6. 社区团购如今进行得如火如荼
  7. 中国绝缘胶带市场趋势报告、技术动态创新及市场预测
  8. python 拼音识别_Python_语音合成
  9. Aoite 系列(01) - 比 Dapper 更好用的 ORM
  10. IE9 pinned sites for Win7
  11. 禾川plc编程软件_禾川PLC编程软件下载|HCP Works(禾川PLC编程软件) V2.26.01.92012 官方最新版 下载_当下软件园_软件下载...
  12. 使用matlab设计iir滤波器并自行编写代码实现iir滤波器(可对应于C语言应用在嵌入式系统中)
  13. ASP页面中文乱码,已解决!!
  14. 专业词汇扫盲:MRR(Mean reciprocal rank) ,long-tail,link prediction
  15. 机房收费系统(一)可行性研究报告
  16. 106、七氟丙烷灭火系统的灭火机理
  17. 京东价格监控软件开发技术探讨十四:电商领域区块链融合模式采集的探讨
  18. ppwjs之bootstrap文字排版:kbd元素(键盘格式元素)
  19. Spring Cloud底层原理以及项目实战分析
  20. java模拟三人爬山_java笔记——模拟多人徒步爬山例子

热门文章

  1. 计算机网络物理层之数字传输系统
  2. Linux硬链接与软链接的区别
  3. 杭州电子科技大学考研经验贴
  4. java 输入输出 函数对象构造
  5. 如何实现不同vlan,不同网关的终端间的通信
  6. Flutter之Dialog使用和踩坑
  7. SpringFramework核心技术一(IOC:详细的依赖和配置)
  8. 浅谈SaaS应用开发的难度
  9. 首个 Ubuntu 平板将于今年秋天面世
  10. 和is哪个好_眼霜哪个牌子好用?这些品牌的眼霜睡前涂一涂,黑眼圈细纹没有了...