beautifulsoup 基本语法
案例一:
#coding=utf-8
import json
import requests
from bs4 import BeautifulSoup
url = 'http://www.itest.info/courses' # 定义被抓取页面的url
soup = BeautifulSoup(requests.get(url).text, 'html.parser')# 获取被抓取页面的html代码(注意这里是用 request框架获取的页面源码),并使用html.parser来实例化BeautifulSoup,属于固定套路
for course in soup.find_all('h4'):# 遍历页面上所有的h4标签
print course.text.encode('utf-8')# 打印出h4标签的text字符 如: 测试开发--试验班
print course # 打印出h4的text字符加标签 如:<h4>测试开发--试验班</h4>
案例二:
图例:
url = 'https://www.v2ex.com/'
soup = BeautifulSoup(requests.get(url).text, 'html.parser')
for span in soup.find_all('span', class_='item_hot_topic_title'):#查找span标签 且样式为class_='item_hot_topic_title',注意是class_
,不是class
,因为class是python的关键字,所以后面要加个尾巴,防止冲突
print span.find('a').text.encode('utf-8')#获取里面的a标签展示,假如span标签里面有很多a标签,可以 for i in span.find_all('a', href='/t/415664')继续筛选
print span.find('a')['href'].encode('utf-8') #获取href属性,在bs4里,我们可以通过[attribute_name]的方式来获取元素的属性
转载于:https://www.cnblogs.com/kaibindirver/p/9927297.html
beautifulsoup 基本语法相关推荐
- [Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- Python使用BeautifulSoup简单实现爬取妹子mm图片--初级篇
先来个效果截图(屈服在我的淫威之下吧!坏坏...嘿0.0) 因为是简易版而且是自己写着玩玩而已,自己也刚学,亦是笔记亦是分享,大佬轻喷就好.主要目的是希望更多人能够体验爬取一些seqing图片的 快乐 ...
- 3.网页信息解析方法:Xpath与BeautifulSoup
1.BeautifulSoup基本语法 BeautifulSoup只要字符串,它都可以识别,只要你的字符串的格式是HTML或者XML文档就可以 from bs4 import BeautifulSou ...
- python简单爬虫程序分析_[Python专题学习]-python开发简单爬虫
掌握开发轻量级爬虫,这里的案例是不需要登录的静态网页抓取.涉及爬虫简介.简单爬虫架构.URL管理器.网页下载器(urllib2).网页解析器(BeautifulSoup) 一.爬虫简介以及爬虫的技术价 ...
- Python开发爬虫之理论篇
爬虫简介 爬虫:一段自动抓取互联网信息的程序. 什么意思呢? 互联网是由各种各样的网页组成.每一个网页对应一个URL,而URL的页面上又有很多指向其他页面的URL.这种URL之间相互的指向关系就形成了 ...
- [Python从零到壹] 四十一.图像处理基础篇之图像采样处理
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- [Python从零到壹] 三十七.图像处理基础篇之图像融合处理和ROI区域绘制
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- [Python从零到壹] 三十五.图像处理基础篇之OpenCV绘制各类几何图形
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- [Python从零到壹] 十四.机器学习之分类算法五万字总结全网首发(决策树、KNN、SVM、分类对比实验)
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- [Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发(K-Means、BIRCH、树状聚类、MeanShift)
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
最新文章
- 登陆sqlserver及修改端口号
- 基于FFmpeg和Android的音视频同步播放实现
- 洛谷 - P2472 [SCOI2007]蜥蜴(最大流)
- 看完此文章若你还不能完美的入门Python,我将永远退出IT界
- 2016OSC源创会年终盛典-架构与数据专场-杨亮
- 社区团购如今进行得如火如荼
- 中国绝缘胶带市场趋势报告、技术动态创新及市场预测
- python 拼音识别_Python_语音合成
- Aoite 系列(01) - 比 Dapper 更好用的 ORM
- IE9 pinned sites for Win7
- 禾川plc编程软件_禾川PLC编程软件下载|HCP Works(禾川PLC编程软件) V2.26.01.92012 官方最新版 下载_当下软件园_软件下载...
- 使用matlab设计iir滤波器并自行编写代码实现iir滤波器(可对应于C语言应用在嵌入式系统中)
- ASP页面中文乱码,已解决!!
- 专业词汇扫盲:MRR(Mean reciprocal rank) ,long-tail,link prediction
- 机房收费系统(一)可行性研究报告
- 106、七氟丙烷灭火系统的灭火机理
- 京东价格监控软件开发技术探讨十四:电商领域区块链融合模式采集的探讨
- ppwjs之bootstrap文字排版:kbd元素(键盘格式元素)
- Spring Cloud底层原理以及项目实战分析
- java模拟三人爬山_java笔记——模拟多人徒步爬山例子