python span 抓取_python – Beautifulsoup获取span内容
我已经解析了html页面:使用beautifulsoup
user_page = urllib2.urlopen(user_url)
souping_page = bs(user_page)
badges = souping_page.body.find('div', attrs={'class': 'badges'})
在此之后我的徽章对象看起来像这样:
93856
现在我想从中提取示例9金徽章,38个银徽章,我试图使用badges.span.span但这不起作用.
解决方法:
从徽章获取父级跨度,使用带有recursive = False的find_all()查找内部的所有顶级跨度:
from bs4 import BeautifulSoup
page = """
9
38
56
"""
soup = BeautifulSoup(page)
badges = soup.body.find('div', attrs={'class': 'badges'})
for span in badges.span.find_all('span', recursive=False):
print span.attrs['title']
打印:
9 gold badges
38 silver badges
56 bronze badges
希望有所帮助.
标签:python,html-parsing,beautifulsoup,html
python span 抓取_python – Beautifulsoup获取span内容相关推荐
- python爬虫之js链接跳转抓取_Python爬虫获取页面所有URL链接过程详解
如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...
- python层级抓取_python实现提取str字符串/json中多级目录下的某个值
字符串多级目录取值: 比如说: 你response接收到的数据是这样的. 你现在只需要取到itemstring 这个字段下的值.其他的都不要! 思路就是:字符串是个json格式(或转为json格式), ...
- python获取子进程返回值_Python 从subprocess运行的子进程中实时获取输出的例子 Python如何抓取程序的输出?...
关于python中用subprocess调用exe子进程的问题不懂我的人有什么资格对我指指点点,不了解我的人凭什么对我说三道四的. python杀死子进程后继续执行后面程序 程序a(python写成) ...
- 如何用python爬股票数据_python爬虫股票数据,如何用python 爬虫抓取金融数据
Q1:如何用python 爬虫抓取金融数据 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为 ...
- python爬虫app步骤_Python爬虫抓取手机APP的传输数据,python爬虫抓取app
Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...
- python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...
python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07
- python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片
成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...
- python Web抓取(一)[没写完]
需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML ...
- python数据抓取
python数据抓取 一.页面分析 二.网页抓取方法 1.正则表达式方法 2.BeautifulSoup 模块 3.lxml 模块 4.各方法的对比总结 三.Xpath选择器 四.CSS选择器 五.数 ...
- Python爬虫抓取论文引用量
Python爬虫抓取论文引用量 目录 Python爬虫抓取论文引用量 1 平台情况介绍 2 爬虫抓取引用量 2.1 正则表达式匹配 2.2 循环获取数据 2.3 数据保存 3 完整代码 1 平台情况介 ...
最新文章
- linux rabbitmq 安装之后无法访问15672
- (0060)iOS开发之iOS 9: UIStackView入门
- c mysql 连接实例_c连接mysql数据库实例
- 在Dll中创建对话框并调用
- python read函数菜鸟_关于python的菜鸟问题
- 你知道WPF与WinForms的区别吗?
- Springmvc拦截所有html和Controller,实现未登录则返回登录页,已登录则可以访问需要登录的页面。
- python - EDA - 1 统计缺失值
- 总结-Linux基础指令
- eslint 规则中文注释
- 多益网络 2016 春季实习校招笔试回顾(C++游戏后台)
- Software--Architecture--SOA Factory
- 《一切皆是映射:代码的本质》哈希算法 (Hash)
- [原创]完美开启Win8中管理员Administrator帐户
- 下载faceScrub人脸数据库 (多线程版本)
- php cdr,cdr文件用什么打开
- 闲聊一下android 3D 网络游戏
- superset详解(二)--sql工具箱
- 通过Navicat for MySQL导入数据时,日期时间错误问题解决办法
- Socket网络编程精讲
热门文章
- python如何去除文本标点符号_python中如何去除标点符号
- 蓝牙耳机品牌排行榜,连接稳定的四款蓝牙耳机分享
- 软件建模与分析--共享单车管理系统
- Codecademy-中文JavaScript系列教程-Function
- 设计logo原来这么简单
- SkyWalking8.7源码解析(三):静态方法插桩、构造器和实例方法插桩、插件拦截器加载流程、JDK类库插件工作原理
- mysql 校对规则_MySQL:校对规则
- Entity FrameWork Core使用 Include查询关联数据以及机理。
- NTFS与FAT 32的区别
- 校招网工面试经历(持续更新)