我已经解析了html页面:使用beautifulsoup

user_page = urllib2.urlopen(user_url)

souping_page = bs(user_page)

badges = souping_page.body.find('div', attrs={'class': 'badges'})

在此之后我的徽章对象看起来像这样:

93856

现在我想从中提取示例9金徽章,38个银徽章,我试图使用badges.span.span但这不起作用.

解决方法:

从徽章获取父级跨度,使用带有recursive = False的find_all()查找内部的所有顶级跨度:

from bs4 import BeautifulSoup

page = """

9

38

56

"""

soup = BeautifulSoup(page)

badges = soup.body.find('div', attrs={'class': 'badges'})

for span in badges.span.find_all('span', recursive=False):

print span.attrs['title']

打印:

9 gold badges

38 silver badges

56 bronze badges

希望有所帮助.

标签:python,html-parsing,beautifulsoup,html

python span 抓取_python – Beautifulsoup获取span内容相关推荐

  1. python爬虫之js链接跳转抓取_Python爬虫获取页面所有URL链接过程详解

    如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  2. python层级抓取_python实现提取str字符串/json中多级目录下的某个值

    字符串多级目录取值: 比如说: 你response接收到的数据是这样的. 你现在只需要取到itemstring 这个字段下的值.其他的都不要! 思路就是:字符串是个json格式(或转为json格式), ...

  3. python获取子进程返回值_Python 从subprocess运行的子进程中实时获取输出的例子 Python如何抓取程序的输出?...

    关于python中用subprocess调用exe子进程的问题不懂我的人有什么资格对我指指点点,不了解我的人凭什么对我说三道四的. python杀死子进程后继续执行后面程序 程序a(python写成) ...

  4. 如何用python爬股票数据_python爬虫股票数据,如何用python 爬虫抓取金融数据

    Q1:如何用python 爬虫抓取金融数据 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为 ...

  5. python爬虫app步骤_Python爬虫抓取手机APP的传输数据,python爬虫抓取app

    Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...

  6. python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...

    python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07

  7. python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片

    成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...

  8. python Web抓取(一)[没写完]

    需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML ...

  9. python数据抓取

    python数据抓取 一.页面分析 二.网页抓取方法 1.正则表达式方法 2.BeautifulSoup 模块 3.lxml 模块 4.各方法的对比总结 三.Xpath选择器 四.CSS选择器 五.数 ...

  10. Python爬虫抓取论文引用量

    Python爬虫抓取论文引用量 目录 Python爬虫抓取论文引用量 1 平台情况介绍 2 爬虫抓取引用量 2.1 正则表达式匹配 2.2 循环获取数据 2.3 数据保存 3 完整代码 1 平台情况介 ...

最新文章

  1. linux rabbitmq 安装之后无法访问15672
  2. (0060)iOS开发之iOS 9: UIStackView入门
  3. c mysql 连接实例_c连接mysql数据库实例
  4. 在Dll中创建对话框并调用
  5. python read函数菜鸟_关于python的菜鸟问题
  6. 你知道WPF与WinForms的区别吗?
  7. Springmvc拦截所有html和Controller,实现未登录则返回登录页,已登录则可以访问需要登录的页面。
  8. python - EDA - 1 统计缺失值
  9. 总结-Linux基础指令
  10. eslint 规则中文注释
  11. 多益网络 2016 春季实习校招笔试回顾(C++游戏后台)
  12. Software--Architecture--SOA Factory
  13. 《一切皆是映射:代码的本质》哈希算法 (Hash)
  14. [原创]完美开启Win8中管理员Administrator帐户
  15. 下载faceScrub人脸数据库 (多线程版本)
  16. php cdr,cdr文件用什么打开
  17. 闲聊一下android 3D 网络游戏
  18. superset详解(二)--sql工具箱
  19. 通过Navicat for MySQL导入数据时,日期时间错误问题解决办法
  20. Socket网络编程精讲

热门文章

  1. python如何去除文本标点符号_python中如何去除标点符号
  2. 蓝牙耳机品牌排行榜,连接稳定的四款蓝牙耳机分享
  3. 软件建模与分析--共享单车管理系统
  4. Codecademy-中文JavaScript系列教程-Function
  5. 设计logo原来这么简单
  6. SkyWalking8.7源码解析(三):静态方法插桩、构造器和实例方法插桩、插件拦截器加载流程、JDK类库插件工作原理
  7. mysql 校对规则_MySQL:校对规则
  8. Entity FrameWork Core使用 Include查询关联数据以及机理。
  9. NTFS与FAT 32的区别
  10. 校招网工面试经历(持续更新)