Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包。

1 Pyhton获取网页的内容(也就是源代码)

page = urllib2.urlopen(url)

contents = page.read()

#获得了整个网页的内容也就是源代码

print(contents)

url代表网址,contents代表网址所对应的源代码,urllib2是需要用到的包,以上三句代码就能获得网页的整个源代码

2 获取网页中想要的内容(先要获得网页源代码,再分析网页源代码,找所对应的标签,然后提取出标签中的内容)

2.1 以豆瓣电影排名为例子

网址是http://movie.douban.com/top250?format=text,进入网址后就出现如下的图

现在我需要获得当前页面的所有电影的名字,评分,评价人数,链接

由上图画红色圆圈的是我想得到的内容,画蓝色横线的为所对应的标签,这样就分析完了,现在就是写代码实现,Python提供了很多种方法去获得想要的内容,在此我使用BeautifulSoup来实现,非常的简单

#coding:utf-8

‘‘‘‘‘

@author: jsjxy

‘‘‘

import urllib2

import re

from bs4 import BeautifulSoup

from distutils.filelist import findall

page = urllib2.urlopen(‘http://movie.douban.com/top250?format=text‘)

contents = page.read()

#print(contents)

soup = BeautifulSoup(contents,"html.parser")

print("豆瓣电影TOP250" + "\n" +" 影片名 评分 评价人数 链接 ")

for tag in soup.find_all(‘div‘, class_=‘info‘):

# print tag

m_name = tag.find(‘span‘, class_=‘title‘).get_text()

m_rating_score = float(tag.find(‘span‘,class_=‘rating_num‘).get_text())

m_people = tag.find(‘div‘,class_="star")

m_span = m_people.findAll(‘span‘)

m_peoplecount = m_span[3].contents[0]

m_url=tag.find(‘a‘).get(‘href‘)

print( m_name+" " + str(m_rating_score) + " " + m_peoplecount + " " + m_url )

控制台输出,你也可以写入文件中

前三行代码获得整个网页的源代码,之后开始使用BeautifulSoup进行标签分析,find_all方法是找到所有此标签的内容,然后在在此标签中继续寻找,如果标签有特殊的属性声明则一步就能找出来,如果没有特殊的属性声明就像此图中的评价人数前面的标签只有一个‘span’那么就找到所有的span标签,按顺序从中选相对应的,在此图中是第三个,所以这种方法可以找特定行或列的内容。代码比较简单,很容易就实现了,如果有什么地方不对,还请大家指出,大家共同学习。

源代码地址:http://download.csdn.net/detail/danielntz/9577390

转自:https://blog.csdn.net/danielntz/article/details/51861168

原文:https://www.cnblogs.com/xisheng/p/9130165.html

python span 抓取_如何用python爬取两个span之间的内容相关推荐

  1. 抖音上学python靠谱吗_如何用Python抓抖音上的小姐姐

    爬虫的案例我们已讲得太多.不过几乎都是 网页爬虫 .即使有些手机才能访问的网站,我们也可以通过 Chrome 开发者工具 的 手机模拟 功能来访问,以便于分析请求并抓取.(比如 3分钟破译朋友圈测试小 ...

  2. python 读取excel图片_如何用Python读取Excel中图片?

    公众号: 早起Python 作者:刘早起 大家好,在使用Python进行办公自动化操作时,一定少不了与Excel表格的交互,我们通常是用pandas处理表格数据,但大多数情况下,都是读取表格中的数值进 ...

  3. 怎么用python读取excel图_如何用Python读取Excel中图片?

    公众号: 早起Python 作者:刘早起 大家好,在使用Python进行办公自动化操作时,一定少不了与Excel表格的交互,我们通常是用pandas处理表格数据,但大多数情况下,都是读取表格中的数值进 ...

  4. python微博涨粉_如何用 Python 让微博热搜榜动起来

    今天教大家如何用 Pyecharts 制作微博热搜榜动态展示视频 先上视频看看效果: 教程主要有2部分: 一是 Python 爬取微博热搜内容 二是用 pyecharts 制作动态视频 下面给大家详细 ...

  5. python爬虫抢火车票_如何用python写一个简单的12306抢票软件|python 爬火车票 教程...

    python 如果抓取验证码图片 类似12306的登录验证码图片 这个以前做次.最大的麻烦是码的识别算法的识别率太低.12306那种网站登陆错3次就限制你20分钟.所以除非你有33%以上的识别率否则不 ...

  6. python 矩阵运算 for循环_如何用 Python 科学计算中的矩阵替代循环

    展开全部 因为在Mathematica中使用循环确实是低效的.32313133353236313431303231363533e78988e69d8331333361313961..... 深层次的原 ...

  7. 用python处理excel表格_如何用python处理excel数据 | 用python处理excel表格数据类型

    python 读取EXCEL文件中的数据格式 扩展库 xlrd 读excle xlwt 写excle 直上搜就能下载 下载后使用 import xlrd 就可以读excle了 打开文件: xls = ...

  8. python selenium爬虫豆瓣_使用selenium+requests爬取豆瓣小组讨论列表

    获取本文代码 · 我的GitHub 注:这个项目的代码会在我的GitHub持续优化.更新,而在本文中的代码则是最初版本的代码. 豆瓣小组 豆瓣有一个"小组"模块,有一些小组中会发布 ...

  9. python爬虫好友图片_用itchat库爬取你所有微信好友的头像,并合成一张大图

    几年前,我们给爸妈手机上下载了一款神奇的软件,他的名字叫微信.几年后,爸妈就开始吐槽我们的微信头像了. 爸妈对我们微信头像的关注程度远胜过我们的衣食住行,我在新浪微博上看到了这张统计图. 图片来源:新 ...

  10. python 登陆淘宝_如何用 Python 自动登录淘宝并保存登录信息?

    原标题:如何用 Python 自动登录淘宝并保存登录信息? 作者 | 猪哥 责编 | 伍杏玲 前段时间时间为大家讲解了如何使用requests库模拟登录淘宝,而今天我们将对该功能进行丰富.所以我们把之 ...

最新文章

  1. 【分块】#6277. 数列分块入门 1(区间修改、单点查询)
  2. 36进12第二场淘汰赛:老牟如何晋级?(视频)
  3. 8-7-Exercise
  4. 集群(cluster)原理(转)
  5. 不就是个短信登录API嘛,有这么复杂吗?
  6. 【若依(ruoyi)】swagger 生成接口文档
  7. 并发工具类(一)等待多线程完成的CountDownLatch
  8. 图像连通域检测的2路算法Code
  9. 客户端是选择Java Swing还是C# Winform
  10. Sleuth则是用来共方便的集成Zipkin。
  11. Linux社区关于链表的bug讨论我们要看一下
  12. java购物车后台_JavaWeb后台购物车类实现代码详解
  13. 开源软件 依赖_新的开源依赖项管理器在场
  14. 偷窥、报复、歧视,Google 为何频发性骚扰事件?
  15. java io面试题_【Java面试】Java常见IO面试题!
  16. TCP 拥塞控制算法
  17. DSA_常用10种算法(java数据结构与算法)
  18. 第二章、音频压缩算法
  19. 从零开始 DIY 智能家居 - 基于 ESP32 的智能语音合成播报模块
  20. 0506-铁矿石跌5%,美股大跌

热门文章

  1. 计算机网络(谢希仁第七版)期末重点
  2. bridge和camera raw
  3. ip地址是计算机设备在网络上的地址,如何查看主机ip 如何查看与自己电脑相连设备的IP地址...
  4. 获取设备Mac地址和IP地址
  5. 2021-2025年中国休闲凉鞋行业市场供需与战略研究报告
  6. 揭秘收入中常见的避税方法
  7. 成长的日记教案计算机,第一单元《成长日记ABC》教学设计
  8. 基于OpenCV的 桌面手机的尺寸测量
  9. 解决gitlab内置node_exporter提供外部prometheus使用
  10. 计算机科学中的哲学思想,冯_诺依曼的计算机科学哲学思想.doc