本文用一个简单的例子说明如何用python进行爬虫。

  • python 2.7.5
  • Ubuntu 14.04

所需的python库

  • urllib:用来抓取和解析网页
  • re:处理正则表达式

代码块

  • 下面的例子是用python爬虫获取某网页的图片,并保存到本地
import urllib
import re
import osdef getHtml(url):page = urllib.urlopen(url)html = page.read()return htmldef getImg(html):reg = r'src="(.+?\.jpg)" pic_ext'imgre = re.compile(reg)imglist = re.findall(imgre, html)# save the pics to a new folder.os.mkdir('pics')local = os.getcwd() + '/pics/'x = 0for imgurl in imglist:urllib.urlretrieve(imgurl, local + '%s.jpg' % x)x += 1html = getHtml("http://tieba.baidu.com/p/2460150866")print getImg(html)
  • 对正则表达式不熟悉的话可以学习一下相关知识
  • 运行该程序后会在pics目录下看到下载好的jpg图片

源文件在这里

  • python爬虫的功能很强大,可以根据所需信息的不同对正则表达式进行修改
  • 对爬取的数据可以依据数据挖掘的方式进行处理
  • 源文件

python爬虫实例相关推荐

  1. python爬虫实例-记录一次简单的Python爬虫实例

    本次的这篇文章主要是和大家分享了一篇关于记录一次简单的Python爬虫实例 ,有需要的小伙伴可以看一下. 主要流程分为: 爬取.整理.存储 1.其中用到几个包,包括 requests 用于向网站发送请 ...

  2. Python爬虫实例--新浪热搜榜[xpath语法]

    Python爬虫实例--新浪热搜榜[xpath语法] 1.基础环境配置: requests-->版本:2.12.4 lxml-->版本:3.7.2 2.网页分析 很容易从html源码中看到 ...

  3. Python爬虫实例--新浪热搜榜[正则表达式]

    Python爬虫实例--新浪热搜榜[正则表达式] 1.基础环境配置: requests-->版本:2.12.4 re-->:Python自带,无需安装 2.网页分析 很容易从html源码中 ...

  4. python爬虫进阶案例,Python进阶(二十)-Python爬虫实例讲解

    #Python进阶(二十)-Python爬虫实例讲解 本篇博文主要讲解Python爬虫实例,重点包括爬虫技术架构,组成爬虫的关键模块:URL管理器.HTML下载器和HTML解析器. ##爬虫简单架构 ...

  5. Python爬虫实例(3)--BeautifulSoup的CSS选择器

    Python爬虫实例 紧接着上一讲的内容. 我们初步了解了bs4这个解析库. 但是bs4难道只有find,find_all了吗? 如果层次比较深,相似的元素比较多,和可能会写的比较长. 最主要的是很难 ...

  6. python爬虫实例教程之豆瓣电影排行榜--python爬虫requests库

    我们通过requests库进行了简单的网页采集和百度翻译的操作,这一节课我们继续进行案例的讲解–python爬虫实例教程之豆瓣电影排行榜,这次的案例与上节课案例相似,同样会涉及到JSON模块,异步加载 ...

  7. Python爬虫实例 wallhaven网站高清壁纸爬取。

    文章目录 Python爬虫实例 wallhaven网站高清壁纸爬取 一.数据请求 1.分析网页源码 2.全网页获取 二.数据处理 1.提取原图所在网页链接 2.获取高清图片地址及title 三.下载图 ...

  8. python爬虫实例之——多线程爬取小说

    之前写过一篇爬取小说的博客,但是单线程爬取速度太慢了,之前爬取一部小说花了700多秒,1秒两章的速度有点让人难以接受. 所以弄了个多线程的爬虫. 这次的思路和之前的不一样,之前是一章一章的爬,每爬一章 ...

  9. 饱暖思淫欲之美女图片的Python爬虫实例(二)

    美女图片的Python爬虫实例:面向服务器版 ==该爬虫面向成年人且有一定的自控能力(涉及部分性感图片,仅用于爬虫实例研究)== 前言 初始教程 存在问题 解决思路 目标 实现步骤 硬件配置 服务器信 ...

  10. Python爬虫实例(1)--requests的应用

    Python爬虫实例(1) 我们在接下来的爬虫实例(1)里面将逐步的循序渐进的介绍爬虫的各个步骤. 已及时用到的工具,以及具体情况下的用法. 我们的任务是这样的: 爬取<修真聊天群>小说的 ...

最新文章

  1. devmem 实际应用到 驱动中 通用接口
  2. 微信公众号,商城开发
  3. Java直接内存与非直接内存性能测试
  4. python-类方法和属性
  5. 必知!4张图看尽AI发展史重大里程碑
  6. java使用httpclient封装post请求和get的请求
  7. html语言pre,【已解决】html代码中用pre还是code表示程序代码以及如何指定代码的语音种类...
  8. Java网上商城系统_JavaWeb源码网上商城系统
  9. python查询电脑序列号 CPU、主板、硬盘、MAC、BIOS
  10. Shiro教程及案例
  11. FILD FLD FSTP
  12. python游戏计分代码_Python笔试题之设计“跳一跳”小游戏计分器
  13. linux脚本 加密失效,shell脚本加密(使用shc)
  14. rsync报错:rsync: chgrp .hejian.txt.D1juHb (in backup) failed: Operation not permitted (1)
  15. 京东笔试——神奇数 【题目描述】东东在一本古籍上看到有一种神奇数,如果能够将一个数的数字分成两组,其中一组数字的和 等于另一组数字的和,我们就将这个数称为神奇数。例如 242 就是一个神奇数,我们能够
  16. 安徽工贸职业技术学院计算机比赛,放飞青春,不负韶华!《追梦》——安徽工贸职业技术学院2019年宣传片...
  17. 智明星通 CEO 唐彬森:创业过程中的几笔学费
  18. 23-1-18 PDManer 工具
  19. Linux配置team
  20. 录音文件怎么转文字 手机便签里的录音文字转换方法

热门文章

  1. fs2410开发板搭建网站服务器,FS2410开发板使用步骤
  2. Windows 10中无需禁用强制驱动签名检测加载驱动
  3. editplus显示FTP服务器连接,EditPlus3 FTP 设置对话框
  4. NumberFormat和DecimalFormat
  5. gedit文本编辑器
  6. Linux系统开发: 学习Linux下网络编程
  7. dnf mysql数据库密码,MYSQL8在CentOS8环境中的安装过程(DNF/YUM)
  8. 欧姆龙PLC 通过CJ1W-EIP21实现在线编程
  9. 说下我自己对空号检测的理解跟心得
  10. Windows绘图基础