我的第一个python爬虫。
根据博文Python实现简单爬虫功能

import urllib
import urllib2
import redef getHtml(url):page = urllib.urlopen(url)html = page.read()return html
def getImag(html):reg = r'src="(.+?)"'imgre = re.compile(reg)imglist = re.findall(imgre, html)x = 0url = "/Users/userName/Desktop/python/"for imagurl in imglist:urllib.urlretrieve(imagurl,url+'%s' % x)x+=1return imglist
html = getHtml("http://www.mafengwo.cn/")
print getImag(html)

getHtml()方法也可以是这样写

def getHtml(url):request = urllib2.Request(url)response = urllib2.urlopen(request)html = response.read()return html

Python简单爬取蚂蚁窝首页的图片相关推荐

  1. (55)-- 简单爬取人人网个人首页信息

    # 简单爬取人人网个人首页信息 from urllib import requestbase_url = 'http://www.renren.com/964943656' headers = {&q ...

  2. Python简单爬取电影磁力链接

    Python简单爬取电影磁力链接 网页的链接:http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html 打开你想要的电影:http://www.ygdy8. ...

  3. Python爬虫-爬取快看漫画网图片并拼接成漫画长图

    Python爬虫-爬取快看漫画网图片并拼接成漫画长图 1.爬取图片 2.拼接图片 1.爬取图片 import os import requests from bs4 import BeautifulS ...

  4. python编程100例头条-python 简单爬取今日头条热点新闻(一)

    今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

  5. 读书笔记(十)——python简单爬取企查查网企业信息,并以excel格式存储

    2019独角兽企业重金招聘Python工程师标准>>> 今天这个小爬虫是应朋友,帮忙写的一个简单的爬虫,目的是爬取企查查这个网站的企业信息. 编程最终要的就是搭建编程环境,这里我们的 ...

  6. python 爬取企业注册信息_读书笔记(十)——python简单爬取企查查网企业信息,并以excel格式存储...

    今天这个小爬虫是应朋友,帮忙写的一个简单的爬虫,目的是爬取企查查这个网站的企业信息. 编程最终要的就是搭建编程环境,这里我们的编程环境是: python3.6 BeautifulSoup模块 lxml ...

  7. Python简单爬取起点中文网小说(仅学习)

    目录 前言 一.爬虫思路 二.使用步骤 1.引入库 2.读取页面 3.分析HTML 3.从标签中取出信息 4.爬取正文 总结 前言 实习期间自学了vba,现在开始捡回以前上课学过的python,在此记 ...

  8. python简单爬取斗图图片(自学第十天)

    一.前期准备 (一).我们要爬取的页面 1,我们要爬取的网站为:https://www.doutula.com/photo/list/?page=1 2,获取请求头,来模拟浏览器浏览,不让网站直接就暴 ...

  9. Python简单爬取图书信息及入库

    课堂上老师布置了一个作业,如下图所示: 就是简单写一个借书系统. 大概想了一下流程,登录-->验证登录信息-->登录成功跳转借书界面-->可查看自己的借阅书籍以及数量... 登录可以 ...

  10. 七、Python简单爬取学堂在线合作院校页面内容

    这是一个大学生的爬虫作业,我是收钱干活的,比较简单,来过来分享一下. 就是要爬取到合作院校的名称及该所院校在学堂在线开课的数量,将爬取到的数据保存到一个json文件中!例如:"{" ...

最新文章

  1. 全球 Top 1000 计算机科学家 h 指数公布,中国顶尖计算机科学家人数进入前三
  2. C#中使用WebClient下载指定url的网络照片
  3. 记录一个自动创建分区的脚本
  4. redis源码剖析(十五)——客户端思维导图整理
  5. Spring 框架基础(02):Bean的生命周期,作用域,装配总结
  6. mysql返回对象_使用mysql_fetch_object()以对象的形式返回查询结果
  7. 20. 包含min函数的栈
  8. Kafka HWLEO概念入门
  9. 游戏必要的清屏实现以及闪烁原因的详细解释
  10. 卫星轨道的计算是利用计算机的,轨道计算
  11. bing搜索崩溃无法访问?别慌,我来教你各大搜索引擎的选择
  12. CCF计算机职业资格认证数字排序问题
  13. PHP登入网站抓取并且抓取数据
  14. HCL Nomad for Web 1.0.3发布
  15. matlab模拟光栅,用MATLAB模拟正弦光栅的衍射
  16. Linux之关于文本编辑器
  17. oppo测试面经汇总,来自牛客网
  18. 51proteus仿真:生成方波、正弦波、锯齿波和三角波
  19. 最全的免费OA试用地址
  20. 解决因nginx配置导致文件上传失败的问题 The filed file exceeds its maximum permitted size of 1048576 bytes

热门文章

  1. long类型保留两位小数_Java保留两位小数的几种写法总结
  2. React-笔记整理
  3. hadoop集群安装配置Kerberos(二):搭建kerberos基础环境(主从kdc)
  4. 【CI/CD】详解自动化开发之CI/CD(持续集成、持续交付、持续部署)
  5. 华为认证网络工程师培训教程集
  6. linux系统图形界面
  7. java购物结算_Java编写网上超市购物结算功能程序
  8. 会话管理:Cookie和Session
  9. DNS 工作原理是什么,域名劫持、域名欺骗、域名污染又是什么
  10. 程序集(dll) 安装到 GAC 程序集添加到VS引用开窗(转)