Python简单爬取蚂蚁窝首页的图片
我的第一个python爬虫。
根据博文Python实现简单爬虫功能
import urllib
import urllib2
import redef getHtml(url):page = urllib.urlopen(url)html = page.read()return html
def getImag(html):reg = r'src="(.+?)"'imgre = re.compile(reg)imglist = re.findall(imgre, html)x = 0url = "/Users/userName/Desktop/python/"for imagurl in imglist:urllib.urlretrieve(imagurl,url+'%s' % x)x+=1return imglist
html = getHtml("http://www.mafengwo.cn/")
print getImag(html)
getHtml()方法也可以是这样写
def getHtml(url):request = urllib2.Request(url)response = urllib2.urlopen(request)html = response.read()return html
Python简单爬取蚂蚁窝首页的图片相关推荐
- (55)-- 简单爬取人人网个人首页信息
# 简单爬取人人网个人首页信息 from urllib import requestbase_url = 'http://www.renren.com/964943656' headers = {&q ...
- Python简单爬取电影磁力链接
Python简单爬取电影磁力链接 网页的链接:http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html 打开你想要的电影:http://www.ygdy8. ...
- Python爬虫-爬取快看漫画网图片并拼接成漫画长图
Python爬虫-爬取快看漫画网图片并拼接成漫画长图 1.爬取图片 2.拼接图片 1.爬取图片 import os import requests from bs4 import BeautifulS ...
- python编程100例头条-python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
- 读书笔记(十)——python简单爬取企查查网企业信息,并以excel格式存储
2019独角兽企业重金招聘Python工程师标准>>> 今天这个小爬虫是应朋友,帮忙写的一个简单的爬虫,目的是爬取企查查这个网站的企业信息. 编程最终要的就是搭建编程环境,这里我们的 ...
- python 爬取企业注册信息_读书笔记(十)——python简单爬取企查查网企业信息,并以excel格式存储...
今天这个小爬虫是应朋友,帮忙写的一个简单的爬虫,目的是爬取企查查这个网站的企业信息. 编程最终要的就是搭建编程环境,这里我们的编程环境是: python3.6 BeautifulSoup模块 lxml ...
- Python简单爬取起点中文网小说(仅学习)
目录 前言 一.爬虫思路 二.使用步骤 1.引入库 2.读取页面 3.分析HTML 3.从标签中取出信息 4.爬取正文 总结 前言 实习期间自学了vba,现在开始捡回以前上课学过的python,在此记 ...
- python简单爬取斗图图片(自学第十天)
一.前期准备 (一).我们要爬取的页面 1,我们要爬取的网站为:https://www.doutula.com/photo/list/?page=1 2,获取请求头,来模拟浏览器浏览,不让网站直接就暴 ...
- Python简单爬取图书信息及入库
课堂上老师布置了一个作业,如下图所示: 就是简单写一个借书系统. 大概想了一下流程,登录-->验证登录信息-->登录成功跳转借书界面-->可查看自己的借阅书籍以及数量... 登录可以 ...
- 七、Python简单爬取学堂在线合作院校页面内容
这是一个大学生的爬虫作业,我是收钱干活的,比较简单,来过来分享一下. 就是要爬取到合作院校的名称及该所院校在学堂在线开课的数量,将爬取到的数据保存到一个json文件中!例如:"{" ...
最新文章
- 全球 Top 1000 计算机科学家 h 指数公布,中国顶尖计算机科学家人数进入前三
- C#中使用WebClient下载指定url的网络照片
- 记录一个自动创建分区的脚本
- redis源码剖析(十五)——客户端思维导图整理
- Spring 框架基础(02):Bean的生命周期,作用域,装配总结
- mysql返回对象_使用mysql_fetch_object()以对象的形式返回查询结果
- 20. 包含min函数的栈
- Kafka HWLEO概念入门
- 游戏必要的清屏实现以及闪烁原因的详细解释
- 卫星轨道的计算是利用计算机的,轨道计算
- bing搜索崩溃无法访问?别慌,我来教你各大搜索引擎的选择
- CCF计算机职业资格认证数字排序问题
- PHP登入网站抓取并且抓取数据
- HCL Nomad for Web 1.0.3发布
- matlab模拟光栅,用MATLAB模拟正弦光栅的衍射
- Linux之关于文本编辑器
- oppo测试面经汇总,来自牛客网
- 51proteus仿真:生成方波、正弦波、锯齿波和三角波
- 最全的免费OA试用地址
- 解决因nginx配置导致文件上传失败的问题 The filed file exceeds its maximum permitted size of 1048576 bytes