Python_summary
2024-04-11 21:03:47
Q: python中出现IndentationError:unindent does not match any outer indentation level
A:复制代码的时候容易出现缩进错误,虽然看起来是缩进了,但是实际上没有。可以用Notepad++下的
视图->显示符号->显示空格和制表符 来观察是否缩进
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~简单爬虫python2.7~~~~~~~~~~~~~~~~~~~~~~~~~~
'''
简单爬虫
'''
#encoding:utf-8import urllib
import sys
import re#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获取系统编码格式
type = sys.getfilesystemencoding()
def getHtml(url):page = urllib.urlopen(url)html = page.read().decode('utf-8').encode(type)return htmldef cbk(a,b,c):'''a:已经下载的数据块b:数据块的大小c:远程文件的大小'''per = 100.0*a*b/cif per > 100 :per = 100print '%.2f%%' %per def getImg(html):reg = r'src="(.+?\.jpg)" alt' imgre = re.compile(reg)imglist = re.findall(imgre,html)#x = 0for img in imglist:local = 'c://Users/xujianjun/Desktop/python/x.jpg' #不能只包含路径,必须是路径+文件名urllib.urlretrieve(img,local,cbk) #回调函数定义必须有三个参数,哪怕不需要#x += 1return imglist
html = getHtml("http://www.cnblogs.com/1023linlin/p/8525273.html")
print getImg(html)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
转载于:https://www.cnblogs.com/1023linlin/p/8648499.html
Python_summary相关推荐
- python解析xml读取指定属性_python批量修改xml某些内容和属性
在训练时,有时候需要将jpg格式转换为png格式,顺便也要把jpg标注的xml文件转换为png的xml文件.例如,需要把xml文件中的图像后缀名".jpg"批量去掉,这时候就需要批 ...
- 后缀为labels的文件_txt标注文档转换为labelmg VOC格式的xml标注文件
清理库存8~ #! /usr/bin/python # -*- coding:UTF-8 -*- import os, sys import glob from PIL import Image ## ...
最新文章
- /* * 编程题第四题(20分): 	用1元5角钱人名币兑换5分、2分和1分的硬币(每一种都要有)共一百枚,问共有几种兑换方案?并输出每种方案。 */
- Pytorch使用CPU运行“Torch not compiled with CUDA enabled”
- Office 2007无法修复、卸载、重装
- 通用联手谷歌,应用程序和语音助手将整合到车辆中
- java语言修饰符$_Java语言中的修饰符
- 安装mysql 环境变量_win10系统安装mysql数据库后配置环境变量的图文教程
- linux打开图形化命令,在Linux命令行中以图形化窗口打开文件夹
- Build 2017 | 一文看懂微软 Build 2017 大会:让 AI 走向边缘
- 知识管理在客户关系管理中的应用领域
- git小技巧之分支、关联远程仓库、回滚、解决.gitignore不生效等
- Failed to maintain projects LRU cache for dir *********
- java锁包读写锁_Java并发包7--读写锁ReentrantReadWriteLock的实现原理解析
- 获取移除指定Url参数(原创)
- 轻松背后的N+疲惫——系统日志
- python图形化监控系统界面_手把手教你实现一个可视化爬虫监控系统,酷炫的图形化界面...
- 查看User Profile的名称和显示名称
- LoadRunner11在Win10 下的破解解决办法(整合)
- The working copy needs to be upgraded
- 从零开始学前端 - 3. HTML 常用标签_2
- 解决android repo (git出错的问题)
热门文章
- Android实现程序之间的跳转
- Gentoo 安装日记 18(重新配置网络和设置密码)
- oracle 数据语句优化,oracle 查询语句优化录
- 购买流程图java_Java实现基于控制台的购书系统基本操作
- ransac剔除误匹配matlab代码,基于APAP图像拼接算法的改进
- java 报500该怎么解决_关于servlet500错误 应该怎么解决
- 计算机视觉应用的简称,计算机视觉应用之图像检索任务简单介绍
- dedecms怎么改php版本_Linux下如何安装DedeCMS?
- java 容器 线程_JAVA多线程并发容器
- fiddler弱网测试_移动端质量体系之弱网测试