# -*- coding: UTF-8 -*-
# python2爬虫
import urllibf = urllib.urlopen("http://www.itcast.cn/")
print f.readline()  # 读取html页面的第一行
print f.read()  # ,读取源代码,该网址源代码为utf-8格式
# read(),readline(),readlines(),fileno(),close(),这些使用方法与文件对象完全一样
print f.info()  # 获取网页所在服务器的头部信息
print f.getcode()  # 获取网页状态码
print f.geturl()  # 返回请求的url
f.close()  # 打开文件后,记得一定关闭防止内存没有回收,后果不堪回想print urllib.urlopen('http://www.itcast.cn/23644657dafhgsg').getcode()
# 网页状态码
# 200正常访问 301重定向
# 302临时重定向(不常见) 404网页不存在 403禁止访问  500服务器忙,无响应,过会才行
# HTTP权威指南,专门介绍http协议,Web开发和服务器端开发方向必备url = 'http://www.163.com/'
html = urllib.urlopen(url)  # 打开网页
print html.read().decode('gbk').encode('utf-8')  # 该网址源代码格式是gb2312,全部统一成gbk,然后再转化为utf-8格式
print html.read().decode('gbk','ignore').encode('utf-8')#当一些小网站编码混乱不规范时,可用'ignore'来帮助解决
# 总结
# urllib 简单易用的抓取模块
# urllib.urlopen()方法,获得类文件对象
# read()读取文件内容
# info()获取网页Header信息
# getcode()获取网页状态码
# geturl()获取传入的网址urlf = urllib.urlopen('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG')
print f.getcode()  # 查看是否能打开
print f.readline()  # 图片的内容看不懂
f.close()
# urlretrieve方法将url定位到的html文件下载到你的本地硬盘中。如果不指定filename,则会存为临时文件。
urllib.urlretrieve('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG', filename='D:\pachong\worm1.jpg')
url = "http://www.itcast.cn/"
urllib.urlretrieve(url, 'D:\\pachong\\download.txt')  # 网页抓取,下载网页(也可以将txt格式转成html)
urllib.urlretrieve(url, 'D:\\pachong\\download.html')

  

转载于:https://www.cnblogs.com/tianqizhi/p/8528033.html

爬虫1_python2相关推荐

  1. html,xml_网页开发_爬虫_笔记

    20220402 笔记本走手机热点,重连之后又是另一个ip 20220331 https://mp.weixin.qq.com/s/znXuCB0Fl32TbP_0UaO6SQ 爬虫相关知识快速复习 ...

  2. Python 爬虫框架Scrapy安装汇总

    传统方式安装Scrapy(慎用) 练习了基本的操作之后,当然就要找框架来进行爬虫实验啊.于是就在网上找Windows 64安装Scrapy的方法,查到的都是非常繁琐的安装方式,由于Scrapy有很多个 ...

  3. Python:爬虫框架Scrapy的安装与基本使用

    一.简单实例,了解基本. 1.安装Scrapy框架 这里如果直接pip3 install scrapy可能会出错. 所以你可以先安装lxml:pip3 install lxml(已安装请忽略). 安装 ...

  4. Python:从零搭建Redis-Scrapy分布式爬虫

    Scrapy-Redis分布式策略: 假设有四台电脑:Windows 10.Mac OS X.Ubuntu 16.04.CentOS 7.2,任意一台电脑都可以作为 Master端 或 Slaver端 ...

  5. Python案例:使用XPath的爬虫

    案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # tieba_xpath.py#!/usr/b ...

  6. Python案例:使用正则表达式的爬虫

    案例:使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/ ...

  7. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  8. python爬虫之Scrapy框架的post请求和核心组件的工作 流程

    python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...

  9. Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党

    Rstudio 爬虫 文本分词个性化词云设计 目录 1.环境准备,加载依赖 2.rvest 爬虫,数据爬取 3.jiebaR用于分词,词频统计 4.wordcloud2 结果可视化 ========= ...

最新文章

  1. 多平台Gstreamer Multiplatform
  2. 防火墙连接的三个端口
  3. APUE(第五章)标准IO
  4. git 使用详解(8)-- tag打标签
  5. java文件读写操作大全
  6. 博士生创新能力的培养点滴
  7. 三国志、英雄无敌玩腻了?没关系,我教你开发个战旗游戏玩玩
  8. Java设计模式、框架、架构、平台之间的关系
  9. 201671010144 2016-2017 《java程序设计》--对象与类!
  10. MVC 从客户端中检测到有潜在危险的 Request.Form 值
  11. Stanford Parser的学习之开篇(一)
  12. 经验总结:完整做完一款游戏需要经历哪些流程?
  13. 基于51单片机的秒表设计
  14. Qt编写地图综合应用12-路线查询
  15. 如何同时打开两个excel窗口
  16. 我经历的IT公司面试及离职感受
  17. NU Virgos(圣女天团)
  18. Tableau权限设置方法
  19. 使用R/qtl进行QTL分析
  20. 学习Unity3D之探照灯效果和相机跟随。

热门文章

  1. 使用Eclipse进行PHP的服务器端调试
  2. cassandra本地连接失败_无法连接到本地Cassandra实例?
  3. linux vim分屏函数,Linux学习笔记之十二————vim编辑器的分屏操作
  4. 初始化mysql的数据库失败_初始化mysql的数据库失败怎么办
  5. 子网掩码及网络号路由表的匹配方法
  6. u9系统的使用方法仓库_新风系统如何使用 新风系统使用方法介绍【图文】
  7. model存储 swift_Swift语言IOS8开发战记10.Data Model
  8. 疾风之刃的最新服务器,疾风之刃6月16日数据互通公告 数据互通服务器查询介绍...
  9. http 文件服务器 性能测试,Http File Server
  10. python scrapy框架爬虫_Scrapy爬虫框架教程(一)-- Scrapy入门