比如爬我在航电上做过的题目,可以用如下代码:

# ubuntu kylin 14.04
import urllib2import urlliburl="http://acm.hdu.edu.cn/userstatus.php?user=461807914"headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}request = urllib2.Request(url,None,headers)                                                               response = urllib2.urlopen(request)print (response.read())

刚开始写的时候没有那个header,给我弹出个403 forbidden,很是费解。原来有的网站对你发出的请求会进行判断,如果你的请求信息完全,就会接受你的请求。比如发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫。现在可以在发送的信息里面加入一个假的头信息,骗过对方的服务器就可以了。

简单 python 爬虫(一)相关推荐

  1. 简单python爬虫爬取游戏wiki立绘

    简单python爬虫爬取游戏wiki立绘 玩二次元手游是感叹美少女立绘真好看啊,可惜就是抽不到,于是看到b站wiki上有角色立绘,就写了个爬虫准备将立绘趴下来欣赏(舔). 本人爬虫的技术只算是初学,代 ...

  2. 记第一次写出自己的简单python爬虫:GCZW3

    经过差不多一个星期的折腾,当然这其中也有做很多其他事情.周四写出来直接通过浏览器Network找到观察者网评论链接进行的爬虫,今天下午有折腾了差不多一下午,终于通过BeautifulSoup解析出的h ...

  3. 在职爬虫工程师,带给大家超简单 Python 爬虫教程

    本篇 Python 爬虫教程主要讲解以下5部分内容,请按照顺序进行学习. 爬虫概述:介绍什么是爬虫,爬虫的目的和应用. 爬虫基础知识:介绍爬虫的基本概念,例如网络协议,HTML 结构,CSS 样式表等 ...

  4. 十分钟能学会的简单python爬虫

    简单爬虫三步走,So easy~ 本文介绍一个使用python实现爬虫的超简单方法,精通爬虫挺难,但学会实现一个能满足简单需求的爬虫,只需10分钟,往下读吧~ 该方法不能用于带有反爬机制的页面,但对于 ...

  5. 一个简单python爬虫的实现——爬取电影信息

    最近在学习网络爬虫,完成了一个比较简单的python网络爬虫.首先为什么要用爬虫爬取信息呢,当然是因为要比人去收集更高效. 网络爬虫,可以理解为自动帮你在网络上收集数据的机器人. 网络爬虫简单可以大致 ...

  6. python爬取站_简单python爬虫练习 E站本爬取

    必备条件: 一台能上404的机子.. 过程: 由于也只是初学爬虫,个中技巧也不熟练,写的过程中的语法用法参考了很多文档和博客,我是对于当前搜索页用F12看过去..找到每个本子的地址再一层层下去最后下载 ...

  7. 第一个简单Python爬虫:抓取古诗文网中李白的诗歌

    2018年10月11日  这是第一个博客,嘻嘻~~~~ 最近老师给了个任务:爬取诗歌.于是乎,走上了爬虫道路,爬取了李白的诗歌. 感谢代码的原作者(唐诗三百首,源代码). 遇到的问题与收获: 1.熟悉 ...

  8. python爬虫小说代码示例-使用简单Python爬虫获取一个干净整洁的小说文件

    打开小说所在界面,右击选择查看网页源代码 1.在头部能够看到'charset=utf-8'得知文件的编码为'uft-8'!,url=http://www.17k.com/list/2921315.ht ...

  9. 简单python爬虫案例(爬取慕课网全部实战课程信息)

    技术选型 下载器是Requests 解析使用的是正则表达式 效果图: 准备好各个包 # -*- coding: utf-8 -*- import requests #第三方下载器 import re ...

最新文章

  1. pe文件被装入内存时按64k对齐
  2. linux 删除大量文件
  3. 每天CookBook之JavaScript-059
  4. java 访问网络驱动器_尝试通过GitLab Runner脚本访问网络驱动器但收到错误
  5. Spring -- 入门,装备集合,自动装配,分散装配,自定义编辑器
  6. 微信oauth2接口获取用户的openid
  7. oracle 10g安装企业版,企业版Oracle10g的安装-过程
  8. Beego框架简介准备搭建分布式爬虫
  9. csv 20位数据 如何打开可以预览完整数字_条码打印软件如何批量制作MSI Plessey码...
  10. Python之NumPy(axis=0/1/2...)的透彻理解——通过np.sum(axis=?)实例进行说明
  11. div点击穿透,CSS属性pointer-events :none;实现护眼模式, 夜间模式遮罩
  12. 前端开发——Vue 监听组件生命周期
  13. 腾讯区块链团队首次换将,蔡弋戈将变动职务
  14. css-水平和垂直布局
  15. IBM推出量子AI平台IBM z16
  16. ubuntu 卸载pytorch_科学网—Pytorch installation on Ubuntu18.04 - 高琳琳的博文
  17. 小飞升值记——(23)
  18. 前端_前端招聘面试题(1)
  19. Shopee越南市场好做吗?
  20. DATAV可视化基本操作

热门文章

  1. EB Tresos 入门指南
  2. c语言中余数取整,C 逻辑运算, 移位运算 , 取整 , 取模(取余)
  3. 码代码时遇到的小插曲
  4. 图像梯度算法中算子的由来
  5. HTML基于Vue实现Cron生成器
  6. [Python] [机器学习] 基础聚类算法(K-means、AHC、DBSCAN)简介及可视化代码
  7. HTTPSS证书制作笔记
  8. 05 | Service Mesh 的请求路由流程分析
  9. 输入姓名并分别输出姓和名
  10. Python图片下载器(单线程PK多线程)_一蓑烟雨任平生