今天本来想把昨天安装的intellij配置好,但是一直显示没有网络,网上查了相关资料也没有查出来解决办法。

然后暂停了intellij的配置,开始做了几个Python爬取简单数据的实例,先做了几个最简单的,以后再加大难度(用idle编码):

(1)京东商品页面爬取:

链接:https://item.jd.com/2967929.html

代码解析:

首先r是一个response对象;

r.status_code返回一个值,如果是200的话则正常,如果时候503的话,则抛出异常,调用该方法的目的是查看返回的response对象是否正确;

r.encoding是返回编码信息,如果编码为gbk则表示这个网站提供了页面信息的相关编码;

(2)亚马逊商品页面的爬取:

r.status_code返回值为503,说明请求没有得到正确的答复,这时,查看我们访问的http的头可知我们告诉了亚马逊网站我们是用Python的requests库来访问的,并且亚马逊拒绝了爬虫的访问,所以,这时我们更改了我们的头部信息,让爬虫模拟一个浏览器来访问,把user-agent更改为Mozolla/5.0就可以成功的访问了。

(3)百度搜索关键词提交:

百度对关键词的搜索提供了接口:http://www.baidu.com/s?wd=keyword。所以这时利用了params,将键字对输入进去,但是这里当我查询url时,并没有正常显示,百度利用安全认证,我把http的头部更改为Mozilla/5.0也不起作用,还未解决。

(4)网络图片的爬取和存储:

只适用于最简单的图片爬取,如https://gss2.bdstatic.com/fo3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike80%2C5%2C5%2C80%2C26/sign=c9162213c4fcc3cea0cdc161f32cbded/279759ee3d6d55fb3cfdd81761224f4a20a4ddcc.jpg。

结尾是图片文件的形式,r.content是返回内容的二进制形式,所以用write方法写入文件中,形成jpg文件。open函数中的‘wb’是指打开文件的模式,相关模式含义如下表:

python爬取toefl_spark学习进度6-Python爬取数据的四个简单实例相关推荐

  1. python零基础系统学习教程之Python 变量类型

    Python 变量类型 变量存储在内存中的值.这就意味着在创建变量时会在内存中开辟一个空间. 基于变量的数据类型,解释器会分配指定内存,并决定什么数据可以被存储在内存中. 因此,变量可以指定不同的数据 ...

  2. python sorted下标_Python学习教程(Python学习路线):第七天-字符串和常用数据结构

    Python学习教程(Python学习路线):字符串和常用数据结构 使用字符串 第二次世界大战促使了现代电子计算机的诞生,当初的想法很简单,就是用计算机来计算导弹的弹道,因此在计算机刚刚诞生的那个年代 ...

  3. python 优雅退出_Python学习教程:Python 使用 backoff 更优雅的实现轮询

    我们经常在开发中会遇到这样一种场景,即轮循操作.今天介绍一个Python库,用于更方便的达到轮循的效果--backoff. Python学习教程:Python 使用 backoff 更优雅的实现轮询 ...

  4. 初学者自学python要看什么书-学习Python可以看书籍学习吗?老男孩Python入门课程...

    在人工智能和数据分析的带领之下,推动了互联网市场的发展,也推动了python语言的发展,让它成为了市场上炙手可热的编程语言. 而python具有入门简单.就业范围广泛.薪资水平高诸多优势,越来越多的人 ...

  5. 前端学python有什么用-学习和使用python的13个理由

    如果您希望转向网站开发或软件开发,成为程序员中的一员,那么学习HTML,CSS和JavaScript的基础三重奏就不会出错.但要真正在拥挤的应用领域中脱颖而出,您还是需要学习其他编程语言. 有很的编程 ...

  6. python语言怎么用-学习如何使用 Python 程式语言

    阅读需知: 这是一份适合程式设计初学者,或是 Python 初学者的正体中文文件. 在阅读本手册前,您也可以先学习以下教程: 关于Python: Python, 是一种面向对象.解释型计算机程序设计语 ...

  7. 零基础自学python看什么书-学习Python可以看书籍学习吗?老男孩Python入门课程

    在人工智能和数据分析的带领之下,推动了互联网市场的发展,也推动了python语言的发展,让它成为了市场上炙手可热的编程语言. 而python具有入门简单.就业范围广泛.薪资水平高诸多优势,越来越多的人 ...

  8. python的认识_Python学习之认识python

    Python 版本 ​Python 从1989年诞生的第一个版本,到目前为止,存在 python2 和 python3 两个版本,并且两个版本不兼容.目前python 程序中 python2 占比依然 ...

  9. 人工智能python营_贪心学习院人工智能python编程特训营

    贪心学习院人工智能python编程特训营 实战一项目作业 情报密码 #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ ...

最新文章

  1. 人工智能如何获得知识?
  2. Linux内核版本 uname命令 GNU项目 Linux发行版
  3. 几种方法来实现scp拷贝时无需输入密码
  4. 用python将word文档导入数据库_python读取word文档,插入mysql数据库的示例代码
  5. hashmap删除指定key_Java集合之HashMap源码解析(JDK8)
  6. Python Tricks(二十一)—— 排列组合的计算
  7. html 输入类型,HTML 输入类型(示例代码)
  8. 阿里云服务器ECS云盾提醒网站被WebShell木马后门分析与对策
  9. 2287 poj 田忌赛马,贪心
  10. VB中输入函数InputBox的用法
  11. LINUX下system和execl有什么差异?
  12. 笔记本关闭触摸板——解决无法关闭触摸板问题
  13. linux系统pdf转图片
  14. HTML meta 标签
  15. UI小练习,模仿登陆界面
  16. 解决互斥锁lock,报tpp.c:63: __pthread_tpp_change_priority: Assertion异常
  17. 清空linux+history_linux清除history命令
  18. VREP(Coppeliarobotics)仿真介绍
  19. Qt在手动执行xxx.exe时报错:由于找不到Qt5xxx.dll,无法继续执行代码。重新安装程序可能解决此问题。
  20. java inputvo_java的几种对象(PO,VO,DAO,BO,POJO)解释

热门文章

  1. 专访雷果国:从1.5K到18K 一个程序员的5年成长之路
  2. C语言void关键字
  3. Linux各发行版本简介
  4. [原][歌曲]感动的歌曲排序
  5. 秒懂数据类型的真谛—Python基础前传(4)
  6. oracle pl/sql 包
  7. Intellij IDEA 快捷键(Mac)
  8. C# 从Excel中读取时间数据
  9. 架​设​W​e​b​服​务​器
  10. oracle中的视图详解