今天我们来看一看使用Python爬取一些简单的网页。

所用工具:IDLE (Python 3.6 64-bit)

一. 爬取京东商品页面

我将要爬取的是这个东京商品页面信息,代码如下:

import requests
url = "https://item.jd.com/6957643.html"
try:r = requests.get(url)r.raise_for_status()r.encoding = r.apparent_encodingprint(r.text[:1000])
except:print("爬取失败")

二. 爬取亚马逊商品页面

我接下来要爬取这个亚马逊商品的页面,代码如下:

import requests
url = "https://www.amazon.cn/gp/product/B00W2T39C8/ref=cn_ags_s9_asin?pf_rd_p=33e63d50-addd-4d44-a917-c9479c457e1a&pf_rd_s=merchandised-search-3&pf_rd_t=101&pf_rd_i=1403206071&pf_rd_m=A1AJ19PSB66TGU&pf_rd_r=FQQGZ7T42BF03V117HRD&pf_rd_r=FQQGZ7T42BF03V117HRD&pf_rd_p=33e63d50-addd-4d44-a917-c9479c457e1a&ref=cn_ags_s9_asin_1403206071_merchandised-search-3"
try:kv = {'user-agent':'Mozilla/5.0'}r = requests.get(url,headers = kv)r.raise_for_status()r.encoding = r.apparent_encodingprint(r.text[1000:2000])
except:print("爬取失败")

三. 输入关键字爬取百度或360所能搜索到多少数据。代码如下:

import requests
keyword = "Python"
try:kv = {'wd':keyword}#如果用360就将键值对wd改成q将baidu改成sor = requests.get("http://www.baidu.com/s",params = kv)print(r.request.url)r.raise_for_status()print(len(r.text))
except:print("爬取失败")

四. 爬取图片并存入指定地点(E://hh名字abc.jpg)。代码如下:

import requests
import os
url = "https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1533128040259&di=601acd33bcb188bfeb41cb50bc51ed41&imgtype=0&src=http%3A%2F%2Fs1.sinaimg.cn%2Fmw690%2F006LDoUHzy7auXElZGE40%26690"
path = "E://hh/abc.jpg"
try:r = requests.get(url)with open(path,'wb') as f:f.write(r.content)f.close()print("文件已保存")except :print("爬取失败")

五.批量爬取图片(有惊喜)

import requests
from bs4 import BeautifulSoup
import urllib.requestx = 0
def GetImg():response = requests.get('http://www.mzitu.com/zipai/comment-page-2')re = response.text#创建对象,解析网页soup = BeautifulSoup(re,'html.parser')#找到img标签girl = soup.find_all('img')for i in girl:global ximgl=i.get('src')urllib.request.urlretrieve(imgl,'E:/python/xiuxiu/%s.jpg'%x)x+=1print("正在下载第%x张图片"%x)def getHtml(url):headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'}page1=urllib.request.Request(url,headers=headers)page=urllib.request.urlopen(page1)html=page.read()GetImg()    

感觉怎么样?学会了吗?
如果需要有关编程等资源可以关注公众号“考神傻小呆”获取

使用Python爬虫爬取简单网页(Python爬虫入门)相关推荐

  1. chrome动态ip python_用Python爬虫爬取动态网页,附带完整代码,有错误欢迎指出!...

    系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...

  2. python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码

    本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...

  3. Python爬虫爬取动态网页

    系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...

  4. python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(一)

    python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二.数据清洗及存储) 爬起疫情数据,有两个网址: 1.百度:链接 2.丁香园疫情:链接 在这两个中,丁香园的爬虫相对简单一点,所以今天就展示一 ...

  5. python动态页面元素爬取_爬取动态网页python+Web kit

    上一篇文章爬取动态网页python+selenium+webdriver介绍了爬取动态网站的一种模拟浏览器的方法,该方法的优劣也很明显 优: 可以模拟任何人的操作,输入账号密码,点击登录等等操作 劣: ...

  6. python动态渲染抓取网页_爬取动态网页python+Web kit

    上一篇文章爬取动态网页python+selenium+webdriver介绍了爬取动态网站的一种模拟浏览器的方法,该方法的优劣也很明显 优: 可以模拟任何人的操作,输入账号密码,点击登录等等操作 劣: ...

  7. python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(二)

    上一章: python 爬虫爬取疫情数据,爬虫思路和技术你全都有哈(一.爬虫思路及代码) 第三步:数据清洗 清洗数据很简单,就是数据太乱的话,就得花些时间,所以一定要有一个好的方法,才能避免在清洗数据 ...

  8. Python爬虫爬取静态网页基本方法介绍

    爬取静态网页的技术 数据请求模块 一.Requests库 发送GET请求 发送POST请求 get请求和post请求两者之间的区别 处理响应 定制请求头 验证Cookie 保持会话 二.urllib库 ...

  9. Python爬虫爬取静态网页实例一:爬取内涵段子吧上的段子

    最近在学爬虫,这里用实例来与大家分享一下我学习的经验. 这里讲一个爬取静态网页内容的实例,Python一般利用正则表达式爬取静态静态网页的内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单, ...

最新文章

  1. 启用无密码方式登录ssh
  2. Udev串口通讯,对于多个ttyUSB,如何自动识别?
  3. 关​于​h​i​b​e​r​n​a​t​e​中​双​向​外​键​关​联​o​n​e​-​t​o​-​o​n​e​的​p​r​o​p​e​r​t​y​-​r​e​f​=​的​问​题(转)...
  4. linux 中FTP服务器的架设
  5. linux 单引号,双引号,反引号的小总结。
  6. Java Review - ArrayList 源码解读
  7. SAP在物流工作中的应用之学习笔记
  8. 学习Vue.js实战(一)
  9. 将存储过程的结果插入表里
  10. 前端学习(2387):组件库使用说明
  11. Java之intern方法
  12. CentOS 安装JDK跟TOMCAT
  13. 【安全】java的Jaas授权与鉴权
  14. JS在HTML中放的位置
  15. python爬虫入门四:BeautifulSoup库(转)
  16. 洛谷——P1428 小鱼比可爱
  17. 20160402系统集成管理工程师(test3)
  18. SolidWorks参数化设计中Excel的应用
  19. python中from import_Python中的import和from import
  20. 从Adobe调查问卷看原型设计工具大战

热门文章

  1. 什么是高并发,高并发的解决方案
  2. Vue --- 登陆+注册
  3. 实体-关系联合抽取:Incremental Joint Extraction of Entity Mentions and Relations
  4. 手把手教你开发基于深度学习的人脸识别【考勤/签到】系统
  5. 北京盈创再生资源有限公司研发楼项目智能照明控制系统的设计和应用
  6. 解释#define的用法
  7. Mysql 入门学习总结
  8. Java基础:方法和类详解
  9. Android 2.3的StrictMode使用
  10. 计算机中桌面位置更改,如何更改桌面文件路径 电脑桌面优化技巧