1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#这个文件的目的是抓取http://baike.baidu.com/view/2975166.htm这个百度百科上的所有图片,并且保存在电脑里。#
# -*- coding: cp936 -*-
import os
from bs4 import BeautifulSoup
import re
import requests
url="http://baike.baidu.com/view/2975166.htm" 
#这个网站就是python开发者那个大白胖子的百度百科#
AAA=requests.get(url)
BBB=AAA.text
#BBB是目标网站的源代码文本,注意是文本!不然BS4不识别#
soup=BeautifulSoup(BBB,"html.parser",from_encoding="utf-8")
#这一步用BS4解析,他比正则表达式效果更好一点#
links=soup.find_all("img")
#定位所有以img开头,并且以/img结尾的语句#
i=1
for each in links:
  print(str(i)+"is OK!")
  pic=requests.get(each["src"])
  #注意!这里用的是each["src"],因为requests.get是询问一个网址,["src"]这是一个网址#
  f=open("e:/pythonaaa/a/"+str(i)+".jpg","wb")
  f.write(pic.content)
  #保存图片的内容#
  i=i+1
f.close()

这个程序在默认的idle 3.5里好用,在pycharm 启动3.5模式的状态下却不行,提示requests.get有问题。我很奇怪。单页面抓图基本就是这么一个模式,也基本上屡试不爽。只要换换要抓的网页url,然后起名的时候别起1,换一个数字,就OK了。

 本文转自 苏幕遮618 51CTO博客,原文链接:http://blog.51cto.com/chenx1242/1730554

单页面抓图并且保存的爬虫相关推荐

  1. 【数据采集平台】教程-单页面采集

    使用教程--单页面采集 当前版本 测试版 单页面采集 功能 采集单个页面.单个页面是指:一个页面中只包含一条采集信息的页面,例如文章详情页面,一个url对应一篇文章信息. 使用 打开"配置中 ...

  2. 单页面网站seo优化的基本要点

    一个专业的网站建设者从来都不是与生俱来的,在苦练怎样建成一个好网站的过程中必定走过弯路,吃过苦头,对网站的架构.页面展示以及优化等各方面都需要精雕细琢,今天,我们就从seo的角度谈谈单页面网站建设的好 ...

  3. 给大家推荐一个Vue 单页面程序无法SEO的解决办法

    给大家推荐一个vue 单页面搜索引擎无法SEO的解决办法 这两天用Vue3做了一个免费下载书籍的小网站,https://book.usejs.cn:大家可以先看下效果 前端项目做完.部署了之后想让搜索 ...

  4. puppeteer-不需重构,无痛加强vue单页面应用的SEO,提升百度收录排名

    背景 最近产品觉得我们网站在百度收录上排名太靠后了,又不肯花钱,就让我们想办法提升网站的SEO.由于项目是用vue3写的,并且已经迭代多个版本了,用nuxt实在不适宜,当然俺的开发水平也不够,周期也会 ...

  5. java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面

    使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...

  6. Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  7. 爬虫抓取页面数据原理(php爬虫框架有很多 )

    爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...

  8. 【SPA】SPA单页面应用详解

    一.什么是SPA 单页应用SPA是一种网络应用程序或网站的模型,它通过动态重写当前页面来与用户交互. 这种方法避免了页面之间切换打断用户体验在单页面应用中,所有必要的代码(HTML.JavaScrip ...

  9. 为什么说单页面程序SEO不友好?

    搜索引擎的工作原理 在搜索引擎网站的后台会有一个非常庞大的数据库,里面存储了海量的关键词,而每个关键词又对应着很多网址,这些网址是被称之为"搜索引擎蜘蛛"或"网络爬虫&q ...

最新文章

  1. 安装Oracle 10g sys,system 密码忘记设置解决办法
  2. 杰出数据科学家的关键技能是什么?
  3. TOPSIS(逼近理想解)算法原理详解与代码实现
  4. 计算机360浏览器的大小,360安全浏览器8.1电脑正式版
  5. python解析树_如何使用python中的stanford解析器获取树的叶子?
  6. java finally在return_Java finally语句到底是在return之前还是之后执行?
  7. python opencv3 圆检测
  8. stl之list双向链表容器应用基础
  9. tplink软件升级有用吗_TP-LINK路由器升级方法 | 吴文辉博客
  10. Debian系统apt-get build-dep命令
  11. 使用STM32固件库开发GD32 汇总
  12. 大数据-----数据采集
  13. DataGridView 获取当前行数据
  14. 数据库 insert 数据的几种方式
  15. 我的Blog——python封装为exe的注意事项(封装exe看这一篇基本就够了)
  16. java导出excel 序号_java web将数据导出为Excel格式文件代码片段
  17. 为什么用手机拍摄电脑屏幕时会出现波纹?终于明白了!
  18. 怎么将html发布到天猫,天猫商家商品发布到淘小铺后台流程
  19. 代理模式——案例分析与代码演示
  20. 梅科尔工作室-赵一帆-鸿蒙笔记1

热门文章

  1. C#获取邮件客户端保存的邮箱密码
  2. 将一个Excel文件分隔成多个
  3. Asp.net 后台添加CSS、JS、Meta标签
  4. 汇编语言随笔(2)-CPU指令周期和无条件转移指令(包括call和ret指令)
  5. Java工程师成神之路 转
  6. mysql binlog日志优化及思路
  7. 用Advanced Installer制作DotNetBar for Windows Forms 12.0.0.1_冰河之刃重打包版详解
  8. 页面与页面之间传递参数
  9. [转载] 晓说——第2期:汉人无音乐都怪老祖宗
  10. 屏蔽鼠标右键、Ctrl+N、Shift+F10、F11、F5刷新、退格键