单页面抓图并且保存的爬虫
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
#这个文件的目的是抓取http://baike.baidu.com/view/2975166.htm这个百度百科上的所有图片,并且保存在电脑里。#
# -*- coding: cp936 -*-
import os
from bs4 import BeautifulSoup
import re
import requests
url = "http://baike.baidu.com/view/2975166.htm"
#这个网站就是python开发者那个大白胖子的百度百科#
AAA = requests.get(url)
BBB = AAA.text
#BBB是目标网站的源代码文本,注意是文本!不然BS4不识别#
soup = BeautifulSoup(BBB, "html.parser" ,from_encoding = "utf-8" )
#这一步用BS4解析,他比正则表达式效果更好一点#
links = soup.find_all( "img" )
#定位所有以img开头,并且以/img结尾的语句#
i = 1
for each in links:
print ( str (i) + "is OK!" )
pic = requests.get(each[ "src" ])
#注意!这里用的是each["src"],因为requests.get是询问一个网址,["src"]这是一个网址#
f = open ( "e:/pythonaaa/a/" + str (i) + ".jpg" , "wb" )
f.write(pic.content)
#保存图片的内容#
i = i + 1
f.close()
|
这个程序在默认的idle 3.5里好用,在pycharm 启动3.5模式的状态下却不行,提示requests.get有问题。我很奇怪。单页面抓图基本就是这么一个模式,也基本上屡试不爽。只要换换要抓的网页url,然后起名的时候别起1,换一个数字,就OK了。
单页面抓图并且保存的爬虫相关推荐
- 【数据采集平台】教程-单页面采集
使用教程--单页面采集 当前版本 测试版 单页面采集 功能 采集单个页面.单个页面是指:一个页面中只包含一条采集信息的页面,例如文章详情页面,一个url对应一篇文章信息. 使用 打开"配置中 ...
- 单页面网站seo优化的基本要点
一个专业的网站建设者从来都不是与生俱来的,在苦练怎样建成一个好网站的过程中必定走过弯路,吃过苦头,对网站的架构.页面展示以及优化等各方面都需要精雕细琢,今天,我们就从seo的角度谈谈单页面网站建设的好 ...
- 给大家推荐一个Vue 单页面程序无法SEO的解决办法
给大家推荐一个vue 单页面搜索引擎无法SEO的解决办法 这两天用Vue3做了一个免费下载书籍的小网站,https://book.usejs.cn:大家可以先看下效果 前端项目做完.部署了之后想让搜索 ...
- puppeteer-不需重构,无痛加强vue单页面应用的SEO,提升百度收录排名
背景 最近产品觉得我们网站在百度收录上排名太靠后了,又不肯花钱,就让我们想办法提升网站的SEO.由于项目是用vue3写的,并且已经迭代多个版本了,用nuxt实在不适宜,当然俺的开发水平也不够,周期也会 ...
- java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面
使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...
- Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)
专题系列导引 爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集 课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
- 爬虫抓取页面数据原理(php爬虫框架有很多 )
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
- 【SPA】SPA单页面应用详解
一.什么是SPA 单页应用SPA是一种网络应用程序或网站的模型,它通过动态重写当前页面来与用户交互. 这种方法避免了页面之间切换打断用户体验在单页面应用中,所有必要的代码(HTML.JavaScrip ...
- 为什么说单页面程序SEO不友好?
搜索引擎的工作原理 在搜索引擎网站的后台会有一个非常庞大的数据库,里面存储了海量的关键词,而每个关键词又对应着很多网址,这些网址是被称之为"搜索引擎蜘蛛"或"网络爬虫&q ...
最新文章
- 安装Oracle 10g sys,system 密码忘记设置解决办法
- 杰出数据科学家的关键技能是什么?
- TOPSIS(逼近理想解)算法原理详解与代码实现
- 计算机360浏览器的大小,360安全浏览器8.1电脑正式版
- python解析树_如何使用python中的stanford解析器获取树的叶子?
- java finally在return_Java finally语句到底是在return之前还是之后执行?
- python opencv3 圆检测
- stl之list双向链表容器应用基础
- tplink软件升级有用吗_TP-LINK路由器升级方法 | 吴文辉博客
- Debian系统apt-get build-dep命令
- 使用STM32固件库开发GD32 汇总
- 大数据-----数据采集
- DataGridView 获取当前行数据
- 数据库 insert 数据的几种方式
- 我的Blog——python封装为exe的注意事项(封装exe看这一篇基本就够了)
- java导出excel 序号_java web将数据导出为Excel格式文件代码片段
- 为什么用手机拍摄电脑屏幕时会出现波纹?终于明白了!
- 怎么将html发布到天猫,天猫商家商品发布到淘小铺后台流程
- 代理模式——案例分析与代码演示
- 梅科尔工作室-赵一帆-鸿蒙笔记1
热门文章
- C#获取邮件客户端保存的邮箱密码
- 将一个Excel文件分隔成多个
- Asp.net 后台添加CSS、JS、Meta标签
- 汇编语言随笔(2)-CPU指令周期和无条件转移指令(包括call和ret指令)
- Java工程师成神之路 转
- mysql binlog日志优化及思路
- 用Advanced Installer制作DotNetBar for Windows Forms 12.0.0.1_冰河之刃重打包版详解
- 页面与页面之间传递参数
- [转载] 晓说——第2期:汉人无音乐都怪老祖宗
- 屏蔽鼠标右键、Ctrl+N、Shift+F10、F11、F5刷新、退格键