爬取每日必应图片,python爬虫简单入门
爬取每日必应图片:
网址:微软必应搜索
第一步,打开网站:
右键,查看网页源代码:
初看有点吓人,不过幸运的是图片地址就在开头几行显眼的位置
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200508131420329.png我们直接点击这个图片地址,就能进入到这个图片,然后右键另存为就大功告成
既然可以找到了图片地址,我们就可以开始编写爬虫代码(思路非常清晰):
- 进入bing首页,获取图片link
- 提取图片标题
- 保存为文件
import requests
import re #正则表达式
import os
from lxml import etree #python的html/xml解析器url = 'https://cn.bing.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/78.0.3904.97 Safari/537.36'
}res = requests.get(url,headers)
selector = etree.HTML(res.text)
href=selector.xpath('//head/link[@id="bgLink"]/@href')#得到一个列表eng_title=re.findall(r"OHR.(.+?)&rf",str(href))
eng_title=eng_title[0]#英文标题cn_title=selector.xpath('//a[@class="sc_light"]/@title')
cn_title=str(cn_title[0]).split(' ')[0]+'.jpg' #中文标题print(eng_title)
print(cn_title)pic_link='https://cn.bing.com'+str(href[0]) #图片地址
html = requests.get(pic_link,headers)with open('./'+eng_title,'wb+') as f: #图片以二进制方式写入f.write(html.content)
print('下载成功')
那么在代码运行目录就会得到:
爬取每日必应图片,python爬虫简单入门相关推荐
- 菜鸟弟弟从零开始的爬取Bilibili弹幕的Python爬虫教程-哔哩哔哩 - ( ゜- ゜)つロ 干杯~
从零开始的爬取Bilibili弹幕的Python爬虫教程 或许可以作为一个爬虫小白的练手的demo? 还是先看看什么是爬虫吧!(还有Bilibili! ) 网络爬虫: 网络爬虫(又称为网页蜘蛛,网络机 ...
- python怎么爬取一个网页图片_python爬虫怎么实现爬取网站图片?
对于网页结构而言,图片也就是一个文件及文件目录+名字的放在html中的src标签里.找到这个src标签对应的内容,就可以图片爬取下来. ps:有些网站的图片可能不是放在src标签里的,可能放在data ...
- python爬取文字和图片_python爬虫--xpath结合re同时爬取文字与图片
还是老家的旅游网址:http://www.patour.cn/site/pananzxw/tcgl/index.html,将这些特产的图片及其介绍都爬取下来! 源码: 1 # -*- coding:u ...
- 用python爬取豆瓣书评,简短Python爬虫爬取《人民的名义》豆瓣书评,附源代码和逐行解释...
第一步,查看要爬取的网站:https://book.douban.com/subject/26952485/collections 明确要爬取的信息,以及查看对应的xpath 本爬虫提取如下的五条信息 ...
- python爬虫爬取音乐_利用python爬虫实现爬取网易云音乐热歌榜
利用python爬虫实现爬取网易云音乐热歌榜 发布时间:2020-11-09 16:12:28 来源:亿速云 阅读:102 作者:Leah 本篇文章给大家分享的是有关利用python爬虫实现爬取网易云 ...
- python爬取股票大单历史记录_python爬取股票实时数据,python爬虫与股票分析
内容导航: Q1:怎么学python爬取财经信息 本程序使用Python 2.7.6编写,扩展了Python自带的HTMLParser,自动根据预设的股票代码列表,从Yahoo Finance抓取列表 ...
- python爬虫简单入门(爬网页文本信息)
环境 python 3.8.2 Shell 也可以使用PyCharm 一.爬网页文本基本步骤 1.请求目标网页,用requests请求,如果还没有安装,打开cmd,输入下面命令进行安装 pip ins ...
- python爬取率_[新手]python爬虫爬取中证指数官网数据
想用python爬虫获取中证指数官网上的几个主要指数的每日估值更新,但是下载下来的页面内容却没有想要的数据.想要的数据前面有个JavaScript标签,是不是光靠python没办法获取这个数据?求大神 ...
- python爬财务数据_同花顺财经-财务数据爬取思路详解-python爬虫
同样的开头,近日,群友在讨论问题的时候发来一链接,询问如何抓取个股页面上财务指标,好奇心旺盛的博主立马打开网页研究了一番. 网址如下:http://stockpage.10jqka.com.cn/60 ...
最新文章
- html插入不规则表格,如何构建HTML表格中的不规则形状?
- 2021-03-04 Halcon初学者知识 【18】谈谈秩滤波(Rank filter)
- 宗宁:全面解析微博财报数据爆发下的平台机会
- 我用C++复刻了这款上世纪最伟大的游戏
- 微信小程序-音频播放-wx.createInnerAudioContext() 每次都是重复播放同一条录音
- CocoaPods停在Analyzing dependencies解决方案
- GoEasy实现简单聊天室
- 数据库文档 SCREW 一键生成数据库文档
- 接口,implement,多继承
- 管理信息系统MIS复习总结
- win10重装win7后usb键盘鼠标都失灵
- 安装dhcp服务器虚拟2012,windows server 2012 dhcp服务器安装
- 大一新生的第一篇博客
- 正在准备配置请勿关闭计算机,正在准备配置windows请勿关闭计算机时间长了解决教程...
- BIOS开启Fast Boot后导致开机时键盘无法使用,无法进入BIOS
- android 对象 保存,Android使用SharedPreferences保存对象
- 手办 android app,hpoi手办维基
- 百度ueditor富文本插件插入视频问题汇总【必须收藏】
- oracle 可视化界面使用,Oracle DBMS可视化界面设计
- 打印机不识别墨盒?我们总结了应对方法
热门文章
- 初级计算机硬件试题,新版初级计算机操作员应知考试试题
- Android简易老虎机(转动式)
- arcgis flex api 由于沙箱安全的原因 无法显示地图 的解决办法
- 基于深度学习的视觉三维重建研究总结2进阶
- Babylon.js 深入
- 微信小程序常用知识点总结
- soj2198: Highways_最小生成树Prim
- java 摄像头访问_image – 在Java中访问网络摄像头的最佳方式
- python爬取旅游信息_用Python爬取分析全国旅游数据-Go语言中文社区
- 【分享opengl教程】