爬虫爬取链接中文字_使用爬虫技术爬取图片链接并下载图片

获取图片比获取文字更加复杂，获取文字在网页当中可以直接一次性的读取到文字；获取图片是获取图片的链接地址，然后通过链接地址下载到本地。

第一步：如何获取图片的链接地址

打开图片新闻的地址：https://www.infoq.com/presentations

1. 先获取图片地址：右键-查看源代码，获取新闻可以用文字的关键字搜索，作为图片在网页嵌入肯定会有img这样的标签，img后面跟着的链接地址就是我们要找的图片链接地址。

2.代码实现

import osimport shutilfrom bs4 import BeautifulSoup # 编码解码库import requests # 请求访问库# 用 dict 定义http头，伪装浏览器访问，避免被拒之门外headers = {    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",    "Accept-Language": "zh-CN,zh;q=0.8",    "Connection": "close",    "Cookie": "_gauges_unique_hour=1; _gauges_unique_day=1; _gauges_unique_month=1; _gauges_unique_year=1; _gauges_unique=1",    "Referer": "https://www.infoq.com/presentations",    "Upgrade-Insecure-Requests": "1",    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"}url='https://www.infoq.com/presentations'def download_pic(img_url,image_localpath):    response=requests.get(img_url,stream=True)    if response.status_code==200:        with open (image_localpath,'wb') as f:            response.raw.deconde_content=True            shutil.copyfileobj(response.raw,f)#shutil库用来配合requests模块，他把response返回的内容写入到文件中#获取演讲图片,requests库封装的接口只提供了浏览的功能，如果想要下载的话需要提供stream这样的参数，stream设置成true才能和网页建立一个链接，再用response.content这样的方法进行下载def craw3(url):    response=requests.get(url,headers=headers)    soup=BeautifulSoup(response.text,'lxml')    for pic_href in soup.find_all('div',class_='card__content'):        for pic in pic_href.find_all('img'):            imgurl=pic.get('src')            dir=os.path.join('.')            filename=os.path.basename(imgurl)#该功能将链接地址只获取图片名称            imgpath=os.path.join(dir,filename)            #http://a.com/b/c.png只获取c.png文件名称            #c.png在和路径结合            print('开始下载 %s'%imgurl)            download_pic(imgurl,imgpath)craw3(url)

注意：

requests库封装的接口只提供了浏览的功能，如果想要下载的话需要提供stream这样的参数，stream设置成true才能和网页建立一个链接，再用response.content这样的方法进行下载

3.翻页功能

import osimport shutilfrom bs4 import BeautifulSoup # 编码解码库import requests # 请求访问库# 用 dict 定义http头，伪装浏览器访问，避免被拒之门外headers = {    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",    "Accept-Language": "zh-CN,zh;q=0.8",    "Connection": "close",    "Cookie": "_gauges_unique_hour=1; _gauges_unique_day=1; _gauges_unique_month=1; _gauges_unique_year=1; _gauges_unique=1",    "Referer": "https://www.infoq.com/presentations",    "Upgrade-Insecure-Requests": "1",    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"}url='https://www.infoq.com/presentations'def download_pic(img_url,image_localpath):    response=requests.get(img_url,stream=True)    if response.status_code==200:        with open (image_localpath,'wb') as f:            response.raw.deconde_content=True            shutil.copyfileobj(response.raw,f)#shutil库用来配合requests模块，他把response返回的内容写入到文件中#获取演讲图片,requests库封装的接口只提供了浏览的功能，如果想要下载的话需要提供stream这样的参数，stream设置成true才能和网页建立一个链接，再用response.content这样的方法进行下载def craw3(url):    response=requests.get(url,headers=headers)    soup=BeautifulSoup(response.text,'lxml')    for pic_href in soup.find_all('div',class_='card__content'):        for pic in pic_href.find_all('img'):            imgurl=pic.get('src')            dir=os.path.join('.')            filename=os.path.basename(imgurl)#该功能将链接地址只获取图片名称            imgpath=os.path.join(dir,filename)            #http://a.com/b/c.png只获取c.png文件名称            #c.png在和路径结合            print('开始下载 %s'%imgurl)            download_pic(imgurl,imgpath)#craw3(url)j=0for i in range(12,46,12):    url='https://www.infoq.com/presentations'+str(i)    j+=1    print('第%d页'%j)craw3(url)

问题

考虑多线程实现

做梦梦到了海豚在跳跃

爬虫爬取链接中文字_使用爬虫技术爬取图片链接并下载图片相关推荐

python爬取网店数据_如何爬虫天猫店铺数据python
展开全部本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店32313133353236313431303231363533e78988e69d8331333365 ...
python 爬取直播弹幕视频_调用斗鱼API爬取直播间弹幕信息（用户昵称及弹幕内容）...
调用斗鱼API爬取直播间弹幕信息(用户昵称及弹幕内容) 查看<斗鱼弹幕服务器第三方接入协议v1.4.1>,了解斗鱼API的使用方法,即如何连接斗鱼弹幕服务器.维持连接及获取弹幕信息 Pyt ...
beautifulsoup爬取网页中的表格_Python爬虫爬取BT之家找电影资源
一.写在前面最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...
python爬虫爬取京东商品评价_网络爬虫-爬取京东商品评价数据
前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...
python爬取斗鱼鱼吧_[Python爬虫]使用Python爬取静态网页-斗鱼直播
作者:宅必备 Python爱好者社区--专栏作者一个会写Python的Oracle DBA 个人公众号:宅必备公众号:Python爱好者社区作者其他文章: 好久没更新Python相关的内容了,这 ...
python爬取web漫画网站_[Python爬虫学习]利用selenuim爬取漫画网站
注意事项版本 Python版本为 Python-3.8.3 系统为 Windows10 浏览器为 Firefox-77.0 前置 \(selenium\) \(BeautifulSoup\) \(r ...
python爬取付费隐藏内容_如何用python 爬取网页中隐藏的div内容？
图片所在的html元素id叫 viewimg ,这个元素是由 view.js 当中的 loadview 函数创建的.该函数吧serverurl跟photosrc这个array里头的元素拼接,并把他设置 ...
编程python爬取网页数据教程_实例讲解Python爬取网页数据
一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...
python爬取网页公开数据_如何用Python爬取网页数据
使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...

爬虫爬取链接中文字_使用爬虫技术爬取图片链接并下载图片

爬虫爬取链接中文字_使用爬虫技术爬取图片链接并下载图片相关推荐

最新文章

热门文章