百度街景自动爬取，并自动检测没有影像的位置

今天百度街景的权限申请成功了，所以就试了下之前找到的一个爬取街景的代码，我把原作者导入数据时文件格式txt改成了xlsx，因为表格比较方便批量修改一些内容。

爬取到的街景影像有很多都没有数据，返回的是一些固定的图片，一个一个筛选太麻烦了，所以写了一段代码可以检测到这些影像，并且改名为特定格式，方便后续的一些筛选工作。

直接上代码

import urllib.request  #打开网页模块
import urllib.parse    #转码模块
import pandas as pd
import os
import requests#这里的路径可替换为自己保存文件夹的路径
save_path = r'D:\01bachelor\sk04paper\bdSVI/'
ak = "填写你的AK码"#判断文件夹是否存在，若不存在则创建
if not os.path.exists(save_path):os.makedirs(save_path)
data = pd.read_excel(r"D:\01bachelor\sk04paper\SamplePoints\400经纬度.xlsx",index_col = 0,usecols="A:C")def Scrap_img():
#使用for循环遍历出每个location坐标for i in range(400):#获取采样点经纬度location_number = str(data.iloc[i][0])+','+str(data.iloc[i][1])#水平角度获取4个方向的照片for j in range(4):#旋转的角度#[0,1,2,3] * 90 = [0,90,180,270]heading_number = str(90*j)url = r"https://api.map.baidu.com/panorama/v2?" \"&width=1024&height=512" \"&location="+location_number+\"&heading="+heading_number+ \"&ak=" + ak#文件保存名称save_name =str(i)+"."+str(j)+".jpg"print(url)#打开网页rep = urllib.request.urlopen(url)#将图片存入本地，创建一个save_name的文件，wb为写入f = open(save_path+save_name,'wb')#写入图片f.write(rep.read())f.close()print('图片保存成功')def Cheak_img():#遍历文件夹中的图片for im in os.listdir(save_path):#获取图片绝对路径file_path = os.path.abspath("im")#计算图片占用内存im_occupy = os.path.getsize(os.path.join(save_path,im))if im_occupy < 100:os.rename(os.path.join(save_path,im),os.path.join(save_path,'No_found'+im))Scrap_img()
Cheak_img()

2022.1.31更新

目前关于街景影像的研究数据源用谷歌的比较多，国内数据源只有百度和腾讯有街景影像服务（香港地区有谷歌影像），而且感觉现在街景服务并没有给两个公司带来太多的应用方向，所以数据更新速度和质量都不太ok，我在北京6环内的地区找了2000个点，很多点都没有或者影像不全，四个方向（前后左右）齐全的比较少，并且百度全景在天顶方向只有俯视角度的影像（0-90°），俯视角度影像大概只有25%左右（个人感觉，不知道具体数值准不准），下面提供给大家俯视45°的街景爬取代码，代码基本没变，就在url中加了点东西，方便大家使用直接完整的代码给大家：

import urllib.request  #打开网页模块
import urllib.parse    #转码模块
import pandas as pd
import os
import requests#这里的路径可替换为自己保存文件夹的路径
save_path = r'D:\01bachelor\sk04paper\bdSVI/'
ak = "Lvgt7yw6mGCklShvUFzzss3i4fSqOEQu"#判断文件夹是否存在，若不存在则创建
if not os.path.exists(save_path):os.makedirs(save_path)
data = pd.read_excel(r"D:\01bachelor\sk04paper\SamplePoints\经纬度2000.xlsx",index_col = 0,usecols="A:C")def Scrap_img():
#使用for循环遍历出每个location坐标for i in range(2000):#获取采样点经纬度location_number = str(data.iloc[i][0])+','+str(data.iloc[i][1])#水平角度获取4个方向的照片for j in range(4):#旋转的角度#[0,1,2,3] * 90 = [0,90,180,270]heading_number = str(90*j)url = r"https://api.map.baidu.com/panorama/v2?" \"&width=1024&height=512" \"&location="+location_number+\"&heading="+heading_number+ \"&pitch="+str(45)+ \"fov="+str(90)+ \"&ak=" + ak#文件保存名称save_name =str(i)+"."+str(j+4)+"_"+location_number+".jpg"print(url)#打开网页rep = urllib.request.urlopen(url)#将图片存入本地，创建一个save_name的文件，wb为写入f = open(save_path+save_name,'wb')#写入图片f.write(rep.read())f.close()print('图片保存成功')def Cheak_img():#遍历文件夹中的图片for im in os.listdir(save_path):#获取图片绝对路径file_path = os.path.abspath("im")#计算图片占用内存im_occupy = os.path.getsize(os.path.join(save_path,im))if im_occupy < 150:os.rename(os.path.join(save_path,im),os.path.join(save_path,'No_found'+im))Scrap_img()
Cheak_img()

百度街景自动爬取，并自动检测没有影像的位置相关推荐

利用Python进行百度文库内容爬取（二）——自动点击预览全文并爬取
本文是衔接上一篇:<利用Python进行百度文库内容爬取(一)>. 上回说到我们在对百度文库进行爬虫时,需要模拟手机端来进行登录,这样固然可以对文章进行爬取,但是很多时候并不是非常智能的翻 ...
python3爬虫系列03之requests库：根据关键词自动爬取下载百度图片
python3爬虫系列03之requests库:根据关键词自动爬取下载百度图片 1.前言在上一篇文章urllib使用:根据关键词自动爬取下载百度图片当中,我们已经分析过了百度图片的搜索URL的变化 ...
爬虫实战：批量爬取京东内衣图片（自动爬取多页，非一页）
做下男生想做的事,爬取大量妹子内衣图. 作者: 电气-余登武准备工作假如我们想把京东内衣类商品的图片全部下载到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用python爬虫实现. 第一 ...
python 模拟浏览器selenium_使用Selenium模拟浏览器，实现自动爬取数据
最近需要在一个网站下载一批数据.但是输入一个查询,返回三四万条结果,每次只能导出500条,而且每次还得输入下载条目的范围!这样点击下载,还不要了我的老命.于是乎想自动化这个过程. 我的需求主要是两点: ...
如何用Python自动爬取全国30+城市地铁图数据？
阅读本文大概需要 3 分钟. 最近两天工作之余,开始涉猎python,自动爬取了全国30+城市地铁图数据,这里分享下整个爬虫过程 1. 数据来源首先分析全国各个城市地铁图的数据来源,无非就是百度或者 ...
使用Selenium模拟浏览器，实现自动爬取数据
最近需要在一个网站下载一批数据.但是输入一个查询,返回三四万条结果,每次只能导出500条,而且每次还得输入下载条目的范围!这样点击下载,还不要了我的老命.于是乎想自动化这个过程. 我的需求主要是两点: ...
使用selenium自动爬取斗鱼直播平台的所有房间信息
使用selenium自动爬取斗鱼直播平台的所有房间信息文章目录使用selenium自动爬取斗鱼直播平台的所有房间信息使用selenium实现动态页面模拟点击什么是selenium? selen ...
python自动爬取快看漫画并发布至头条号(没编程基础也可学会）
一,介绍 1.简介:这是一个可以自动爬取快看漫画上的漫画,下载到本地,并自动发布到今日头条号的编程,无编程基础的人也可学会 2.学习: 1)对于学习python技术的,你可以学习python爬虫技术 ...
使用AnyProxy自动爬取微信公众号数据-包括阅读数和点赞数
使用AnyProxy自动爬取微信公众号数据-包括阅读数和点赞数目录使用AnyProxy自动爬取微信公众号数据-包括阅读数和点赞数 @[toc](目录) 准备工作: 原理图 1.安装Node.js ...
Scrapy研究探索（六）——自动爬取网页之II（CrawlSpider）
原创,转载注明: http://blog.csdn.net/u012150179/article/details/34913315 基于上面的博客修改而得一目的在教程(二)中使用基于Spider ...

百度街景自动爬取，并自动检测没有影像的位置

百度街景自动爬取，并自动检测没有影像的位置相关推荐

最新文章

热门文章