今天百度街景的权限申请成功了,所以就试了下之前找到的一个爬取街景的代码,我把原作者导入数据时文件格式txt改成了xlsx,因为表格比较方便批量修改一些内容。

爬取到的街景影像有很多都没有数据,返回的是一些固定的图片,一个一个筛选太麻烦了,所以写了一段代码可以检测到这些影像,并且改名为特定格式,方便后续的一些筛选工作。

直接上代码

import urllib.request  #打开网页模块
import urllib.parse    #转码模块
import pandas as pd
import os
import requests#这里的路径可替换为自己保存文件夹的路径
save_path = r'D:\01bachelor\sk04paper\bdSVI/'
ak = "填写你的AK码"#判断文件夹是否存在,若不存在则创建
if not os.path.exists(save_path):os.makedirs(save_path)
data = pd.read_excel(r"D:\01bachelor\sk04paper\SamplePoints\400经纬度.xlsx",index_col = 0,usecols="A:C")def Scrap_img():
#使用for循环遍历出每个location坐标for i in range(400):#获取采样点经纬度location_number = str(data.iloc[i][0])+','+str(data.iloc[i][1])#水平角度获取4个方向的照片for j in range(4):#旋转的角度#[0,1,2,3] * 90 = [0,90,180,270]heading_number = str(90*j)url = r"https://api.map.baidu.com/panorama/v2?" \"&width=1024&height=512" \"&location="+location_number+\"&heading="+heading_number+ \"&ak=" + ak#文件保存名称save_name =str(i)+"."+str(j)+".jpg"print(url)#打开网页rep = urllib.request.urlopen(url)#将图片存入本地,创建一个save_name的文件,wb为写入f = open(save_path+save_name,'wb')#写入图片f.write(rep.read())f.close()print('图片保存成功')def Cheak_img():#遍历文件夹中的图片for im in os.listdir(save_path):#获取图片绝对路径file_path = os.path.abspath("im")#计算图片占用内存im_occupy = os.path.getsize(os.path.join(save_path,im))if im_occupy < 100:os.rename(os.path.join(save_path,im),os.path.join(save_path,'No_found'+im))Scrap_img()
Cheak_img()

2022.1.31更新

目前关于街景影像的研究数据源用谷歌的比较多,国内数据源只有百度和腾讯有街景影像服务(香港地区有谷歌影像),而且感觉现在街景服务并没有给两个公司带来太多的应用方向,所以数据更新速度和质量都不太ok,我在北京6环内的地区找了2000个点,很多点都没有或者影像不全,四个方向(前后左右)齐全的比较少,并且百度全景在天顶方向只有俯视角度的影像(0-90°),俯视角度影像大概只有25%左右(个人感觉,不知道具体数值准不准),下面提供给大家俯视45°的街景爬取代码,代码基本没变,就在url中加了点东西,方便大家使用直接完整的代码给大家:

import urllib.request  #打开网页模块
import urllib.parse    #转码模块
import pandas as pd
import os
import requests#这里的路径可替换为自己保存文件夹的路径
save_path = r'D:\01bachelor\sk04paper\bdSVI/'
ak = "Lvgt7yw6mGCklShvUFzzss3i4fSqOEQu"#判断文件夹是否存在,若不存在则创建
if not os.path.exists(save_path):os.makedirs(save_path)
data = pd.read_excel(r"D:\01bachelor\sk04paper\SamplePoints\经纬度2000.xlsx",index_col = 0,usecols="A:C")def Scrap_img():
#使用for循环遍历出每个location坐标for i in range(2000):#获取采样点经纬度location_number = str(data.iloc[i][0])+','+str(data.iloc[i][1])#水平角度获取4个方向的照片for j in range(4):#旋转的角度#[0,1,2,3] * 90 = [0,90,180,270]heading_number = str(90*j)url = r"https://api.map.baidu.com/panorama/v2?" \"&width=1024&height=512" \"&location="+location_number+\"&heading="+heading_number+ \"&pitch="+str(45)+ \"fov="+str(90)+ \"&ak=" + ak#文件保存名称save_name =str(i)+"."+str(j+4)+"_"+location_number+".jpg"print(url)#打开网页rep = urllib.request.urlopen(url)#将图片存入本地,创建一个save_name的文件,wb为写入f = open(save_path+save_name,'wb')#写入图片f.write(rep.read())f.close()print('图片保存成功')def Cheak_img():#遍历文件夹中的图片for im in os.listdir(save_path):#获取图片绝对路径file_path = os.path.abspath("im")#计算图片占用内存im_occupy = os.path.getsize(os.path.join(save_path,im))if im_occupy < 150:os.rename(os.path.join(save_path,im),os.path.join(save_path,'No_found'+im))Scrap_img()
Cheak_img()

百度街景自动爬取,并自动检测没有影像的位置相关推荐

  1. 利用Python进行百度文库内容爬取(二)——自动点击预览全文并爬取

    本文是衔接上一篇:<利用Python进行百度文库内容爬取(一)>. 上回说到我们在对百度文库进行爬虫时,需要模拟手机端来进行登录,这样固然可以对文章进行爬取,但是很多时候并不是非常智能的翻 ...

  2. python3爬虫系列03之requests库:根据关键词自动爬取下载百度图片

    python3爬虫系列03之requests库:根据关键词自动爬取下载百度图片 1.前言 在上一篇文章urllib使用:根据关键词自动爬取下载百度图片 当中,我们已经分析过了百度图片的搜索URL的变化 ...

  3. 爬虫实战:批量爬取京东内衣图片(自动爬取多页,非一页)

    做下男生想做的事,爬取大量妹子内衣图. 作者: 电气-余登武 准备工作 假如我们想把京东内衣类商品的图片全部下载到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用python爬虫实现. 第一 ...

  4. python 模拟浏览器selenium_使用Selenium模拟浏览器,实现自动爬取数据

    最近需要在一个网站下载一批数据.但是输入一个查询,返回三四万条结果,每次只能导出500条,而且每次还得输入下载条目的范围!这样点击下载,还不要了我的老命.于是乎想自动化这个过程. 我的需求主要是两点: ...

  5. 如何用Python自动爬取全国30+城市地铁图数据?

    阅读本文大概需要 3 分钟. 最近两天工作之余,开始涉猎python,自动爬取了全国30+城市地铁图数据,这里分享下整个爬虫过程 1. 数据来源 首先分析全国各个城市地铁图的数据来源,无非就是百度或者 ...

  6. 使用Selenium模拟浏览器,实现自动爬取数据

    最近需要在一个网站下载一批数据.但是输入一个查询,返回三四万条结果,每次只能导出500条,而且每次还得输入下载条目的范围!这样点击下载,还不要了我的老命.于是乎想自动化这个过程. 我的需求主要是两点: ...

  7. 使用selenium自动爬取斗鱼直播平台的所有房间信息

    使用selenium自动爬取斗鱼直播平台的所有房间信息 文章目录 使用selenium自动爬取斗鱼直播平台的所有房间信息 使用selenium实现动态页面模拟点击 什么是selenium? selen ...

  8. python自动爬取快看漫画并发布至头条号(没编程基础也可学会)

    一,介绍 1.简介:这是一个可以自动爬取快看漫画上的漫画,下载到本地,并自动发布到今日头条号的编程,无编程基础的人也可学会 2.学习: 1)对于学习python技术的,你可以学习python爬虫技术 ...

  9. 使用AnyProxy自动爬取微信公众号数据-包括阅读数和点赞数

    使用AnyProxy自动爬取微信公众号数据-包括阅读数和点赞数 目录 使用AnyProxy自动爬取微信公众号数据-包括阅读数和点赞数 @[toc](目录) 准备工作: 原理图 1.安装Node.js ...

  10. Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)

    原创,转载注明: http://blog.csdn.net/u012150179/article/details/34913315 基于上面的博客修改而得 一 目的 在教程(二)中使用基于Spider ...

最新文章

  1. 【已解决】Errors during downloading metadata for repository ‘appstream‘: - Status code: 404 for
  2. 一个几何级数的无限和思考
  3. 前端学习(2472):发布文章功能介绍
  4. linux mysql 系统时间函数吗_Linux 宝库 - Mysql日期和时间函数不求人
  5. 【Codeforces - 找不到题号】三元环计数(bitset优化,压位)
  6. 数博会重磅活动:第二届大数据科学与工程国际会议详细日程
  7. DreamWeaver做ASP 服务器配置篇
  8. 计算机算法设计与分析 循环赛日程表
  9. java-将xlsx(excel)文件转换成json
  10. 一分钟了解阿里云产品:网络安全专家服务
  11. Luogu5280 [ZJOI2019] 线段树 【线段树】
  12. 中国高性能计算服务器排名,2007中国高性能计算100强出炉
  13. JAVA--set用法
  14. protel常用元件封装大全
  15. vue 删除页面缓存_VUE清除keepalive页面缓存
  16. 20.8 cace判断
  17. Linux/软件 - 资源[国外站点]
  18. neu1482 2014辽宁省赛Picking Cabbage(状态压缩)
  19. 网络工程项目报价单应该怎么写?记住这6个步骤准没错!
  20. mysql 用户名唯一,mysql用户名和密码(mysql忘记用户名密码)

热门文章

  1. FDA“长寿药”NMN被爆几毛一克,富豪被收天价智商税?
  2. Matplotlib等高线图
  3. ThreadLocal使用场景
  4. P2141_珠心算测验
  5. k线形态python_Python量化分析之K线模式识别
  6. 北京游玩之北海首都博物馆
  7. 什么是pid控制算法_控制算法原理及实现之PID(以飞控为例)
  8. PHP基础知识系统复习
  9. macOS用的是linux系统吗
  10. 图片质量与ISO 光圈 快门 测光 曝光与曝光补偿 焦距和焦距转换系数 景深与光圈优先 白平衡与RAW