本文仅供学习交流使用,如侵立删!

汽车之家2022 全系车型参数(包含历史停售车型)


2022.3.19更新

  • 增加参数:电动扰流板、无框设计车门、隐藏电动门把手、自动驾驶芯片、芯片总算力…

2021.8.12更新

  • 最新官网数据(共57380款车型数据)

2021.7.8更新

  • 最新官网数据(新增或修改共1098款车型数据)

打包成了采集器,需要的自行下载。


2021.5.17更新

  • 更新最新官网数据:新增821款车型参数及图片

2021.4.14更新

  • 最新官网数据
  • 更改解析,保存更多参数
  • 增加:logo、车型图片



2021.3.7更新最新数据


2021.1.29更新

全系车辆十年保值率数据


2021.1.17更新

汽车之家全系车型图片:576149张原图(50.5G)


2021.1.8更新

增加:品牌LOGO


2021.1.6更新

更新:最新2021官网数据


2020.5.9更新

增加:选装包、外观颜色、内饰颜色参数
修复:多行数据存储不完整问题


2020.4.15更新

更新最新官网数据


2020.3.22更新

新增:途虎养车 车型、保养 数据
https://blog.csdn.net/qq_38154948/article/details/104700905


2020.1.9更新

增加:品牌首字母,品牌ID,品牌名称,车系ID,车系名称,车型ID,车型名称 字段数据


2019.12.25更新

很多网友留言说需要车标logo,果断满足需求

1. 车标logo页面
只需要车标logo和品牌参数,从移动端页面直接获取比较方便
https://car.m.autohome.com.cn/

2.解析车标图片url和品牌名称

response = requests.get("https://car.m.autohome.com.cn/")
response.encoding = 'UTF-8'
html = etree.HTML(response.text)
items = html.xpath('//*[@class="item"]')
for item in items:logo_url = item.xpath('./img/@data-src')if not logo_url:continuetext = item.xpath('./span')[0].text    downLoadImage(text, logo_url[0])

3.根据url下载图片

def downLoadImage(fileName, downLoadUrl):r = requests.get(downLoadUrl)fileName = fileName + ".jpg"print("正在下载 " + fileName)with open("img/" + fileName, 'wb') as f:f.write(r.content)

4.运行结果


2019.12.17更新

闲来无事研究了一下*车之家页面class 字体混淆

思路:

  1. 获取车型参数页面源码
  2. 解析车型混淆字体js数据
  3. 解析车型参数json数据
  4. 匹配样式文件与json数据
  5. 将混淆后的字体替换为正常字体

效果:

途中碰到问题:

  • 历史车型的获取
  • 全部参数的解析
  • 数据错位问题

2019.10.12更新

有人反馈数据不全刚抽出时间看了一下,原来之前只取了在售车型没有获取停售的车型数据,本次更新后数据为国内在售(停售)全系车型数据包含历史数据


2019.9.29更新

闲来无事把脚本更新了一下用selenium,获取了全系全车型详细参数,主要这次包含了停售车型数据,所有历史车型数据


所有车型数据


分析发现所有车型数据在一个js文件中:
ps:当然也可通过解析网页 xpath提取,或通过接口,获取方式有很多种,此文主要需要seriesId 车型ID 这一项数据 为获取车型价格做准备 顾用此方法。

 def get_model(self):"""获取所有车型数据"""# 所有车型js文件url = '~~删除线格式~~ 'response = self._parse_url(url)# GBK解码content = response.content.decode('GBK')# 剔除开头和结尾处多余字符 转换为jsoncontent = content.replace('var listCompare$100= ', '').replace(';', '')content = json.loads(content)for i in content:# 品牌首字母,名称,车系列表brand_l, brand_n, brand_list,  = i['L'], i['N'], i['List']for q in brand_list:# 车系名称,车型列表car_l, car_list = q['N'], q['List']for t in car_list:# 车型ID, 车型名称model_l = t['I']model_n = t['N']yield brand_l, brand_n, car_l, model_n, model_l

获取价格


价格接口需要两个参数:dealerId 经销商ID 和 seriesId 车型ID


经销商接口需要两个参数:seriesId 车型ID 和 cityId 区域代码

    def get_price(self, dealerId, seriesId):"""获取价格"""url = ‘~~删除线格式~~ ’# 根据经销商ID 和 车型ID 获取车型价格response = self._parse_url(url)# 无数据跳过if not response.json()['result']['list']:print('暂无经销商信息')return# 获取经销商信息 主要取经销商ID 用来获取价格contents = response.json()['result']['list']for con in contents:# 汽车型号SpecName = con['SpecName']# 指导价OriginalPrice = con['OriginalPrice']# 参考价Price = con['Price']print('{}数据请求中'.format(SpecName))yield SpecName, OriginalPrice, Price


数据DEMO

链接:https://pan.baidu.com/s/1aQMR_2ix_ANK7DkujxaAwg
提取码:cmwi


本文仅供学习交流使用,如侵立删!

Python 汽车之家最新 全系车型参数(包含历史停售车型)相关推荐

  1. Python 汽车之家 全系车型参数(包含历史停售车型)爬虫

    本文仅供学习交流使用,如侵立删! 汽车之家2021 全系车型参数(包含历史停售车型) 2021.10.21更新 增加参数:电动扰流板.无框设计车门.隐藏电动门把手.自动驾驶芯片.芯片总算力- 2021 ...

  2. 买车之前怎能不做一份最全买车攻略呢?Python五分钟实抓取全系车型参数(包含历史停售车型) 最全。

    ​ ​汽车之家2021 全系车型参数(包含历史停售车型)​ ​ **** ​ ​2021.10.21更新​ ​ 增加参数:电动扰流板.无框设计车门.隐藏电动门把手.自动驾驶芯片.芯片总算力... ** ...

  3. Python 车主之家全系车型(包含历史停售车型)配置参数爬虫

    本文仅供学习交流使用,如侵立删!demo下载见文末 车主之家全系车型(包含历史停售车型)配置参数爬虫 先上效果图 环境: win10 ,Contos7.4 python3.9.4 pycharm202 ...

  4. 汽车之家全系车型(包含历史停售车型)图片--参数分析

    本文仅供学习交流使用,如侵立删! 环境 win10 Python:3.6.7 Scrapy:2.4.1 2021.5.17更新 更新最新官网数据:新增821款车型参数及图片 2021.1.17更新 汽 ...

  5. 【Python爬虫系列教程 31-100】通过scrapy框架、爬取汽车之家宝马5系图片,学习Images管道

    现在爬取的汽车之家宝马5系车的图片,可以看到在这个网址里面,放了车的不同部位的图片,下面就要将他们爬下来并且保存到不同的文件夹. 首先用到的是pycharm IDE,这个软件可以提高编写代码的效率,因 ...

  6. Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图

    Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图 1. 创建项目 2. 使用ImagesPipeline爬取数据 items.py setings.py aut ...

  7. scrapy爬取汽车之家宝马5系图片

    需求分析 我们想在汽车之家官网上爬取宝马5系的部分图片,并根据分类保存到本地磁盘欣赏, 进入这个页面,分析发现,是按照多个维度进行分类的,因此我们要提取图片的时候,需要依次遍历没每个分类,然后在进入到 ...

  8. Python 途虎养车全系车型轮毂--参数分析与实现

    本文仅供学习交流使用,如侵立删!demo下载见文末 2021.3.5最新数据 效果: 环境: win10 ,Contos7.4 python3.6.1 pycharm2017 retrying=1.3 ...

  9. Python 汽车之家 车型销量--参数分析与实现

    本文仅供学习交流使用,如侵立删! 数据: 环境: win10 ,Contos7.4 python3.9 pycharm2021 retrying=1.3.3 requests=2.22.0 fake_ ...

  10. scrapy下载汽车之家宝马5系高清图片

    首先打开链接:https://www.autohome.com.cn/202/#levelsource=000000000_0&pvareaid=101594点击图片实拍: 然后新建一个scr ...

最新文章

  1. 微软为什么从 C/C++ 转向了 Rust?
  2. UIPasteboard 粘贴板
  3. 使用cnpm代替npm优化下载速度
  4. css3实践之图片轮播(Transform,Transition和Animation)
  5. UkrGuru.SqlJson——你的SQL Server和.NET 5之间的链接
  6. python 学堂在线_最新网课答案2020学堂在线Python 交互式程序设计导论
  7. python 语句执行顺序_一个针对 Python 语句执行顺序的练习
  8. Swift是Android的未来么?
  9. 代码对比工具 mac
  10. linux玩游戏无声音,Linux下LumaQQ 无声音的解决方法与播放电影
  11. 数据库添加字段的sql语句
  12. 益聚星荣:海底捞要关300家店,火锅还有救吗?
  13. linux查看UID命令,Linux下查看UID
  14. 市场营销人的高效办公神器
  15. GDT陶瓷气体放电管的材质介绍
  16. 简单典型二阶系统_MIT—微分方程与线性代数笔记2.1 二阶常微分方程
  17. mysql: [Warning] Using a password on the command line interface can be insecure.解决方法
  18. Github 配置SSH keys教程
  19. 最后一批!十几所大学计算机考研改考、新增专业统计
  20. 深入理解vue slot插槽

热门文章

  1. JDK 内置的轻量级 HTTP 服务器 --- HttpServer
  2. docker-compose 部署 mindoc文档服务器(支持在线markdown文件编辑)
  3. Vim插件合集 (打造你的专属炫酷IDE)
  4. 【c++入门(2)】完全背包
  5. 单片机控制两个步进电机画圆_单片机控制的步进电机程序框图
  6. JMeter详细使用手册
  7. oracle 常用调优方法
  8. 自动化运维工具ansible安装及使用
  9. 即席查询—Presto
  10. CacheCloud详解(一)----------CacheCloud搭建(Redis云平台)