汽车之家作为一家上市公司,本身具有强大的技术实力支持,简单的数据易爬,复杂而机密的数据,可见不可求。

如下图所示:核心的数据,在页面是找不到文字的,全是空空空空!!!和尚一样!

经过测试发现,这些数据都是CSS伪代码装载而成,每一个class代表一个字或单词。如上图,class="hs_kw17_configbF"就代表“一汽”。

知道原理后,基本就是解码工作,怎么干最快?

html = driver.page_source #通过selenium把js驱动的css代码加载下来

obj = re.compile('span class="(hs_kw.*?)"></span>', re.S) # 提取CSS代码
brands = obj.findall(html) #

# 对加密网页破译
brands = list(set(brands))
for classname_ in brands:
       txt = get_classname(classname_) #造一个解析函数来解码CSS
       html = re.sub('<span class="' + classname_ + '"></span>', txt.replace('"', ''), html) #一次性全部替换成中文,这样就能正则了。

python的核心思想就是少写代码,要是一个代码写很长解决不了问题,那就是方向不对,重新思考哦。

python爬虫 : 汽车之家车型最新爬取解密方法相关推荐

  1. pythonttf字体反爬虫_Python爬虫---汽车之家字体反爬

    本篇文章给大家带来的内容是关于Python爬虫---汽车之家字体反爬,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 目标网站:汽车之家 目标网址:https://club.autoh ...

  2. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  3. python爬虫入门实战---------一周天气预报爬取_Python爬虫入门实战--------一周天气预报爬取【转载】【没有分析...

    Python爬虫入门实战--------一周天气预报爬取[转载][没有分析 Python爬虫入门实战--------一周天气预报爬取[转载][没有分析] 来源:https://blog.csdn.ne ...

  4. Python爬虫《自动化学报》数据爬取与数据分析

    Python爬虫<自动化学报>数据爬取与数据分析 文章目录 Python爬虫<自动化学报>数据爬取与数据分析 前言 一.代码 二.结果展示 三.爬虫实现 1.准备 2.获取网页 ...

  5. 基于python爬虫————静态页面和动态页面爬取

    基于python爬虫----静态页面和动态页面爬取 文章目录 基于python爬虫----静态页面和动态页面爬取 1. 爬虫的原理 2. 用正则表达式匹配获取数据 3. 页面源码解析 4. 通过req ...

  6. Python 爬虫 之 Selenium 模拟打开操作浏览器爬取斗鱼全部视播相关信息,并json保存信息

    Python 爬虫 之 Selenium 模拟打开操作浏览器爬取斗鱼全部视播相关信息,并json保存信息 基础: Python 爬虫 之 Selenium.webdriver 的安装,以及模拟打开操作 ...

  7. Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影

    文章目录 前言 安装bs4库 网站分析 获取页面 爬取页面 页面分析 其他页面 爬虫系列 前言 经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...

  8. Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行

    Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...

  9. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

最新文章

  1. python做定时任务的方式及优缺点_python BlockingScheduler定时任务及其他方式的实现...
  2. Spring JdbcTemplate方法详解
  3. 高房价可控制人口增长与人口素质?
  4. 小程序页面遮罩且不能滚动 + 内容居中显示
  5. 服务器拉取openssl文件,使用openssl从服务器获取证书
  6. html css 水平时间轴,纯css+js水平时间轴
  7. 华为鸿蒙显示安卓,被谷歌除名,华为6月2日发布鸿蒙反击,开机界面已流出!...
  8. 再看产业地图及《中国2010-2011产业地图》书评
  9. 文件服务器配件,文件服务器 硬件配置
  10. 一个MYSQL PDO相对完整且功能强大的封装类
  11. 史上最全Java学习资料,共14W字,耗时半年整理
  12. Deeping Learning学习与感悟——《深度学习工程师》_4
  13. 破解vs2010番茄插件
  14. 联想台式计算机 不启动u盘,联想电脑不能u盘启动怎么办
  15. win10用易语言需要C环境,win10系统易语言打开支持库配置就崩溃的具体教程
  16. Ubuntu18.04美化主题(mac主题)
  17. afm原子力分析软件_【干货】原子力显微镜(AFM)的使用和成像技巧
  18. 服务器和交换机物理连接_服务器与交换机连接及校园网搭建方案
  19. Native xdp hook 点
  20. javaweb接口开发

热门文章

  1. JSONP跨域资源共享的安全问题
  2. 链表逆序——就地逆序
  3. 【AI数学】相机成像之外参数
  4. 2004-2019年286个地级市实际利用外资
  5. 图数据库Neo4简介-CQL语法
  6. 李宏毅2022ML第四周课程笔记
  7. 如何高效率学习R?[转自微信:R语言中文社区]
  8. PHP的json操作
  9. uniapp 文件上传 2021-06-10
  10. 遇到Host ‘xxx’ is not allowed to connet to this MySQL server 问题