爬虫其实在电商算法从业人员的应用中,其实是很广泛的,爬虫本身作为一门技术,是具有很强使用价值的。我觉得作为算法工程师,一定要会爬虫,至少基本的网页要会爬,其实爬虫本身也很简单,过于复杂的网页爬取,我自己也很少爬,基本就是二大类,一类是静态网页爬取,一类是动态ajax爬取,我自己随便写了个点代码,做视觉创意这块场爬的几个网站。

GitHub - leeguandong/TpImgspider: 爬图片工具爬图片工具. Contribute to leeguandong/TpImgspider development by creating an account on GitHub.https://github.com/leeguandong/TpImgspider        技术这块,主要就是requests和xpath。一般的步骤就是先看network,network这块主要看xhr,xhr是异步ajax的标题,现在的一些素材网站也基本都切到ajax上面了,爬一些缩略图的有的时候静态页面也行,加上cookie之后也能爬完,做训练基本是够了,xhr中一般找到返回json的链接,preview中一般会隐藏一些参数,这些参数和主要的xhr链接进行拼接能拿到返回json的链接。对于前后端框架来说,一般进行数据交互的就是json数据格式,但是这是比较理想的方式。

当然现在很多网站一般看不出来有啥拼接链接的规律,所以一般通过selenium渲染网页来爬去,渲染网页之后通过find_elements_by_xpath拿到元素的链接,再通过requests爬取,selenium这块目前已经不支持phamejs了,无头的chorme也必须得匹配上webdriver了,chorme的webdriver我一直匹配不上,我用的是Firefox,这块也不复杂,直接把webdriver写到具体的链接上。

driver = webdriver.Firefox(executable_path=r'F:\Dataset\qiantu\geckodriver-v0.31.0-win64\geckodriver.exe')
driver.get(self.url)

此外一般爬网站最好把cookie加上,否则会限制爬取,至于存储,一般就是存图片和链接。

爬虫->TpImgspider相关推荐

  1. html,xml_网页开发_爬虫_笔记

    20220402 笔记本走手机热点,重连之后又是另一个ip 20220331 https://mp.weixin.qq.com/s/znXuCB0Fl32TbP_0UaO6SQ 爬虫相关知识快速复习 ...

  2. Python 爬虫框架Scrapy安装汇总

    传统方式安装Scrapy(慎用) 练习了基本的操作之后,当然就要找框架来进行爬虫实验啊.于是就在网上找Windows 64安装Scrapy的方法,查到的都是非常繁琐的安装方式,由于Scrapy有很多个 ...

  3. Python:爬虫框架Scrapy的安装与基本使用

    一.简单实例,了解基本. 1.安装Scrapy框架 这里如果直接pip3 install scrapy可能会出错. 所以你可以先安装lxml:pip3 install lxml(已安装请忽略). 安装 ...

  4. Python:从零搭建Redis-Scrapy分布式爬虫

    Scrapy-Redis分布式策略: 假设有四台电脑:Windows 10.Mac OS X.Ubuntu 16.04.CentOS 7.2,任意一台电脑都可以作为 Master端 或 Slaver端 ...

  5. Python案例:使用XPath的爬虫

    案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # tieba_xpath.py#!/usr/b ...

  6. Python案例:使用正则表达式的爬虫

    案例:使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/ ...

  7. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  8. python爬虫之Scrapy框架的post请求和核心组件的工作 流程

    python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...

  9. Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党

    Rstudio 爬虫 文本分词个性化词云设计 目录 1.环境准备,加载依赖 2.rvest 爬虫,数据爬取 3.jiebaR用于分词,词频统计 4.wordcloud2 结果可视化 ========= ...

  10. 『Scrapy』爬虫框架入门

    框架结构 引擎:处于中央位置协调工作的模块 spiders:生成需求url直接处理响应的单元 调度器:生成url队列(包括去重等) 下载器:直接和互联网打交道的单元 管道:持久化存储的单元 框架安装 ...

最新文章

  1. C# Trim 的使用
  2. %matplotlib inline %config InlineBackend.figure_format = “retina为了将图片嵌入notebook及提高分
  3. 小波的秘密2_MATLAB图像多尺度分析
  4. 红帽7 -本地yum配置
  5. Android 进阶 教你打造 Android 中的 IOC 框架 【ViewInject】 (下)
  6. SecurtCRT连接服务器自动断开
  7. 1005打印任务取消不了 hp_惠普HP M1136 MFP多功能打印机 一年半使用感受(学生打印机)...
  8. 余承东:华为6G研发还需10年;库克“iPhone 11势头强劲”;TensorFlow 2.0正式版发布​ | 极客头条...
  9. A - A Dangerous Maze
  10. matlab complex
  11. 华为网络设备-生成树协议配置
  12. 各种音视频编解码学习详解 h264 ,mpeg4 ,aac 等所有音视频格式
  13. Linux常用命令大全(非常全!!!)
  14. 【iOS】通过URL Scheme启动app(收集了常用的app的URL Scheme)
  15. 蓝凌生态OA,重新定义中大型企业数字化办公
  16. 腾讯云离线语音识别sdk
  17. 【WPS表格】避免数据重复录入快速核对某列数据是否相同对比两个工作表的数据
  18. 深入浅出精讲面向对象设计七大原则,彻底领悟设计背后思想
  19. 4G的想象:移动视频行业将迎来大爆发
  20. java游戏开发杂谈 - 游戏编程浅析

热门文章

  1. hive对字段去除空格trim()函数
  2. 面试必备 | 带你彻底搞懂 Python 生成器。
  3. EAN13条形码生成器
  4. 计算机报时间校准错误无法启动,【北京时间同步如何校准?】电脑时间同步服务器地址出错怎么办?...
  5. 如何利用信息差来创造价值?
  6. excel有的单元文字可以超出单元格_在excel单元格超过字数限制的设置方法 excel单元格字数限制...
  7. Poi-tl通过word模板生成文件页眉页脚冲突问题
  8. 如何关闭正在运行的端口
  9. python表格绘制斜线表头_Excel技巧—轻松搞定各种表头
  10. 计算机老掉线 路由器网络,路由器无线掉线怎么办?