淘女郎爬虫,可动态抓取淘女郎的信息和照片。

需要额外安装的第三方库

requests
pip install requests
pymongo
pip install pymongo

模块功能

TaoLady.py:负责发送POST请求和抓取个人信息和图片地址并保存到MongoDB中。

Download_Pic.py:负责从MongoDB中抽取出淘女郎照片的网址,并下载。

想要全部完整源码,以及python爬虫资料的,文末免费领取哦

原理

淘女郎的网站使用了AJAX技术。通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。这意味着通过直接抓取网页源代码然后分析出信息的方式是行不通的,因为网站是动态加载的,直接抓取的方式只能抓到网页原始的源代码,并不能抓到动态加载出的淘女郎的信息。

对于这一类网站,一般有两种抓取办法:

1.利用selenium库来模拟浏览器的用户行为,让服务器以为是真正的用户在浏览网页,从而获得完整的网页源代码
2.利用Chrome等浏览器自带的分析工具,对网页的Network进行监控,分析出数据交换的API,从而利用API抓取到数据交换的JSON数据,从而进行抓取。

一般来讲,第一种方法速度较慢,并且运行时占用较多的系统资源,所以,条件允许的情况下,尽量使用第二种方法。

在Chrome浏览器中打开淘女郎:
https://mm.taobao.com/search_tstar_model.htm? 按F12切换到开发者模式,在Network一栏选择XHR可以看到目前没有网络活动,但是,在网页中按下一页的时候,会出现一个POST活动,当再次按下下一页的时候,会再次出现一次该活动,所以,可以断定,数据交换使用的就是这个API。

然后我们再来对比这两次请求,在Headers框的FromData栏中,可以看到两次请求的差别在currentPage的不同,一个是2,一个是3,这说明,要想得到第几页的数据,这个currentPage的值就是多少。所以我们就根据这个,来编写请求,从而得到全部淘女郎信息的JSON文件。

发送请求,得到JSON数据,将其加工并转化为Python的字典类型返回

连接到MongoDB, 将信息保存

抽取出照片的网址,下载,保存在pic文件夹中

爬完了,成果斐然啊

最后

最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!(文末领取)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python必备开发工具

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。(文末领读者福利)

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(文末领读者福利)

五、Python练习题

检查学习结果。

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。 (文末领取哦)

这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

20行Python代码爬取网站美女图,哇太多了,我U盘装满了相关推荐

  1. 20行Python代码爬取王者荣耀全英雄皮肤改进版

    0 写在前面 看了大神的这篇CSDN:20行Python代码爬取王者荣耀全英雄皮肤访问量那么高,忍不住想要蹭一下热点,但是蹭归蹭,总得有点货才行,于是我品我细品,发现其代码总体有三点我觉得值得改进的地 ...

  2. [转载]20行Python代码爬取王者荣耀全英雄皮肤

    20行Python代码爬取王者荣耀全英雄皮肤,这是高手.原文链接: https://blog.csdn.net/qq_42453117/article/details/103190981 除了语言学习 ...

  3. 20行 Python 代码爬取王者荣耀全英雄皮肤 | 原力计划

    作者 | wangweijun 责编 | Elle 出品 | CSDN 博客 引言 王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王 ...

  4. 如何运用python爬游戏皮肤_Python爬虫练习:20行Python代码爬取王者荣耀全英雄皮肤...

    引言王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成. 准备工作 ...

  5. python爬虫脚本 初级入门爬虫英雄联盟所有皮肤_Python爬虫练习:20行Python代码爬取王者荣耀全英雄皮肤...

    引言王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成. 准备工作 ...

  6. 20行Python代码爬取2W多条音频文件素材【内附源码+详细解析】新媒体创作必备

    大家好,我是辣条. 今天的内容稍显简单,不过对于新媒体创作的朋友们还是很有帮助的,你能用上的话记得给辣条三连! 爬取目标 网站:站长素材 工具使用 开发工具:pycharm 开发环境:python3. ...

  7. 20行Python代码爬取下载应用宝所有APP软件!太强了啊

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本环境配置 python 3.6 pycharm requests parsel 打开开发 ...

  8. python爬虫代码1000行-几行Python代码爬取3000+上市公司的信息

    几行Python代码爬取3000+上市公司的信息 来源:中文源码网 浏览: 次 日期:2019年11月5日 [下载文档: 几行Python代码爬取3000+上市公司的信息.txt ] (友情提示:右键 ...

  9. python 爬取财经新闻股票_70行python代码爬取新浪财经中股票历史成交明细

    70行python代码爬取新浪财经中股票历史成交明细 发布时间:2018-07-28 01:55, 浏览次数:635 , 标签: python 最近在研究股票量化,想从每笔成交的明细着手,但历史数据的 ...

最新文章

  1. 字节跳动终于宣布取消大小周,字节员工却一片哀嚎!
  2. CloudStack的基本使用
  3. 探讨微软ASP.NET AJAX控件开发技术(服务器端)
  4. deepin--解决屏幕撕裂问题
  5. python类库的查找
  6. 云炬随笔20180419
  7. 在阿里,我们如何管理代码分支?
  8. 【Python】选择Python2还是Python3?
  9. java输错重新输入_java程序在dos界面运行时输入错误后返回重新输入的方法
  10. 插值算法及matlab实现,MATLAB 插值算法实现
  11. 未来计划让儿子和他爷爷出国游一次
  12. JavaEE实战班第七天
  13. 对于李群和李代数的理解
  14. linux cd是什么目录,linux-cd命令
  15. 在WPF中创建可换肤的用户界面
  16. Python爬虫安居客房价信息(并利用百度地图API查询坐标)
  17. 2020年中国网络安全产业白皮书分析解读
  18. 一步一步编写12306抢票软件
  19. 【多目标进化优化】多目标进化群体的分布性
  20. 大数据告诉你——垃圾围城,现行的垃圾分类制度,作用到底能有多大?

热门文章

  1. MySQL 为日期增加一个时间间隔
  2. 香港金银业贸易场十大会员名单排行榜
  3. java练习04|银行利率表如下表所示,请计算存款10000元,活期1年、活期2年,定期1年,定期2年后的本息合计。
  4. Windows7安装mysql-压缩包方式
  5. MySQL 怎么插入10天前的日期_使用 MySQL 的 SQL_MODE 有哪些坑,你知道么?
  6. 2022年最热门三款骨传导测评推荐:骨传导选购指南分享,骨传导耳机选哪款好?
  7. lio linux工具,LIO介绍
  8. excel表格拆分多个表如何操作
  9. java象棋代码注释_中国象棋程序的设计与实现(十一)--棋盘绘制算法(尽管注释非常详细,完全理解仍有难度)...
  10. 【干货】人工智能专业重要词汇表(红宝书)