1.爬虫介绍

  编写程序,根据URL获取网站信息

2.用到的库

  requests库

  bs4库

3.内容及步骤

4.代码

import requests
import os
from bs4 import BeautifulSoup
# 1.下载页面
ret = requests.get(url='https://www.autohome.com.cn/news/')
ret.encoding = ret.apparent_encoding
# print(ret.text)  爬取的内容# 2.解析:获取想要的指定内容beautifulsoup
soup = BeautifulSoup(ret.text, 'html.parser')  # lxml
div = soup.find(name='div', id='auto-channel-lazyload-article')
li_list = div.find_all(name='li')
# 更改下载地址
os.mkdir("图片")
os.chdir("图片")
for li in li_list:# 获取新闻标题h3 = li.find(name='h3')if not h3:continue# 获取新闻内容p = li.find(name='p')# 获取链接地址a = li.find(name='a')# print(a.attrs)获取属性print(h3.text,a.get('href'),p.text)print('=' * 15)# 获取图片链接并下载img = li.find('img')src = img.get('src')# 根据__分割,得到列表file_nane = src.rsplit('__', maxsplit=1)[1]ret_img = requests.get(url='https:' + src)with open(file_nane, 'wb') as f:f.write(ret_img.content)

  

find的扩展:

  可以用:

    1.id,_class

    2.attrs方式

转载于:https://www.cnblogs.com/yhstcxx/p/10946511.html

老男孩爬虫实战密训课第一季,2018.6,初识爬虫训练-实战1-爬取汽车之家新闻数据...相关推荐

  1. 爬虫【爬取汽车之家新闻】

    代码示例 # coding:utf-8 import requests from bs4 import BeautifulSoup# http方式 response = requests.get('h ...

  2. python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片

    随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...

  3. Python 爬虫实战入门——爬取汽车之家网站促销优惠与经销商信息

    在4S店实习,市场部经理让我写一个小程序自动爬取汽车之家网站上自家品牌的促销文章,因为区域经理需要各店上报在网站上每一家经销商文章的露出频率,于是就自己尝试写一个爬虫,正好当入门了. 一.自动爬取并输 ...

  4. python爬虫利用Scrapy框架爬取汽车之家奔驰图片--实战

    先看一下利用scrapy框架爬取汽车之家奔驰A级的效果图 1)进入cmd命令模式下,进入想要存取爬虫代码的文件,我这里是进入e盘下的python_spider文件夹内 C:\Users\15538&g ...

  5. python3爬虫系列16之多线程爬取汽车之家批量下载图片

    python3爬虫系列16之多线程爬取汽车之家批量下载图片 1.前言 上一篇呢,python3爬虫系列14之爬虫增速多线程,线程池,队列的用法(通俗易懂),主要介绍了线程,多线程,和两个线程池的使用. ...

  6. python爬虫(二十四)爬取汽车之家某品牌图片

    爬取汽车之家某品牌图片 需求 爬取汽车之家某品牌的汽车图片 目标url https://car.autohome.com.cn/photolist/series/52880/6957393.html# ...

  7. 爬取汽车之家图片 - scrapy - crawlspider - python爬虫案例

    爬取汽车之家图片 需求:爬取汽车之家某一个汽车的图片 ​ 一. 普通scrapy 第一步 页面分析 目标url: https://car.autohome.com.cn/photolist/serie ...

  8. Python爬虫系列之爬取微信公众号新闻数据

    Python爬虫系列之爬取微信公众号新闻数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流 ...

  9. 爬虫第四式:增量爬虫之爬取汽车之家数据

    今天我们实现增量爬虫~,先来了解一下啥是增量爬虫?? 增量爬虫: 通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据 通俗来讲:就是当你在爬取一个网站的数据的时候,反反复复在爬取 ...

最新文章

  1. 如何在java中调用js方法
  2. 【C++】50.编程中切换状态的【有限状态机】
  3. mysql集群数据引擎_MySQL数据引擎
  4. HDU 5025:Saving Tang Monk(BFS + 状压)
  5. 对窗口过程函数WndProc()的一点理解
  6. chrome插件 实现微博言论监控
  7. html5新增标记元素的内容类型,HTML5新标签与javaScript新方法
  8. C++11 新特性整理 (1)
  9. VPP 助你创新更高效、更灵活的报文处理方案
  10. mysql查询一个月未登录_mysql函数实例-统计1周内未登陆的用户
  11. 微信java版s40_塞班微信S40版下载 v1.0 Beta-symbian微信S40版-pc6下载站
  12. 卓有成效的管理者(笔记)——掌握自己的时间
  13. k8s修改集群IP--不重置集群
  14. C语言入门-跑步问题
  15. Reflex WMS中阶系列1 – Reflex WMS系统打印单据,是打印成PDF还是直接从打印机里打印出来?
  16. 个人邮箱如何进行群发邮件?
  17. 让临时停车号码牌会说话--鲁哇客智能挪车号码牌技术升级之路
  18. java接口与抽象类的异同
  19. JPEG and MPEG
  20. 相机PHP,C/C++、C#、PHP相机开发实例 大恒相机SDK

热门文章

  1. Codeforces Round #636 (Div. 3)(ABC)
  2. 分数调查 HihoCoder - 1515(带权并查集)
  3. Quadratic equation(二次剩余)2019牛客多校第九场
  4. 高斯粒子滤波matlab,粒子滤波(Particle filter)matlab实现 | 学步园
  5. PAT_B_1090_C++(25分)
  6. 深度学习之自编码器(3)自编码器变种
  7. 深度学习导论(4)神经网络基础
  8. 查看linux文件系统结构,如何查看Linux系统架构类型
  9. 『C++』我想学C++,C++太难了,那我想入门,给我10分钟我带你入门
  10. 网络流--最大流--HDU 3549 Flow Problem