导入所需的包(re,requests,json,os,urllib的request)

import re
import requests
import json
import os
from urllib import request

通过需求指定网址

url = 'https://www.toutiao.com/a6590127156037157379/'

由于该网站有反爬机制要添加请求头(headers)

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

requests的get方法获取路由网址的页面(指定网址,携带请求头)

response = requests.get(url,headers=headers)request.get获取到的html格式页面转换为字符串的html页面
html_str = response.text

正则表达式获取数据

pattern = r'gallery: JSON\.parse\((.*)\),'将正则表达式匹配到的数据返回
match_res = re.search(pattern, html_str)

新建文件夹

# 如果没有名为download的文件夹进行创建
if not os.path.exists('download') :os.mkdir('download')

定位需要的数据

if match_res:# 这本来就是strprint(match_res.group(1))json_origin = match_res.group(1)# 这是第一遍loads, 返回值是strres_buzhidao = json.loads(json_origin)# print(res_buzhidao)# print(type(res_buzhidao))res_dict = json.loads(res_buzhidao)# print(res_dict)# print(type(res_dict))sub_images_list = res_dict['sub_images']for image in sub_images_list:image_url = image['url']filename = 'download/' + image_url.split('/')[-1] + '.jpg'# 下载图片request.urlretrieve(image_url, filename)
else:print('你写错了, 不应该来我这')

practice之Python爬取今日头条图片(正则表达式)相关推荐

  1. python爬取今日头条图片

    主要内容 进入今日头条https://www.toutiao.com/ 按F12进行数据分析,找到要爬取的内容 根据获取的网页信息,编写代码 一些模块的使用方法 源代码展示 打包成可执行程序exe 1 ...

  2. python爬取今日头条专栏_[python3]今日头条图片爬取

    前言 代码设计流程,先模拟ajax发送搜索"街拍美女",提取返回json里面的article_url,再访问article_url,提取article_url响应的图片url,访问 ...

  3. 爬取今日头条图片(解决缩略图问题+MySQL)

    爬取今日头条图片 1. 引言 2. 分析 2.1 获取主页的url 2.2 获取当前页所有文章的链接 2.3 具体文章的信息 2.4 MySQL设置 3.代码 4. 效果 4.1 本地效果图 4.2 ...

  4. 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集

    今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...

  5. python爬取今日头条的文章_Python3爬取今日头条有关《人民的名义》文章

    Python3爬取今日头条有关<人民的名义>文章 最近一直在看Python的基础语法知识,五一假期手痒痒想练练,正好<人民的名义>刚结束,于是决定扒一下头条上面的人名的名义文章 ...

  6. 用Python爬取今日头条,里面的东西统统白送!

    近年来今日头条做的可谓是风生水起,自上线以来,围绕内容载体和分发方式两个维度不断丰富,至今已衍生出图文.视频.微头条.专栏.搜索.直播等多种内容形式.根据最新中国联通发布的App大数据排行榜,今日头条 ...

  7. python爬取今日头条街拍,Python3今日头条街拍爬虫

    学习了大才哥的在线视频教程,特来这里总结分享一下. 不同于上一篇糗事百科的爬虫,这里爬取今日头条街拍需要分析ajax请求得来的数据. 首先这里是爬取的起始页 可以看到当我们往下拉滚动条的时候,新数据是 ...

  8. 简单爬虫Ajax数据爬取——今日头条图片爬取

    一.Ajax简介 什么是Ajax? Ajax 即"Asynchronous Javascript And XML"(异步 JavaScript 和 XML),是指一种创建交互式网页 ...

  9. 用python爬取头条文章_AI第四课:Python爬取今日头条文章

    到目前为止,能使用python写一点简单的程序了,本次的任务是爬取今日头条的文章信息. 大致涉及的知识点:json数据格式,浏览器插件jsonView,浏览器开发者模式,html基础,http代理,h ...

最新文章

  1. 运行返回签名不正确_不正确运行废气治理RTO设备容易引起爆炸,注意事项有哪些?...
  2. Centos7设置IP为固定值
  3. jquery mobile快速入门_【K些项目】学透jquery,11个国内最新项目资料
  4. ehcache 手动刷新缓存_【第 21 期】一个架构师的缓存修炼之路
  5. linux/windows中mysql、oracle、dm数据库连接
  6. LiveVideoStackCon2021音视频技术大会北京站开幕在即,精彩抢鲜看
  7. 经典Java-SpringCloud面试题
  8. BUGKU 多次 手动注入+脚本盲注
  9. odp.net连接oracle9i 出错解决_架构师成长之路:Kafka连接器深度解读之错误处理和死信队列...
  10. 简约大气毕业论文答辩PPT模板
  11. ftp免费下载工具,4个好用的ftp免费下载工具
  12. [msyql]实战:关于回表的一次查询优化实战
  13. 安卓应用 - 公开市场上传投放
  14. 2021-2027全球与中国USB智能电源板市场现状及未来发展趋势
  15. Java版 猜数字小游戏
  16. 最新系统漏洞--UnRAR堆缓冲区溢出漏洞
  17. 中国古代历史发展的转折点
  18. C语言已经自学完了,数电模电电路都还没学,学stm32会有阻碍吗
  19. LED灯带的制作过程
  20. 基于linux的软plc设计,Linux环境下软PLC开发系统的设计与实现

热门文章

  1. 项目经理OA选型 Teambition、Worktile、iQuicker、Tower
  2. 天基实业投资理财需了解的基础知识
  3. 睿智的目标检测28——YoloV4当中的Mosaic数据增强方法
  4. I Want to Know
  5. Hbase的数据切分
  6. Android Studio使用AIDL技术进行SDK开发
  7. zotero+谷歌翻译不能用,最后的解决方案!
  8. Tomcat 自动部署、回滚(java project)脚本
  9. CentOS 7 minimal安装完成之后安装图形界面
  10. LSVGlobal Mapper应用----影像裁剪