这是我第一次尝试用python获取网页数据,很多东西都是第一次接触,在慢慢学习和摸索,跟着网上的课程来一步步完成了这个程序,学到了很多

import requests
import json
import os
from urllib import request
import  multiprocessing
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.124 Safari/537.36 Edg/102.0.1245.44'
}
def get_huya_meinv(page=1):url = f'https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&gameId=2168&tagAll=0&callback=getLiveListJsonpCallback&page={page}'response=requests.get(url,headers=headers)
#获取#content=response.json ()content=response.textresult=content[len('getLiveListJsonpCallback('):-1]#对获取的json文本进行切片处理# print(content)# print(result)result2=json.loads(result)# print(result2)meinv_list=result2 ['data']['datas']#取数据for meinv in meinv_list:nick=meinv['nick']img=meinv['screenshot']#下载图片try:request.urlretrieve(img,f'huya/{page}-{nick}.png')request.urlcleanup()print(f'{page}-{nick}.png下载完成')except:print('error',nick)
if __name__ == '__main__':#自动创建虎牙文件夹if not os.path.exists('huya'):os.mkdir('huya')# get_huya_meinv()#单进程for i in range(1,10):# get_huya_meinv(page=1)multiprocessing.Process(target=get_huya_meinv,args=(i,)).start ()#多进程
#下载图片整体思路是先用浏览器开发者工具来找到json的url然后下载成text文本后处理成json列表形式然后就用在字典里取数据的方法来获取想要的资源的url并用request模块下载这里用的是request.urlretrieve(img,f'huya/{page}-{nick}.png'),但根据后来的经验这个方法可能会在一些情况下不适用,更有普适性的方法是:

pic  = requests.get(img,headers=headers)

with open (f'huya/{page}-{nick}.png','wb') as f:

f.write(pic.content)

第一次尝试获取网站数据相关推荐

  1. 【数据采集】获取网站数据(二)

    获取网站数据(二) 1.常用的数据采集python库 Beautiful Soup:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ...

  2. php访问网页post获取源码,第一次抓别人网站数据,用postman直接请求可以获取到返回数据,通过代码的方式就一直报错,php...

    最近需要抓取下KFC的一些数据 通过postman把请求地址和参数都拿过来后可以返回数据 我就天真的以为可以通过代码直接发送一个post请求即可 但是通过php的curl模拟请求后,返回的一直是服务器 ...

  3. python爬取网页有乱码怎么解决_python - 爬虫获取网站数据,出现乱码怎么解决。...

    问 题 #!/usr/bin/python # -*- coding: utf-8 -*- import urllib2 import re import HTMLParser class WALLS ...

  4. 将爬取的实习僧网站数据传入HDFS

     一.引言: 作为一名大三的学生,找实习对于我们而言是迫在眉睫的.实习作为迈入工作的第一步,它的重要性不言而喻,一份好的实习很大程度上决定了我们以后的职业规划. 那么,一份好的实习应该考量哪些因素呢? ...

  5. Pycharm + python 爬虫简单爬取网站数据

    本文主要介绍简单的写一个爬取网站图片并将图片下载的python爬虫示例. 首先,python爬虫爬取数据,需要先了解工具包requests以及BeautifulSoup requests中文文档:ht ...

  6. Python量化入门系列:获取数据-Tushare获取股票数据(1)

    做量化用到的数据一般包括二级市场各种数据.宏观经济各种数据以及一些特殊需求的网页数据,需要有通过python获取数据.常见的获取数据方式有三种: 一是通过SQL语言从数据库获取数据,适用于二级市场和宏 ...

  7. 网站数据常见的获取途径有什么

    通常数据的来源分为4部分:点击流数据.运营数据.调研数据和竞争对手数据.在获取上述几类数据的同时,还可以从其他方面获取一些更为丰富的数据.下面是针对网站分析数据获取途径的整理,从网站内部数据.外部数据 ...

  8. 亿起发网站主获取CPS数据接口说明

    接口(1) 1.       功能:网站主主动查询抓取订单数据. 2.       说明 查询地址为: http://o.yiqifa.com/servlet/queryCps?st=2007-1-3 ...

  9. C#网络爬虫(获取需要登录的网站数据)

    鉴于业务需求,我们系统需要从某个网站爬取数据,而这个网站是需要登录的,所以请求需登录的网站数据的时候需要带上cookie,百度了一堆很多都是从请求的数据中取得cookie,我在想我都能取得数据了,还要 ...

最新文章

  1. 常考数据结构与算法:两个链表生成相加链表
  2. 将War发布到Tomcat7上遇到的问题及其解决
  3. Docker深入浅出2
  4. 505B. Mr. Kitayuta‘s Colorful Graph
  5. 那些年做的xmind思维导图
  6. NIO流程记录(非源码,单reacter单线程)
  7. C# windows服务程序中的Timer控件的问题
  8. linux安装jdk详细步骤,需要有一定的语法基础
  9. c++ 应输入表达式_【C语言编程入门系列】—— 第五章,C语言基本运算和表达式(一)...
  10. 软件测试的简历里面,项目介绍要怎么写好呢
  11. fanuc机器人仿真软件roboguide-新建工程文件
  12. 正则表达式与文本处理器
  13. iOS开发者续费流程
  14. 常用公共代码二之分页代码的实现
  15. 备考PMP的程序员注意了!!!13张PMPBook思维导图免费送上,没有套路,直接领取
  16. python语言编程中的感叹号_python 感叹号的作用
  17. Flink(八)Flink的Parallelism并行度
  18. html百度站内搜索代码,百度站内搜索如何安装 百度站内搜索代码如何部署使用...
  19. Apache Hive入门1
  20. 私有云:何去何从?解决方案有哪些

热门文章

  1. The 15th Chinese Northeast Collegiate Programming Contest 题解(CCPC压力测试?
  2. [杂谈]国产半导体公司及其主要产品一览
  3. Sublime Text 3 安装vue插件
  4. 快来抢,成都传智播客学费一人只需1000元了
  5. Optimizer类
  6. 无线宽带接入技术MIP
  7. W7正在锁定计算机,win7系统设置锁定屏幕超时的操作方法
  8. STM32F407ZG TIM通用定时器
  9. 通达信接口编程是什么?
  10. 【安富莱专题教程第8期】基于emWin模拟器的USB BULK上位机开发,仅需C即可,简单易实现...