第一次尝试获取网站数据

这是我第一次尝试用python获取网页数据，很多东西都是第一次接触，在慢慢学习和摸索，跟着网上的课程来一步步完成了这个程序，学到了很多

import requests
import json
import os
from urllib import request
import  multiprocessing
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.124 Safari/537.36 Edg/102.0.1245.44'
}
def get_huya_meinv(page=1):url = f'https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&gameId=2168&tagAll=0&callback=getLiveListJsonpCallback&page={page}'response=requests.get(url,headers=headers)
#获取#content=response.json ()content=response.textresult=content[len('getLiveListJsonpCallback('):-1]#对获取的json文本进行切片处理# print(content)# print(result)result2=json.loads(result)# print(result2)meinv_list=result2 ['data']['datas']#取数据for meinv in meinv_list:nick=meinv['nick']img=meinv['screenshot']#下载图片try:request.urlretrieve(img,f'huya/{page}-{nick}.png')request.urlcleanup()print(f'{page}-{nick}.png下载完成')except:print('error',nick)
if __name__ == '__main__':#自动创建虎牙文件夹if not os.path.exists('huya'):os.mkdir('huya')# get_huya_meinv()#单进程for i in range(1,10):# get_huya_meinv(page=1)multiprocessing.Process(target=get_huya_meinv,args=(i,)).start ()#多进程
#下载图片整体思路是先用浏览器开发者工具来找到json的url然后下载成text文本后处理成json列表形式然后就用在字典里取数据的方法来获取想要的资源的url并用request模块下载这里用的是request.urlretrieve(img,f'huya/{page}-{nick}.png')，但根据后来的经验这个方法可能会在一些情况下不适用，更有普适性的方法是：

pic = requests.get(img,headers=headers)

with open (f'huya/{page}-{nick}.png','wb') as f:

f.write(pic.content)

第一次尝试获取网站数据相关推荐

【数据采集】获取网站数据（二）
获取网站数据(二) 1.常用的数据采集python库 Beautiful Soup:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ...
php访问网页post获取源码,第一次抓别人网站数据，用postman直接请求可以获取到返回数据，通过代码的方式就一直报错，php...
最近需要抓取下KFC的一些数据通过postman把请求地址和参数都拿过来后可以返回数据我就天真的以为可以通过代码直接发送一个post请求即可但是通过php的curl模拟请求后,返回的一直是服务器 ...
python爬取网页有乱码怎么解决_python - 爬虫获取网站数据，出现乱码怎么解决。...
问题 #!/usr/bin/python # -*- coding: utf-8 -*- import urllib2 import re import HTMLParser class WALLS ...
将爬取的实习僧网站数据传入HDFS
一.引言: 作为一名大三的学生,找实习对于我们而言是迫在眉睫的.实习作为迈入工作的第一步,它的重要性不言而喻,一份好的实习很大程度上决定了我们以后的职业规划. 那么,一份好的实习应该考量哪些因素呢? ...
Pycharm + python 爬虫简单爬取网站数据
本文主要介绍简单的写一个爬取网站图片并将图片下载的python爬虫示例. 首先,python爬虫爬取数据,需要先了解工具包requests以及BeautifulSoup requests中文文档:ht ...
Python量化入门系列：获取数据-Tushare获取股票数据（1）
做量化用到的数据一般包括二级市场各种数据.宏观经济各种数据以及一些特殊需求的网页数据,需要有通过python获取数据.常见的获取数据方式有三种: 一是通过SQL语言从数据库获取数据,适用于二级市场和宏 ...
网站数据常见的获取途径有什么
通常数据的来源分为4部分:点击流数据.运营数据.调研数据和竞争对手数据.在获取上述几类数据的同时,还可以从其他方面获取一些更为丰富的数据.下面是针对网站分析数据获取途径的整理,从网站内部数据.外部数据 ...
亿起发网站主获取CPS数据接口说明
接口(1) 1. 功能:网站主主动查询抓取订单数据. 2. 说明查询地址为: http://o.yiqifa.com/servlet/queryCps?st=2007-1-3 ...
C#网络爬虫(获取需要登录的网站数据)
鉴于业务需求,我们系统需要从某个网站爬取数据,而这个网站是需要登录的,所以请求需登录的网站数据的时候需要带上cookie,百度了一堆很多都是从请求的数据中取得cookie,我在想我都能取得数据了,还要 ...

第一次尝试获取网站数据

第一次尝试获取网站数据相关推荐

最新文章

热门文章