第一次尝试获取网站数据
这是我第一次尝试用python获取网页数据,很多东西都是第一次接触,在慢慢学习和摸索,跟着网上的课程来一步步完成了这个程序,学到了很多
import requests import json import os from urllib import request import multiprocessing headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.124 Safari/537.36 Edg/102.0.1245.44' } def get_huya_meinv(page=1):url = f'https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&gameId=2168&tagAll=0&callback=getLiveListJsonpCallback&page={page}'response=requests.get(url,headers=headers) #获取#content=response.json ()content=response.textresult=content[len('getLiveListJsonpCallback('):-1]#对获取的json文本进行切片处理# print(content)# print(result)result2=json.loads(result)# print(result2)meinv_list=result2 ['data']['datas']#取数据for meinv in meinv_list:nick=meinv['nick']img=meinv['screenshot']#下载图片try:request.urlretrieve(img,f'huya/{page}-{nick}.png')request.urlcleanup()print(f'{page}-{nick}.png下载完成')except:print('error',nick) if __name__ == '__main__':#自动创建虎牙文件夹if not os.path.exists('huya'):os.mkdir('huya')# get_huya_meinv()#单进程for i in range(1,10):# get_huya_meinv(page=1)multiprocessing.Process(target=get_huya_meinv,args=(i,)).start ()#多进程 #下载图片整体思路是先用浏览器开发者工具来找到json的url然后下载成text文本后处理成json列表形式然后就用在字典里取数据的方法来获取想要的资源的url并用request模块下载这里用的是request.urlretrieve(img,f'huya/{page}-{nick}.png'),但根据后来的经验这个方法可能会在一些情况下不适用,更有普适性的方法是:
pic = requests.get(img,headers=headers)
with open (f'huya/{page}-{nick}.png','wb') as f:
f.write(pic.content)
第一次尝试获取网站数据相关推荐
- 【数据采集】获取网站数据(二)
获取网站数据(二) 1.常用的数据采集python库 Beautiful Soup:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ...
- php访问网页post获取源码,第一次抓别人网站数据,用postman直接请求可以获取到返回数据,通过代码的方式就一直报错,php...
最近需要抓取下KFC的一些数据 通过postman把请求地址和参数都拿过来后可以返回数据 我就天真的以为可以通过代码直接发送一个post请求即可 但是通过php的curl模拟请求后,返回的一直是服务器 ...
- python爬取网页有乱码怎么解决_python - 爬虫获取网站数据,出现乱码怎么解决。...
问 题 #!/usr/bin/python # -*- coding: utf-8 -*- import urllib2 import re import HTMLParser class WALLS ...
- 将爬取的实习僧网站数据传入HDFS
一.引言: 作为一名大三的学生,找实习对于我们而言是迫在眉睫的.实习作为迈入工作的第一步,它的重要性不言而喻,一份好的实习很大程度上决定了我们以后的职业规划. 那么,一份好的实习应该考量哪些因素呢? ...
- Pycharm + python 爬虫简单爬取网站数据
本文主要介绍简单的写一个爬取网站图片并将图片下载的python爬虫示例. 首先,python爬虫爬取数据,需要先了解工具包requests以及BeautifulSoup requests中文文档:ht ...
- Python量化入门系列:获取数据-Tushare获取股票数据(1)
做量化用到的数据一般包括二级市场各种数据.宏观经济各种数据以及一些特殊需求的网页数据,需要有通过python获取数据.常见的获取数据方式有三种: 一是通过SQL语言从数据库获取数据,适用于二级市场和宏 ...
- 网站数据常见的获取途径有什么
通常数据的来源分为4部分:点击流数据.运营数据.调研数据和竞争对手数据.在获取上述几类数据的同时,还可以从其他方面获取一些更为丰富的数据.下面是针对网站分析数据获取途径的整理,从网站内部数据.外部数据 ...
- 亿起发网站主获取CPS数据接口说明
接口(1) 1. 功能:网站主主动查询抓取订单数据. 2. 说明 查询地址为: http://o.yiqifa.com/servlet/queryCps?st=2007-1-3 ...
- C#网络爬虫(获取需要登录的网站数据)
鉴于业务需求,我们系统需要从某个网站爬取数据,而这个网站是需要登录的,所以请求需登录的网站数据的时候需要带上cookie,百度了一堆很多都是从请求的数据中取得cookie,我在想我都能取得数据了,还要 ...
最新文章
- 常考数据结构与算法:两个链表生成相加链表
- 将War发布到Tomcat7上遇到的问题及其解决
- Docker深入浅出2
- 505B. Mr. Kitayuta‘s Colorful Graph
- 那些年做的xmind思维导图
- NIO流程记录(非源码,单reacter单线程)
- C# windows服务程序中的Timer控件的问题
- linux安装jdk详细步骤,需要有一定的语法基础
- c++ 应输入表达式_【C语言编程入门系列】—— 第五章,C语言基本运算和表达式(一)...
- 软件测试的简历里面,项目介绍要怎么写好呢
- fanuc机器人仿真软件roboguide-新建工程文件
- 正则表达式与文本处理器
- iOS开发者续费流程
- 常用公共代码二之分页代码的实现
- 备考PMP的程序员注意了!!!13张PMPBook思维导图免费送上,没有套路,直接领取
- python语言编程中的感叹号_python 感叹号的作用
- Flink(八)Flink的Parallelism并行度
- html百度站内搜索代码,百度站内搜索如何安装 百度站内搜索代码如何部署使用...
- Apache Hive入门1
- 私有云:何去何从?解决方案有哪些
热门文章
- The 15th Chinese Northeast Collegiate Programming Contest 题解(CCPC压力测试?
- [杂谈]国产半导体公司及其主要产品一览
- Sublime Text 3 安装vue插件
- 快来抢,成都传智播客学费一人只需1000元了
- Optimizer类
- 无线宽带接入技术MIP
- W7正在锁定计算机,win7系统设置锁定屏幕超时的操作方法
- STM32F407ZG TIM通用定时器
- 通达信接口编程是什么?
- 【安富莱专题教程第8期】基于emWin模拟器的USB BULK上位机开发,仅需C即可,简单易实现...