大数据批量下载文件 代码

# # 大数据批量下载文件
from multiprocessing import Process
import os
import pandas as pd
import numpy as np
from urllib import requestdef download_from_url(df):for index, row in df.iterrows():url1 = row["link1"]name1 = row["link1_name"]url2 = row["link2"]name2 = row["link2_name"]url3 = row["link3"]name3 = row["link3_name"]list_name1 = []list_name2 = []list_name3 = []try:request.urlretrieve(url=url1, filename=name1)except:passlist_name1.append(name1)print(name1)try:request.urlretrieve(url=url2, filename=name2)except:passlist_name1.append(name2)print(name2)try:request.urlretrieve(url=url3, filename=name3)except:passlist_name1.append(name3)print(name3)print(set(list_name1))print(set(list_name2))print(set(list_name3))if __name__ == '__main__':df = pd.read_csv(r"C:\Users\Sway\Desktop\downloading.csv")os.chdir(r"C:\Users\Sway\Desktop\downloaded_image")brock = 3df_array = np.array_split(df, brock, axis=0)pp = list(range(brock))for i in range(len(pp)):pp[i] = Process(target=download_from_url, args=(df_array[i],))for p in pp:p.start()for p in pp:p.join()

第二课 代码:

# # 大数据批量下载文件
from multiprocessing import Process
import os
import pandas as pd
import numpy as np
from urllib import request
import requests
from bs4 import BeautifulSoup
import redef getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()print(r.status_code)r.encoding = r.apparent_encodingfile1 = open("try.txt", "w", encoding='utf-8')file1.writelines(r.text)file1.close()return r.textexcept:return print("failed")def download_from_url(df):for index, row in df.iterrows():url1 = row["link1"]name1 = row["link1_name"]url2 = row["link2"]name2 = row["link2_name"]url3 = row["link3"]name3 = row["link3_name"]list_name1 = []list_name2 = []list_name3 = []try:request.urlretrieve(url=url1, filename=name1)except:passlist_name1.append(name1)print(name1)try:request.urlretrieve(url=url2, filename=name2)except:passlist_name1.append(name2)print(name2)try:request.urlretrieve(url=url3, filename=name3)except:passlist_name1.append(name3)print(name3)print(set(list_name1))print(set(list_name2))print(set(list_name3))def download_from_url_dropbox(df):for index, row in df.iterrows():url1 = row["link1"]name1 = row["link1_name"]url2 = row["link2"]name2 = row["link2_name"]url3 = row["link3"]name3 = row["link3_name"]list_name1 = []list_name2 = []list_name3 = []try:html = getHTMLText(url=url1)soup = BeautifulSoup(html, "html.parser")mydivs = soup.findAll("img", {"class": "preview"})a = re.findall(r'(https?://[^\s]+)', str(mydivs))request.urlretrieve(url=a[-1], filename=name1)except:passlist_name1.append(name1)print(name1)try:html = getHTMLText(url=url2)soup = BeautifulSoup(html, "html.parser")mydivs = soup.findAll("img", {"class": "preview"})a = re.findall(r'(https?://[^\s]+)', str(mydivs))request.urlretrieve(url=a[-1], filename=name2)except:passlist_name1.append(name2)print(name2)try:html = getHTMLText(url=url3)soup = BeautifulSoup(html, "html.parser")mydivs = soup.findAll("img", {"class": "preview"})a = re.findall(r'(https?://[^\s]+)', str(mydivs))request.urlretrieve(url=a[-1], filename=name3)except:passlist_name1.append(name3)print(name3)print(set(list_name1))print(set(list_name2))print(set(list_name3))if __name__ == '__main__':df = pd.read_csv(r"C:\Users\username\Desktop\downloading.csv", engine="python")os.chdir(r"C:\Users\username\Desktop\downloaded_image")brock = 3df_array = np.array_split(df, brock, axis=0)pp = list(range(brock))for i in range(len(pp)):# pp[i] = Process(target=download_from_url, args=(df_array[i],))pp[i] = Process(target=download_from_url_dropbox, args=(df_array[i],))for p in pp:p.start()for p in pp:p.join()

视频链接:
第一课:
https://www.bilibili.com/video/BV1gV411m7FA
第二课:
https://www.bilibili.com/video/BV1Gt4y1q7K5

大数据批量下载文件 代码相关推荐

  1. python批量下载文件教程_超简单超详细python小文件、大文件、批量下载教程

    按照不同的情况,python下载文件可以分为三种: 小文件下载 大文件下载 批量下载 python 小文件下载 流程:使用request.get请求链接,返回的内容放置到变量r中,然后将r写入到你想放 ...

  2. java代码批量下载_Java代码实战:线程池实现批量下载文件

    今天技术之家陪你一起Java代码实战:线程池实现批量下载文件: 1 创建线程池package com.cheng.webb.thread; import java.util.concurrent.Ar ...

  3. 如何用python批量下载数据_Python实现批量下载文件

    Python实现批量下载文件 #!/usr/bin/env python # -*- coding:utf-8 -*- from gevent import monkey monkey.patch_a ...

  4. python 批量下载 代码_python 批量下载文件

    有时候看到好看的视频就想保存到本地,但是有的网站视频都是分段的,先去请求一个文件列表,再按照列表去拼接请求分段视频. 就类似这样:(这是开讲了某期的视频请求列表 http://hls.cntv.mya ...

  5. ECMWF等大气数据批量下载(Python API)详细步骤

    ECMWF等大气数据批量下载(Python API) 遥感方向做热红外温度反演,不可避免的要用到大气廓线数据,大气数据具有实时性,比如2018年9月1日的早上8点的影像,为了提高反演精度就需要用到时间 ...

  6. 使用Google Earth Engine (GEE)实现MODIS数据批量下载

    使用Google Earth Engine GEE实现MODIS数据批量下载 前言 下载数据代码 批量执行run任务 关注公众号,分享GIS知识.ArcGIS教程.SCI论文与科研日常等 前言 上图是 ...

  7. java批量下载文件为zip包

    批量下载文件为zip包的工具类 package com.meeno.trainsys.util;import javax.servlet.http.HttpServletRequest; import ...

  8. Python从数据库读取大量数据批量写入文件的方法

    今天小编就为大家分享一篇Python从数据库读取大量数据批量写入文件的方法,具有很好的参考价值,希望对大家有所帮助.一起跟随小编过来看看吧 使用机器学习训练数据时,如果数据量较大可能我们不能够一次性将 ...

  9. python批量读取文件内容_Python从数据库读取大量数据批量写入文件的方法

    使用机器学习训练数据时,如果数据量较大可能我们不能够一次性将数据加载进内存,这时我们需要将数据进行预处理,分批次加载进内存. 下面是代码作用是将数据从数据库读取出来分批次写入txt文本文件,方便我们做 ...

最新文章

  1. 3分钟带你理解深度学习中的RNN和LSTM究竟是什么?
  2. python3面向对象(1)
  3. jupyter notebook 删除指定kernel
  4. ARGB和PARGB
  5. ImportError: cannot import name 'Graph' from 'pyecharts' 解决办法
  6. C++杜绝“野指针”
  7. 油猴脚本修改sciencedirect论文下载名
  8. MOS管导通条件概述-过程-压降-提高效率等详解
  9. 电阻、电感和电容的原理
  10. 在Linux下玩QQ游戏
  11. QQ个性装扮气泡免费使用
  12. HTML:利用canvas画定位图标
  13. Rose Blumki
  14. vue 节流throttling防抖debounce
  15. 【深度优先搜索】leetcode 1905. 统计子岛屿
  16. 软件测试常见笔试题(附带答案)—初级篇01
  17. Linux 下C/C++实现发送ICMP和ICMPv6(报文分析)
  18. mp4视频 一帧字节大小
  19. 项目干系人管理的10个关键原则
  20. java使用aes加密文件内容

热门文章

  1. RPM(软件包管理器)和YUM 软件仓库
  2. 域名解析的原理是什么?域名解析的流程是怎样的?
  3. 报表服务器的配置不正确的是,用友T3财务报表打开提示不能登录到服务器,请检查服务器配置?...
  4. Xshell安装Docker并安装mysql5.7
  5. 【DS】三分钟带你学会时间(空间)复杂度
  6. 极限学习机(Extreme Learning Machine)(小白之路)
  7. 使用VM安装安卓虚拟机
  8. Windows-Server2003 关闭IE增强的安全配置堵塞方法
  9. 物联卡中心:物联网卡运营商优劣对比,你选择哪家?
  10. 今天AWS北京区域挂了近12个小时,您的业务做热备了么?