大数据批量下载文件代码

# # 大数据批量下载文件
from multiprocessing import Process
import os
import pandas as pd
import numpy as np
from urllib import requestdef download_from_url(df):for index, row in df.iterrows():url1 = row["link1"]name1 = row["link1_name"]url2 = row["link2"]name2 = row["link2_name"]url3 = row["link3"]name3 = row["link3_name"]list_name1 = []list_name2 = []list_name3 = []try:request.urlretrieve(url=url1, filename=name1)except:passlist_name1.append(name1)print(name1)try:request.urlretrieve(url=url2, filename=name2)except:passlist_name1.append(name2)print(name2)try:request.urlretrieve(url=url3, filename=name3)except:passlist_name1.append(name3)print(name3)print(set(list_name1))print(set(list_name2))print(set(list_name3))if __name__ == '__main__':df = pd.read_csv(r"C:\Users\Sway\Desktop\downloading.csv")os.chdir(r"C:\Users\Sway\Desktop\downloaded_image")brock = 3df_array = np.array_split(df, brock, axis=0)pp = list(range(brock))for i in range(len(pp)):pp[i] = Process(target=download_from_url, args=(df_array[i],))for p in pp:p.start()for p in pp:p.join()

第二课代码：

# # 大数据批量下载文件
from multiprocessing import Process
import os
import pandas as pd
import numpy as np
from urllib import request
import requests
from bs4 import BeautifulSoup
import redef getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()print(r.status_code)r.encoding = r.apparent_encodingfile1 = open("try.txt", "w", encoding='utf-8')file1.writelines(r.text)file1.close()return r.textexcept:return print("failed")def download_from_url(df):for index, row in df.iterrows():url1 = row["link1"]name1 = row["link1_name"]url2 = row["link2"]name2 = row["link2_name"]url3 = row["link3"]name3 = row["link3_name"]list_name1 = []list_name2 = []list_name3 = []try:request.urlretrieve(url=url1, filename=name1)except:passlist_name1.append(name1)print(name1)try:request.urlretrieve(url=url2, filename=name2)except:passlist_name1.append(name2)print(name2)try:request.urlretrieve(url=url3, filename=name3)except:passlist_name1.append(name3)print(name3)print(set(list_name1))print(set(list_name2))print(set(list_name3))def download_from_url_dropbox(df):for index, row in df.iterrows():url1 = row["link1"]name1 = row["link1_name"]url2 = row["link2"]name2 = row["link2_name"]url3 = row["link3"]name3 = row["link3_name"]list_name1 = []list_name2 = []list_name3 = []try:html = getHTMLText(url=url1)soup = BeautifulSoup(html, "html.parser")mydivs = soup.findAll("img", {"class": "preview"})a = re.findall(r'(https?://[^\s]+)', str(mydivs))request.urlretrieve(url=a[-1], filename=name1)except:passlist_name1.append(name1)print(name1)try:html = getHTMLText(url=url2)soup = BeautifulSoup(html, "html.parser")mydivs = soup.findAll("img", {"class": "preview"})a = re.findall(r'(https?://[^\s]+)', str(mydivs))request.urlretrieve(url=a[-1], filename=name2)except:passlist_name1.append(name2)print(name2)try:html = getHTMLText(url=url3)soup = BeautifulSoup(html, "html.parser")mydivs = soup.findAll("img", {"class": "preview"})a = re.findall(r'(https?://[^\s]+)', str(mydivs))request.urlretrieve(url=a[-1], filename=name3)except:passlist_name1.append(name3)print(name3)print(set(list_name1))print(set(list_name2))print(set(list_name3))if __name__ == '__main__':df = pd.read_csv(r"C:\Users\username\Desktop\downloading.csv", engine="python")os.chdir(r"C:\Users\username\Desktop\downloaded_image")brock = 3df_array = np.array_split(df, brock, axis=0)pp = list(range(brock))for i in range(len(pp)):# pp[i] = Process(target=download_from_url, args=(df_array[i],))pp[i] = Process(target=download_from_url_dropbox, args=(df_array[i],))for p in pp:p.start()for p in pp:p.join()

视频链接：
第一课：
https://www.bilibili.com/video/BV1gV411m7FA
第二课：
https://www.bilibili.com/video/BV1Gt4y1q7K5

大数据批量下载文件代码相关推荐

python批量下载文件教程_超简单超详细python小文件、大文件、批量下载教程
按照不同的情况,python下载文件可以分为三种: 小文件下载大文件下载批量下载 python 小文件下载流程:使用request.get请求链接,返回的内容放置到变量r中,然后将r写入到你想放 ...
java代码批量下载_Java代码实战：线程池实现批量下载文件
今天技术之家陪你一起Java代码实战:线程池实现批量下载文件: 1 创建线程池package com.cheng.webb.thread; import java.util.concurrent.Ar ...
如何用python批量下载数据_Python实现批量下载文件
Python实现批量下载文件 #!/usr/bin/env python # -*- coding:utf-8 -*- from gevent import monkey monkey.patch_a ...
python 批量下载代码_python 批量下载文件
有时候看到好看的视频就想保存到本地,但是有的网站视频都是分段的,先去请求一个文件列表,再按照列表去拼接请求分段视频. 就类似这样:(这是开讲了某期的视频请求列表 http://hls.cntv.mya ...
ECMWF等大气数据批量下载（Python API）详细步骤
ECMWF等大气数据批量下载(Python API) 遥感方向做热红外温度反演,不可避免的要用到大气廓线数据,大气数据具有实时性,比如2018年9月1日的早上8点的影像,为了提高反演精度就需要用到时间 ...
使用Google Earth Engine (GEE)实现MODIS数据批量下载
使用Google Earth Engine GEE实现MODIS数据批量下载前言下载数据代码批量执行run任务关注公众号,分享GIS知识.ArcGIS教程.SCI论文与科研日常等前言上图是 ...
java批量下载文件为zip包
批量下载文件为zip包的工具类 package com.meeno.trainsys.util;import javax.servlet.http.HttpServletRequest; import ...
Python从数据库读取大量数据批量写入文件的方法
今天小编就为大家分享一篇Python从数据库读取大量数据批量写入文件的方法,具有很好的参考价值,希望对大家有所帮助.一起跟随小编过来看看吧使用机器学习训练数据时,如果数据量较大可能我们不能够一次性将 ...
python批量读取文件内容_Python从数据库读取大量数据批量写入文件的方法
使用机器学习训练数据时,如果数据量较大可能我们不能够一次性将数据加载进内存,这时我们需要将数据进行预处理,分批次加载进内存. 下面是代码作用是将数据从数据库读取出来分批次写入txt文本文件,方便我们做 ...

大数据批量下载文件代码

大数据批量下载文件代码

大数据批量下载文件代码相关推荐

最新文章

热门文章

大数据批量下载文件 代码

大数据批量下载文件 代码

大数据批量下载文件 代码相关推荐

最新文章

热门文章

大数据批量下载文件代码

大数据批量下载文件代码

大数据批量下载文件代码相关推荐