将数据上传到 S3

在上个 notebook 中,你应该使用给定剽窃/非剽窃文本数据语料库的特征和类别标签创建了两个文件:training.csv 和 test.csv 文件。

以下单元格将加载一些 AWS SageMaker 库并创建一个默认存储桶。创建此存储桶后,你可以将本地存储的数据上传到 S3。

将训练和测试 .csv 特征文件保存到本地。你可以在 SageMaker 中运行第二个 notebook“2_Plagiarism_Feature_Engineering”,或者使用 Jupyter Lab 中的上传图标手动将文件上传到此 notebook。然后,你可以使用 sagemaker_session.upload_data 将本地文件上传到 S3,并直接指向训练数据的存储位置。

In [1]:

import pandas as pd
import boto3
import sagemaker

In [2]:

"""
DON'T MODIFY ANYTHING IN THIS CELL THAT IS BELOW THIS LINE
"""
# session and role
sagemaker_session = sagemaker.Session()
role = sagemaker.get_execution_role()# create an S3 bucket
bucket = sagemaker_session.default_bucket()

练习:将训练数据上传到 S3

指定在其中保存了 train.csv 文件的 data_dir。指定一个描述性 prefix,指出数据将上传到默认 S3 存储桶的什么位置。最后,通过调用 sagemaker_session.upload_data 并传入必要的参数,创建一个指向训练数据的指针。建议参考 Session 文档或之前的 SageMaker 代码示例。

你需要上传整个目录。之后,训练脚本将仅访问 train.csv 文件。

In [3]:

# should be the name of directory you created to save your features data
data_dir = "plagiarism_data"# set prefix, a descriptive name for a directory
prefix = "sagemaker/plagiarism-data"# upload all data to S3
input_data = sagemaker_session.upload_data(path=data_dir,bucket=bucket,key_prefix=prefix)
print("input_data=",input_data)
input_data= s3://sagemaker-us-east-2-946824679433/sagemaker/plagiarism-data

测试单元格

测试数据是否已成功上传。以下单元格将输出 S3 存储桶中的内容,如果为空,将抛出错误。你应该看到 data_dir 的内容,或许还有一些检查点。如果你看到其中列出了任何其他文件,那么你也许有一些旧的模型文件,你可以通过 S3 控制台删除这些旧文件(不过多余的文件应该不会影响在此 notebook 中开发的模型的性能)。

In [4]:

"""
DON'T MODIFY ANYTHING IN THIS CELL THAT IS BELOW THIS LINE
"""
# confirm that data is in S3 bucket
empty_check = []
for obj in boto3.resource('s3').Bucket(bucket).objects.all():empty_check.append(obj.key)print(obj.key)assert len(empty_check) !=0, 'S3 bucket is empty.'
print('Test passed!')
sagemaker/plagiarism-data/test.csv
sagemaker/plagiarism-data/train.csv
Test passed!

2020-08-20 将数据上传到 S3 或从S3下载相关推荐

  1. 个人永久性免费-Excel催化剂功能第20波-Excel与Sqlserver零门槛交互-数据上传篇

    Excel作为众多数据存储的交换介质,在不同的系统内的数据很少可以很连贯地进行整合分析,一般的业务系统都会提供导出Excel作为标配功能供用户使用系统内生成的数据. 此时最大的问题是,Excel很维去 ...

  2. m5310模组数据上传至onenet_硬核干货!基于M5310-A的NB-IoT水表通信模块软件业务逻辑分享...

    根据不同的应用场景需求,目前NB-IoT水表主要有以下几种方案: 图1 几种常见NB水表方案 接下来将从NB-IoT水表上电开机.模组初始化.入网判断.业务逻辑四个环节来详细讲述,以下业务流程仅供参考 ...

  3. kafka 四:(设计模式)Kafka数据上传至Hbase

    kafka 四:(设计模式)Kafka数据上传至Hbase datamove目录 AttendeesHandler类 IParseHandler接口 UserFriendHandler类 work E ...

  4. RaspberryPi+OneNET MQTT方式 数据上传和命令下发

    MQTT相关实验 第一节:Mosquitto 相关实验 第二节:域名解析和内网穿透实验 第三节:OneNET 相关实验 Gitee仓库地址: https://gitee.com/zhj0125/MQT ...

  5. Excel数据上传并且导入数据库

    Excel数据上传并导入数据库 Excel表中的数据示例样板 相关依赖(本博客编写环境springboot) <!--poi实现excel导入导出--><dependency> ...

  6. CC2530接入OneNET-实现数据上传和命令下发

    前言: 之前物联网课设时就想用CC2530单片机和ESP8266-01S来实现数据上传和远程控制,当时在网上也找了很多资料,无果.本来是不想再碰这个的,由于我同学做毕设需要用到,所以再努力了一把,也终 ...

  7. NodeMCU(ESP-12E)+阿里云实现数据上传和控制继电器开锁

    源码及工具下载:https://github.com/RL-Y/NodeMCU-aliyun.git Arduino15:提取码:ythf :链接: https://pan.baidu.com/s/1 ...

  8. 正点原子STM32f103ZE精英开发板实现基于ESP8266 WIFI模块温湿度数据上传至乐联网平台

    文章目录 一.准备工作 二.实现流程 1.AT指令 2.接入乐联网平台 3.代码实现 三.数据可视化分析 一.准备工作 1.准备一块正点原子STM32f103ZE精英开发板 2.在某宝上购买好正点原子 ...

  9. 前端点滴(Node.js)(五)---- 构建 Web 应用(二)数据上传

    Node.js 2. 数据上传 在实际的业务中,我们往往需要接收一些数据,比如表单数据.文件提交.Json上传.XML上传等等. Node的http模块只对HTTP报文头部进行了解析,然后触发requ ...

最新文章

  1. Python os模块常用介绍
  2. BugKuCTF WEB 输入密码查看flag
  3. Java高级工程师实战经验图谱
  4. 【Linux】Makefile文件
  5. ecshop 模板 php代码,ecshop无法在模板文件.dwt和.lbi中直接添加php代码的解决方法...
  6. 低秩矩阵分解 matlab,低秩分解的matlab代码看不懂,分解的两个矩阵在哪呀??...
  7. word 段显示在页面最下方_最快速地把同一内容插入到Word文档不同页面的相同位置...
  8. RabbitMQ消费消息方法basicConsume
  9. 启动标志_机动车检验标志电子化启动首日,已有市民将电子凭证申领到手
  10. Unity中Debug打印信息的颜色设置
  11. 范型编程系列二(非原创)
  12. 程序员创业:从有想法 - 公司注册 - 项目路演 - 一对一投资人商谈
  13. 51个SIG组,持续12小时在线讨论…openEuler 开源社区这群人为何如此「活力无限」...
  14. 2013年第四届c b组省赛蓝桥杯
  15. 已有a,b两个链表,每个链表中的结点包括学号、成绩。要求把两个链表合并,按学号 升序排序
  16. php开发API接口的代码案例
  17. golang入门笔记——kitex
  18. PADS中Flood和Hatch的区别----本人备注
  19. 有道云Markdown笔记导出PDF
  20. 日语笔记(3) 动词て形

热门文章

  1. 浅谈Python flask框架浅析
  2. Python游戏开发,Pygame模块,Python从零开始带大家实现魔塔小游戏
  3. linux怎么修改vdo的名字,linux中VDO的使用
  4. 数据库迁移_【干货分享】DM数据库迁移方法(物理迁移)
  5. serialport接收串口数据_C#串口操作类,包括串口读写操作
  6. win7怎么跳过硬盘自检_win10系统改装win7步骤教程
  7. java跳转语句包含goto_Java 语句标签实现goto跳转
  8. navcat设置oracle表主键自增_初识 Oracle 表空间设置与管理
  9. vue 删除页面缓存_vue项目强制清除页面缓存的例子
  10. java 捕获数据包,缓存从pcap捕获的数据包