20220324

https://blog.csdn.net/DSTJWJW/article/details/90667570
不重复随机抽样

20211223

# 读取数据集
test_data_all = pd.read_csv(PATH+'data_format1/test_format1.csv',chunksize=200000)for i,j in enumerate(test_data_all):if i == 0:test_data = jtrain_data_all = pd.read_csv(PATH+'data_format1/train_format1.csv',chunksize=1000000)for i,j in enumerate(train_data_all):if i == 0:train_data = j
抽样读取数据def read_csv(file_name, num_rows):return pd.read_csv(file_name, nrows=num_rows)居然可以直接抽样读取

20211010

无论是什么平台,用户的活跃度分布都是一个长尾分布,越活跃的用户对应的人数越少,但是其所占的行为越多。这种情况下,如果不考虑用户活跃度去筛选正负样本,难免活跃用户所占的权重就会增大,此时有效的解决办法是针对每个用户提取相同的正负样本。

采样要注意保持和原来的分布一样?

pandas.DataFrame.sample 随机选取若干行

1    数据切片选取
1.1    pandas.DataFrame.sample 随机选取若干行
1.1.1     功能说明
             有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

功能相似:numpy.random.choice
    Generates a random sample from a given 1-D numpy array.

1.1.2     使用说明
1.    函数名及功能
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]

2.    输入参数说明

参数名称 参数说明 举例说明
n 要抽取的行数

df.sample(n=3,random_state=1)
提取3行数据列表
注意,使用random_state,以确保可重复性的例子。

frac

抽取行的比例
例如frac=0.8,就是抽取其中80%。

df.sample(frac=0.8, replace=True, random_state=1)
replace

是否为有放回抽样,
True:有放回抽样
False:未放回抽样

True:取行数据后,可以重复放回后再取
False:取行数据后不放回,下次取其它行数据
注意:当N>总数据容量,replace设置为值时有效

weights

字符索引或概率数组

axis=0:为行字符索引或概率数组
axis=1:为列字符索引或概率数组

 
random_state

int: 随机数发生器种子
或numpy.random.RandomState

random_state=None,取得数据不重复
random_state=1,可以取得重复数据

axis

选择抽取数据的行还是列
axis=0:抽取行
axis=1:抽取列

也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行。

3.    返回值说明
返回选择的N行元素的DataFrame对象。


http://www.taodudu.cc/news/show-63945.html

相关文章:

  • 日志处理logger
  • python压缩和解压缩
  • linux pytorch 快速安装
  • linux文件拷贝
  • listary 指定目录搜索_everything
  • python -m参数
  • is not a supported wheel on this platform pip安装报错
  • 多版本python共存,安装三方库到指定python版本 多Python版本和虚拟环境
  • 预热学习率的作用warmup
  • pythonbug
  • tf.get_variable
  • 量化_深度学习
  • TFRecord tf.train.Feature
  • Tensorflow会话
  • 智能文档理解:通用文档预训练模型
  • 虚拟机网络连接方式linuxcentos
  • xgboost lightgbm catboost 多分类 多标签
  • dataframe 拆分 分裂
  • dataframe多列合并成一列
  • dataframe重命名
  • bert as service
  • BCELoss BCEWithLogitsLoss 多标签损失函数
  • 矩阵拼接 cat padding_pytorch
  • 数据类型转换pytorch
  • xgboost重要参数1
  • xgboost重要参数2为主但不全要参照1
  • batch normalization
  • bert-as-service使用
  • 深度学习网络模型可视化netron
  • pandas dataframe 字符映射为数字

dataframe sample 采样,抽样相关推荐

  1. pandas的自带数据集_pandas.DataFrame.sample随机抽样

    从0到1Python数据科学之旅:http://dwz.date/cqpw 微信公众号:pythonEducation模型和统计项目QQ:231469242 1    数据切片选取 1.1    pa ...

  2. Matlab 采用正态分布和韦布尔分布描述风电,光伏和负荷概率分布,采用拉丁超立方采样抽样生成大量场景

    [1]关键词:场景生成:场景削减:概率分布:随机优化 [2]参考文献:<一种在微网动态经济调度中考虑风电随机性的方法> [3]主要内容:Matlab 采用正态分布和韦布尔分布描述风电,光伏 ...

  3. pandas dataframe随机采样

    使用如下数据: import pandas as pd import numpy as npdf = pd.DataFrame(data=np.random.randint(0, 20, size=( ...

  4. 使用函数sample进行抽样

    x=1:10 > sample(x=x) [1]  3  5  9  6 10  7  2  1  8  4 第一行代码表示给x向量赋值1~10,第二行代码表示对x向量进行随机抽样.结果输出为每 ...

  5. R语言—使用函数sample进行抽样

    在医学统计学或者流行病学里的现场调查.样本选择经常会提到一个词:随机抽样.随机抽样是为了保证各比较组之间均衡性的一个很重要的方法.那么今天介绍的第一个函数就是用于抽样的函数sample: > x ...

  6. Hopfiled 神经网络实例解释

    Hopfiled 神经网络入门 进击吧程序猿 2018-01-01 23:04:27 本文参考 Hinton 的机器学习课程,总结了 Hopfield 神经网络,整个学习的脉络是:Hopfield 网 ...

  7. python读取word

    处理前 先去掉文件中不要的表格 在企查查查询企业信息的时候,得到了一些word文件,里面有些控股企业的数据放在表格里,需要我们将其提取出来. 查看全文 http://www.taodudu.cc/ne ...

  8. java 采样_Java编程实现beta分布的采样或抽样实例代码

    本文研究的主要是Java编程实现beta分布的采样或抽样,具体如下. 本文将使用math3提供的工具包,对beta分布进行采样.如下程序是对alpha=81,beta=219的beta分布函数,进行抽 ...

  9. java 抽样_beta分布的采样或抽样(java程序)

    beta分布的采样或抽样(java程序) 标签:#beta分布采样# 时间:2017/05/12 15:47:04 作者:十七岁的雨季 关于beta分布的介绍,请看我的另外一篇博客:http://bl ...

最新文章

  1. js字符串怎么转python对象_js 对象转换为字符串
  2. 20145328《网络对抗》Web基础
  3. 1.1 lambda表达式
  4. 48岁的C语言,你知道它背后的历史吗?
  5. pku 3270 Cow Sorting 置换群
  6. C# 发出异步的Get请求
  7. 函数式编程在Redux/React中的应用
  8. K8S精华问答 | Kubernetes集群不能正常工作,难道是防火墙问题?
  9. 加密软件漏洞评测系统_调查:加密货币挖矿仍居恶意软件威胁前列
  10. Nmap渗透测试详解(一)
  11. java集合对象排序_java ArrayList集合中的某个对象属性进行排序的实现代码
  12. python怎么写判断语句_Python中的if判断语句入门
  13. MySQL创始人发邮件寻求中国帮助
  14. pytorch view()函数
  15. 【操作系统安装与引导】CSM与安全启动对UEFI引导的影响与处理
  16. kktv电视剧鸿蒙,KKTV K70系列新品上市 京东、天猫、苏宁易购同步预售
  17. WIN7电脑语言栏不见了---解决方案
  18. Wiz.Editor.md 为知笔记 Markdown 插件
  19. mysql修改表结构会锁表吗_MYSQL完美解决生产环境改表结构锁表问题
  20. 基于Matlab的双目相机标定

热门文章

  1. mysql并发更新数据,多用户并发修改数据解决方案。
  2. nginx介绍及常用功能
  3. Django学习之路(一)--初识django
  4. 逗号分隔的字符串转换为Python中的列表 split
  5. ELMo解读(论文 + PyTorch源码)
  6. 中继TensorRT集成
  7. 客快物流大数据项目(五十四):初始化Spark流式计算程序
  8. [JS][dp]题解 | #打家劫舍(一)#
  9. [JS] 闭包与内存泄漏
  10. [C] [字节跳动] [编程题] 手串