1.衍生方式一

df=pd.DataFrame({'id':[2,2,2,3,3,5],'cur':['cur1','cur2','cur3','cur1','cur1','cur2']})
df

df_tmp=pd.crosstab(df['id'],df['cur'])
df_tmp

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
df_new=pd.DataFrame({'id':list(set(df.id))})
df_new['cur1_count']=0
df_new['cur_count_all']=0
df_new['cur_cate_num']=0
for id in list(set(df.id)):df_new.loc[df_new.id==id,'cur1_count']=df_tmp.loc[id,'cur1']df_new.loc[df_new.id==id,'cur_count_all']=df_tmp.loc[id,'cur1':'cur3'].sum()df_new.loc[df_new.id==id,'cur_cate_num']=len(np.where(df_tmp.loc[id,'cur1':'cur3']>0)[0])
df_new.head()

python衍生特征相关推荐

  1. python计算特征的统计值并文本输出

    python计算特征的统计值并文本输出 # 输出统计分位数 df.describe(percentiles=[0.05, 0.25, 0.5, 0.75, 0.95]) featname:A => ...

  2. python计算特征与目标的相关性并可视化

    python计算特征与目标的相关性并可视化 pandas计算相关性 # 相关性 tips.corr() Out[2]: total_bill tip size total_bill 1.000000 ...

  3. python tfidf特征变换_Python机器学习之“特征工程”

    本次将介绍特征工程的一些常见示例:表示分类数据的特征.表示文本的特征和表示图像的特征.另外,还会介绍提高模型复杂度的衍生特征和处理缺失数据的填充方法.这个过程通常被称为向量化,因为它把任意格式的数据转 ...

  4. pandas在数据分析(异常值识别问题)中的应用,以衍生特征计算为例(含2022年全国服务外包大赛实例)

      我们以2022年全国服务外包大赛的A03题目作为示例代码演示衍生特征计算过程.   问题的主要任务时找出商品的销量异常和价格异常,提供4个月的商品信息数据,共1700万余条,4个月的店铺信息数据, ...

  5. python SIFT特征匹配

    python SIFT特征匹配 SIFT(尺度不变特征变换) 兴趣点 描述子 检测兴趣点 匹配描述子 匹配地理标记图像 用局部描述子进行匹配 可视化连接的图像 实验代码 实验结果 结果分析 SIFT( ...

  6. python算法特征_python 3.x实现特征选择ReliefF算法

    代码 !/usr/bin/env python # -*- coding:utf-8 -*- @Time : 2019/10/29 0029 9:12 @Author : tb_youth @File ...

  7. 基于Python的特征自动化选择:两行代码完成特征工程

    本文介绍一个特征选择神器:特征选择器是用于减少机器学习数据集的维数的工具,可以傻瓜式地进行特征选择,两行代码即可搞定!! 来源:Will Koehrsen 代码整理及注释翻译:黄海广 代码和数据下载地 ...

  8. 两行代码完成特征工程-基于Python的特征自动化选择代码(提供下载)

    本文介绍一个特征选择神器:特征选择器是用于减少机器学习数据集的维数的工具,可以傻瓜式地进行特征选择,两行代码即可搞定!! 来源:Will Koehrsen 代码整理及注释翻译:黄海广 代码和数据下载地 ...

  9. python利用特征进行可视化样本显示_利用Python进行机器学习之特征选择

    毫无疑问,解决一个问题最重要的是恰当选取特征.甚至创造特征的能力,这叫做特征选取和特征工程.对于特征选取工作,我个人认为分为两个方面: 1)利用python中已有的算法进行特征选取. 2)人为分析各个 ...

最新文章

  1. 2021-2027年中国一氧化氮行业市场研究及前瞻分析报告
  2. ACE_Proactor UDP V2.0
  3. 2020年第十一届蓝桥杯 - 省赛 - C/C++大学生A组 - C.蛇形填数
  4. 你不会真的以为自己懂得计算机网络吧?
  5. 当MVP与阿里云一起踏上西行远征——阿里云MVP“戈壁之路”徒步记行
  6. 累计增量备份策略_SAN存储做定时/实时备份的介绍
  7. Facebook开源MySQL分支获大佬捧场
  8. 基于python的贴吧舆情监控助手实战
  9. html5文字游戏引擎,【HTML5 Game】一步步开发一个 TypeShot 的打字游戏
  10. 猫途鹰联手携程集团打造面向中国出境旅行者的顶级旅行平台
  11. 基于深度学习的AI疲劳检测系统
  12. 《大数据之路:阿里巴巴大数据实践》-第1篇 数据技术篇 -第5章 实时技术
  13. ExtJS实战教程~~前言
  14. 蔓迪、落健、heybro、达霏欣哪个效果更好?自然选蔓迪
  15. 用于桌面虚拟化和远程访问图形要求苛刻的 CAD、EDA 应用程序的高级解决方案
  16. 唯美雪景雪花飘落代码,附效果演示
  17. win10桌面文件丢失的处理总结
  18. 性能优化-Tomcat调优
  19. Wap Push 源码
  20. WORD自动编号的图表标签重新编号

热门文章

  1. [JBoss] - 环境搭建
  2. SharePoint 2013常用开发工具分享
  3. AngularJS:在Windows上安装Yeoman
  4. python学号怎么编写_用python编写学生管理系统
  5. 【测试】批量删除供应商配额(Quota )
  6. SAP保存操作记录CDHDR和CDPOS表,通过修改屏幕字段,查找SAP字段表和字段
  7. 数据列过滤条件常用处理
  8. Oracle创建用户并给用户授权查询指定表或视图的权限
  9. sap 采购订单中收货容差的取值顺序
  10. 2016年10月CPU天梯图