2021CCF BDCI

今年CCF又来了,每年都有大佬选手夺冠,也有黑马新人突出重围,对于新人来说一份baseline是很好的起点,可以更快入门数据竞赛。(大佬请忽略!!!)

基于UEBA的用户上网异常行为分析

结构化数据比较好入手,由于贷款违约数据有问题,所以选择了另外一个结构化赛题写了一个baseline,我只提交了一次,线上有0.8994,虽然比不上前排大佬的分数,但是对于入门来说还是可以参考下,而且提升空间还很大!

比赛地址链接:https://www.datafountain.cn/competitions/520

数据列表

话不多说,直接上代码:

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error
import lightgbm as lgb
import xgboost as xgb
from sklearn.model_selection import KFold
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_squared_error
import math
from sklearn import ensemble
from datetime import datetime
df_train = pd.read_csv('2021CCF用户train_data.csv',encoding = 'gb2312')
df_test = pd.read_csv('2021CCF用户A_test_data.csv',encoding = 'gb2312')
data=pd.concat([df_train,df_test],axis=0)
for col in data.columns:if col not in ['ret','time','id']:le = LabelEncoder()data[col] = le.fit_transform(data[col])
data['time'] = pd.to_datetime(data['time'],format='%Y-%m-%d')
data['month']=data['time'].dt.month
data['day']=data['time'].dt.day
data['weekday']=data['time'].dt.weekday
train=data[data['ret'].notnull()]
test=data[data['ret'].isnull()]
feature=[x for x in train.columns if x not in ['ret', 'time', 'id']]
#lgb
clf = lgb.LGBMRegressor(learning_rate=0.05,n_estimators=50230,
#    num_leaves=31,max_depth=7,subsample=0.8,
#    colsample_bytree=0.8,metric='rmse'
)
train_x=train[feature]
target=train['ret']
test_x=test[feature]
oof1 = np.zeros(len(train))
answers = []
score = 0
n_fold = 5
folds = KFold(n_splits=n_fold, shuffle=True,random_state=2000)
for fold_n, (train_index, valid_index) in enumerate(folds.split(train_x)):X_train, X_valid = train_x.iloc[train_index], train_x.iloc[valid_index]y_train, y_valid = target[train_index], target[valid_index]clf.fit(X_train,y_train,eval_set=[(X_valid, y_valid)],verbose=100,early_stopping_rounds=200)y_pre=clf.predict(X_valid)oof1[valid_index]=y_prey_pred_valid = clf.predict(test_x)answers.append(y_pred_valid)
lgb_pre=sum(answers)/n_fold
print('score-----------',  (1/((math.sin(math.atan(np.sqrt(mean_squared_error(oof1,target)))))+1)))
sub=df_test[['id']]
sub['ret']=lgb_pre
sub.to_csv('2021CCF用户submit.csv',index=False)

baseline采用最简单的数据预处理方式,只是机械地将数据进行编码,没有考虑相关关系,也没有深度探索每个数据的业务意义,也没有进行数据可视化,这些都是后续优化的方向,优化的方向特别多,这里就不一一列举,希望baseline能给初学者带来帮助,当然,大佬就不用看了。。。

写在最后

本人才疏学浅,如果有理解不到位或者错误的地方请指正!

2021 CCF基于UEBA的用户上网异常行为分析baseline线上0.90相关推荐

  1. CCF的基于UEBA的用户上网异常行为分析baseline(线上0.9263)

    基于UEBA的用户上网异常行为分析 比赛地址链接:https://www.datafountain.cn/competitions/520 数据: 代码: import pandas as pd im ...

  2. 基于UEBA的用户上网异常行为分析

    1. 引言 1.1 项目介绍 ✅ 随着企业信息化水平的不断提升,数据作为一种资产成为越来越多企业的共识,企业在产业与服务.营销支持.业务运营.风险管控.信息纰漏等生产.经营.管理活动中涉及到大量的商业 ...

  3. UEBA的用户上网异常行为分析方案总结

    文章目录 1. 赛题背景 2. 算法方案整体流程 3. 特征分析与选择 3.1 数据量基本描述 3.2 类别特征编码 3.3 移除均匀分布变量 3.4 移除取值过多的干扰变量 3.5 最终变量 4. ...

  4. 2021年中国空气净化器市场现状分析,线上趋势明显,市场渗透率仍有较大发展空间「图」

    一.空气净化器产业概述 1.发展历程 纵观空气净化器的发源与演变,可以发现产品的升级改进与应用场景的转变.需求的变化密切相关,总体而言产品经过了"烟雾防护装置--空气过滤器--家用空气净化器 ...

  5. 2021年第十六届全国大学生智能汽车竞赛线上比赛的广东、山东赛区赛道铺设规范

    简 介: 由于受到疫情影响,第十六届全国大学生智能汽车竞赛在广东省.山东省采用线上比赛的方案,本文对八个竞速组别的比赛赛道铺设方案进行介绍. 关键词: 智能车竞赛,赛道 §01 比赛环境与赛道 一.综 ...

  6. 2021中国电熨斗产业现状与竞争格局分析,线上趋势推进,飞利浦和松下占据龙头「图」

    一.电熨斗产业链概述 就电熨斗产业链而言,上游主要各种元器件和铸铁等原材料行业,中游是电熨斗生产制造品牌,可分为国内和国外品牌,目前国内品牌整体份额较高,但是单个品牌仍不及飞利浦和松下等老牌国际企业. ...

  7. Openwrt/koolshare基于接口控制用户上网时间的方法

    准备 openwrt分支:koolshare koolshare版本:Linux Dhlwrt 4.14.115 #0 SMP Tue May 7 03:04:33 2019 x86_64 Openw ...

  8. WSDM-爱奇艺:用户留存预测挑战赛 线上0.865

    赛题介绍 http://challenge.ai.iqiyi.com/detail?raceId=61600f6cef1b65639cd5eaa6 https://www.datafountain.c ...

  9. jpa,分析duid参数,当前用户的最大线程数,线上问题排查,stack命令查看占用CPU高的线程堆栈信息

    1.先查看应用进程号: ps -ef | grep 应用名 ,也就是 pid 2.查看pid垃圾回收情况: jstat -gc pid 5000(时间间隔) 3.dump jvm二进制的内存详细使用情 ...

最新文章

  1. Voice LAB-1 CUBE Cisco Unified Border Element
  2. 多目标跟踪FairMOT笔记
  3. 自己写的 根据编码搜索文件的小工具
  4. Android官方开发文档Training系列课程中文版:使用Fragment构建动态UI之与其它Fragment通信
  5. Python之数据分析(numpy线性模型、线性预测、线性拟合)
  6. notepad++ 技巧
  7. jsp form提交到后台中文乱码_2019.6.12 servlet 3.0 和 JSP
  8. VB小程序:生成十个不重复的随机数
  9. 电机正反转c语言注释,直流电机正反转C程序.doc
  10. 如何实现用手机远程控制电脑?
  11. asp .net 和 ASP
  12. 利用PyQt5制作本地音乐播放器
  13. c 开发android ios实例,使用 C++ 进行跨平台移动开发
  14. 醉后不知天在水 满船清梦压星河。—第二十一天
  15. JavaScript高级程序设计(第3版)电子版,非扫描下载
  16. python print 函数出错
  17. 综合概括-中国制造 2025
  18. 医疗ChatGPT、金融GPT都来啦!“潘多拉的魔盒”已经打开?
  19. bulk这个词的用法_bulk是什么意思
  20. 技术架构之高并发系统设计方法论

热门文章

  1. 剑指offe【31-67】
  2. 一万字长文解读中国的消费经济
  3. 低功耗MCU设计理念
  4. android 微信分享 源码,记录Android微信分享功能的吐槽与思考
  5. 微信公众平人数多服务器会崩溃吗,微信公众号平台推新功能 再也不怕文章崩溃...
  6. 创客(米思奇编程)-03-传感器
  7. popos ubuntu20升级更新AMD显卡GPU驱动
  8. 基于RT-Thread系统的迷你时钟
  9. RobotFrameWork Web自动化测试之测试环境搭建
  10. HTML / CSS 实践练习