countvector(a)+doc(a)+hash(a)

"""
1.特征:countvector(a)+doc(a)+hash(a)
2.模型:lgb
"""
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import pickle
import lightgbm as lgb"""=====================================================================================================================
1 读取数据,并转换到lgb的标准数据格式
"""
with open('countvector(a)+doc(a)+hash(a).pkl', 'rb') as f:x_train, y_train, x_test = pickle.load(f)"""划分训练集和验证集,验证集比例为test_size"""
x_train, x_vali, y_train, y_vali = train_test_split(x_train, y_train, test_size=0.1, random_state=0)
d_train = lgb.Dataset(data=x_train, label=y_train)
d_vali = lgb.Dataset(data=x_vali, label=y_vali)"""=====================================================================================================================
2 训练lgb分类器
"""
params = {'boosting': 'gbdt','application': 'multiclassova','num_class': 20,'learning_rate': 0.1,'num_leaves':31,'max_depth':-1,'lambda_l1': 0,'lambda_l2': 0.5,'bagging_fraction' :1.0,'feature_fraction': 1.0}bst = lgb.train(params, d_train, num_boost_round=800, valid_sets=d_vali,feval=f1_score_vali, early_stopping_rounds=None,verbose_eval=True)"""=====================================================================================================================
3 对测试集进行预测;将预测结果转换为官方标准格式;并将结果保存至本地
"""
y_proba = bst.predict(x_test)
y_test = np.argmax(y_proba, axis=1) + 1df_result = pd.DataFrame(data={'id':range(102277), 'class': y_test.tolist()})
df_proba = pd.DataFrame(data={'id':range(102277), 'proba': y_proba.tolist()})df_result.to_csv('lgb_countvector(a)+doc(a)+hash(a).csv',index=False)
df_proba.to_csv('lgb_countvector(a)+doc(a)+hash(a)_proba.csv',index=False)

特征:countvector(w)+doc(w)+hash(w)

"""
1.特征:countvector(w)+doc(w)+hash(w)
2.模型:lgb
"""
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import pickle
import lightgbm as lgb"""=====================================================================================================================
1 读取数据,并转换到lgb的标准数据格式
"""
with open('countvector(w)+doc(w)+hash(w).pkl', 'rb') as f:x_train, y_train, x_test = pickle.load(f)"""划分训练集和验证集,验证集比例为test_size"""
x_train, x_vali, y_train, y_vali = train_test_split(x_train, y_train, test_size=0.1, random_state=0)
d_train = lgb.Dataset(data=x_train, label=y_train)
d_vali = lgb.Dataset(data=x_vali, label=y_vali)"""=====================================================================================================================
2 训练lgb分类器
"""
params = {'boosting': 'gbdt','application': 'multiclassova','num_class': 20,'learning_rate': 0.1,'num_leaves':31,'max_depth':-1,'lambda_l1': 0,'lambda_l2': 0.5,'bagging_fraction' :1.0,'feature_fraction': 1.0}bst = lgb.train(params, d_train, num_boost_round=800, valid_sets=d_vali,feval=f1_score_vali, early_stopping_rounds=None,verbose_eval=True)"""=====================================================================================================================
3 对测试集进行预测;将预测结果转换为官方标准格式;并将结果保存至本地
"""
y_proba = bst.predict(x_test)
y_test = np.argmax(y_proba, axis=1) + 1df_result = pd.DataFrame(data={'id':range(102277), 'class': y_test.tolist()})
df_proba = pd.DataFrame(data={'id':range(102277), 'proba': y_proba.tolist()})df_result.to_csv('lgb_countvector(w)+doc(w)+hash(w).csv',index=False)
df_proba.to_csv('lgb_countvector(w)+doc(w)+hash(w)_proba.csv',index=False)

达观杯_构建模型(三)lightGBM相关推荐

  1. 达观杯_构建模型(四)贝叶斯

    """ 1.特征:linearsvm-tfidf(word)+lr-tfidf(article) / doc2vec_word 2.模型:bayes"" ...

  2. 达观杯_构建模型(一)linearSVM

    特征:tfidf(word)+tfidf(article) """ 1.特征:tfidf(word)+tfidf(article) 2.模型:linearsvm 3.参数 ...

  3. 达观杯_构建模型(二)逻辑回归

    特征:tfidf(word+article) """ 1.特征:tfidf(word+article) 2.模型:lr 3.参数:C=120 ""&q ...

  4. 【小白学PyTorch】4.构建模型三要素与权重初始化

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 文章目录: 1 模型三要素 2 参数初始化 3 完整运行代码 4 ...

  5. qbytearray初始化全0_【小白学PyTorch】4.构建模型三要素与权重初始化

    文章目录: 1 模型三要素 2 参数初始化 3 完整运行代码 4 尺寸计算与参数计算 这篇文章内容不多,比较基础,里面的代码块可以复制到本地进行实践,以加深理解. 喜欢的话,可以给公众号加一个星标,点 ...

  6. python_torch_加载数据集_构建模型_构建训练循环_保存和调用训练好的模型

    以下代码均来自bilibili:[适用于初学者的Pytorch编程教学] 以下为完整代码,复制即可运行. import torch import time import json import tor ...

  7. 深度学习每层的通道数如何计算_深度学习基础系列(一)| 一文看懂用kersa构建模型的各层含义(掌握输出尺寸和可训练参数数量的计算方法)...

    我们在学习成熟网络模型时,如VGG.Inception.Resnet等,往往面临的第一个问题便是这些模型的各层参数是如何设置的呢?另外,我们如果要设计自己的网路模型时,又该如何设置各层参数呢?如果模型 ...

  8. lightgbm 保存模型 过大_机器学习之12—Lightgbm

    Lightgbm模型和GBDT以及XGboost一样,都是基于决策树的boosting集成模型: Lightgbm是一个快速高效.低内存占用.高准确度.支持并行和大规模数据处理的数据科学工具. 关于G ...

  9. Scikit-learn 秘籍 第三章 使用距离向量构建模型

    第三章 使用距离向量构建模型 作者:Trent Hauck 译者:飞龙 协议:CC BY-NC-SA 4.0 这一章中,我们会涉及到聚类.聚类通常和非监督技巧组合到一起.这些技巧假设我们不知道结果变量 ...

最新文章

  1. 「linux网络管理」OSI模型
  2. window.onload 和 body.onload 相互覆盖的本质
  3. CVPR 2019审稿排名第一满分论文:让机器人也能「问路」的视觉语言导航新方法...
  4. xtrabackup mysql 5.6_percona-xtrabackup工具实现mysql5.6.34的主从同步复制
  5. esxi管理端口_网工知识角|一分钟轻松了解华为端口安全机制
  6. 信息学奥赛一本通(1260:【例9.4】拦截导弹(Noip1999))
  7. python unpack_python中struct.pack()函数和struct.unpack()函数
  8. 软件测试行业发展前景怎么样?
  9. 分析师:苹果或推出自家搜索引擎;曝因芯片缺货,华为智慧屏削减30-40%订单;Rust 1.46.0 发布|极客头条
  10. Python unittest基本框架组成(1)
  11. jQuery事件学习
  12. 矢量控制——SVPWM
  13. python socket服务端
  14. Spring的事务传播特性
  15. 计算机多媒体的发展,计算机多媒体技术的现状及发展前景
  16. 微信小程序开发多少钱?微信小程序开发费用
  17. lms语音降噪matlab实现_ANC主动降噪理论及Matlab代码实现
  18. halcon 计算图像的反余弦值:acos_image
  19. 05 【动静分离和URLRewrite】
  20. 颜色传感器 TCS230

热门文章

  1. 从头学起androidlt;AutoCompleteTextView文章提示文本框.十九.gt;
  2. Oracle Mutex 机制 说明
  3. 自定义Linq的Distinct
  4. Emptyproject分析
  5. 运用比较纯的CSS打造很Web2.0的按钮
  6. 青少年编程竞赛交流群周报(第042周)
  7. 【青少年编程】【四级】词语接龙
  8. 【ACM】杭电OJ 1009 (FatMouse' Trade)。
  9. 集生态之力跨城市数字化之难题,英特尔交上了一份完美答卷
  10. 前百度主任架构师创业,两年融资千万美元,他说AI新药研发将迎来黄金十年...