前言

最近讯飞开发者大赛如火如荼地进行着,各赛道赛题都具有挑战性,大家都可以参与挑战
大赛地址:http://challenge.xfyun.cn/?ch=ds-sq-bm

环境空气质量评价挑战赛

数据说明

具体的数据只有报名后即可下载,数据量并不大,初赛训练集和测试集都只有几百条数据

评价指标

本模型依据提交的结果文件,利用均方根误差(RMSE)评价模型。
(1) 样本的相对综合污染系数 IPRC,用于判断样本之间的相对污染程度。
(2) 基于IPRC,计算RMSE. 其中m为样本数,y为IPRC真实值,y_pred为IPRC预测值。

对于初学者来说,有一个baseline比较好上手,所以初步选了一个XGBoost模型作为baseline的模型,线上提交结果分数有0.08247,代码如下:

import lightgbm as lgb
import xgboost as xgb
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import sklearn
from sklearn import metrics
from sklearn.model_selection import KFold
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import StratifiedKFold, KFold
import math
import datetime
from sklearn.preprocessing import LabelEncoder
import re
from sklearn.linear_model import Ridge
from catboost import CatBoostRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn import ensemble
from sklearn.preprocessing import Imputer
from sklearn import preprocessing
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.model_selection import cross_val_score, cross_validate, cross_val_predict, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, make_scorer
from sklearn.model_selection import train_test_split,cross_val_score
from sklearn.metrics import roc_auc_scoretrain=pd.read_csv('保定2016年.csv')
test=pd.read_csv('石家庄20160701-20170701.csv')
data=pd.concat([train,test])
#Encoder
quality_le = LabelEncoder()
quality_le.fit(data['质量等级'].values)
data['质量等级'] = quality_le.transform(data['质量等级'].values)
#简单时间处理
data['日期'] = pd.to_datetime(data['日期'],format='%Y-%m-%d')
data['month']=data['日期'].dt.month
data['day']=data['日期'].dt.day
data['weekday']=data['日期'].dt.weekdaytrain_new=data[data['IPRC'].notnull()]
test_new=data[data['IPRC'].isnull()]train_x = train_new.drop(['日期','IPRC'],axis=1) # 训练集输入
target = train_new['IPRC'] # 训练集标签
test_x = test_new.drop(['日期','IPRC'],axis=1) # 测试集输入
#xgb
xlf=xgb.XGBRegressor(max_depth=7,learning_rate=0.05,n_estimators=10000,subsample=0.8)
answers = []
score = 0
n_fold = 5
folds = KFold(n_splits=n_fold, shuffle=True,random_state=1314)
for fold_n, (train_index, valid_index) in enumerate(folds.split(train_x)):X_train, X_valid = train_x.iloc[train_index], train_x.iloc[valid_index]y_train, y_valid = target[train_index], target[valid_index]xlf.fit(X_train,y_train,eval_set=[(X_valid, y_valid)],verbose=100,early_stopping_rounds=100)y_pre=xlf.predict(X_valid)print('每一折验证分数:'+str(mean_squared_error(y_valid,y_pre)))score = score + mean_squared_error(y_valid,y_pre)y_pred_valid = xlf.predict(test_x)answers.append(y_pred_valid)
xgb_pre=sum(answers)/n_fold
print('xgb验证分数'+str(math.sqrt(score/n_fold)))
result=pd.DataFrame()
result['date']=test['日期']
result['IPRC']=xgb_pre
result.to_csv('空气质量.csv',index=False)#保存结果

写在最后

本人才疏学浅,如果有错误的地方请包涵并指正,有问题也可以提出讨论,祝大家在大赛中取得好成绩!

讯飞开发者大赛-环境空气质量评价挑战赛baseline相关推荐

  1. 2021科大讯飞_环境空气质量评价挑战赛_LineRegression_baseline0.04385

    文章目录 前言 一.环境空气质量评价挑战赛 二.源码 1.LineRegression 总结 前言 没事的话就也来参加一下这些比赛吧,只要进入前20%就有证书发啦,以后说不定有用噢 一.环境空气质量评 ...

  2. 讯飞机器翻译质量评估挑战赛Baseline(PaddlePaddle)

    赛题简介 比赛地址:点击直达 举办方:科大讯飞股份有限公司 任务类型:质量评估(QE).自然语言回归 赛事背景 机器翻译质量评估(QE)指在没有人工翻译参考下对机器翻译系统译文进行自动打分.一方面,Q ...

  3. 230万奖金新赛事!第四届iFLYTEK A.I.开发者大赛正式发布!

    一年一度!由科大讯飞发起.中国信息协会联合主办的第四届iFLYTEK A.I.开发者大赛开始啦!!! 作为业内首屈一指的人工智能竞赛平台,A.I.开发者大赛积淀至今已成功举办过三届. 去年科大讯飞联合 ...

  4. 讯飞输入法皮肤制作_手机输入法哪家强:百度、搜狗、讯飞输入法对比评测

    最近用红米K20 Pro,感觉十分流畅,不愧是旗舰机型.而且,其输入法都装了三个,显得比别人更全面. 其预装的是百度输入法小米版.搜狗输入法小米版,以及讯飞输入法小米版.呵呵,装了这么多,到底哪个好呢 ...

  5. 讯飞语音识别和唤醒开发示例

    讯飞语音识别和唤醒开发示例 最近需要用到讯飞的语音识别和语音唤醒的功能,就对这方面进行了一下简单研究. 本文帮助大家简单入门,并且提供几个代码示例给大家参考. 讯飞开发者网址:https://www. ...

  6. Linux下讯飞语音配置入门

    本来是想在树莓派3上做开发的,可是没有树莓派3的SDK,在这里先在Linux上熟悉下讯飞语音. Linux系统:Ubuntu16 64位 一.注册获取SDK 在讯飞开发者平台进行注册,注册分个人用户和 ...

  7. 中文 哈工大_第六届中文语法错误诊断大赛,哈工大讯飞联合实验室再获多项冠军...

    近日,第六届中文语法错误诊断大赛(CGED)研讨会于AACL 2020大会的"面向教育技术的自然语言处理(NLPTEA)"workshop中顺利举行.今年共有国内外14支队伍参赛, ...

  8. 【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案--1 赛后总结与分析

    目录 1 相关信息 2 总结 2.1 TextCNN.Fasttext等DL方案 2.2 机器学习LGB方案 2.3 Bert方案 3 继续提分点 1 相关信息 [NLP]讯飞英文学术论文分类挑战赛T ...

  9. 【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案

    目录 1 相关信息 2 引言 3 实现 3.1 数据预处理 3.2 Bert 4 提分点技巧讲解 5 未来展望 1 相关信息 [NLP]讯飞英文学术论文分类挑战赛Top10开源多方案–1 赛后总结与分 ...

最新文章

  1. php连接mongoDB的几个问题
  2. RequestMapping注解的作用
  3. 读取SSDT表和原函数地址
  4. Adobe Acrobat XI反色保护色
  5. ABAP和Java的单元测试Unit Test
  6. 单行溢出 和多行溢出
  7. .net core 获取binary 文件_Linux操作系统文件目录
  8. C++如何防止头文件被二次编译
  9. PHP将日期转换为时间戳方式,php日期转换为时间戳的方法
  10. nginx配置文件被删怎么找回_恢复误删除的Nginx日志
  11. Android 创建随机数生成器
  12. python海贼王_Python 学习笔记---爬取海贼王动漫
  13. Google浏览器自动翻译失灵
  14. Unity|一键复制log日志|小技巧
  15. 数据结构:递归算法时间复杂度与空间复杂度计算方法
  16. 如何进入游戏行业成为一个程序员
  17. java程序员从笨鸟到菜鸟(八)泛型
  18. elk面试题_2019年最新公务员、事业单位面试题库(含答案)elk
  19. Java技术交流群[微信](Talking Coding)
  20. 动易BizIdea和SpaceBuilder实现单点登录

热门文章

  1. 电动车充电器电路图全集
  2. 容易和不易导入生产计划系统的工厂
  3. html超链接图片下 加文字颜色,如何为文字、形状、图片添加超链接?如何为超链接设置颜色?...
  4. 利用 Redis Bitmap 统计用户在线次数
  5. “NOSQL” 杂谈
  6. 2017年第23届中国东北国际建筑装饰博览会会刊(参展商名录)
  7. 靶场练习之hackinglab(鹰眼)-脚本题
  8. 写markdown博客如何将截图快速上传到图床——记一个工具插件的实现(windows版 开源)...
  9. 安装禅道系统(开源)和配置RDS数据库
  10. Uni-app开发微信小程序的一些基础知识点包括开发工具的安装和项目的初始配置运行(边学边更新)