Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

目录

Higgs Boson比赛简介

Higgs Boson数据集的下载

Higgs Boson数据集的案例应用


Higgs Boson比赛简介

希格斯玻色子(英语:Higgs boson),是标准模型里的一种基本粒子,是一种玻色子,自旋为零,宇称为正值,不带电荷、色荷,极不稳定,生成后会立刻衰变。希格斯玻色子是希格斯场的量子激发。希格斯粒子的衰变能动会生成耦合实粒子。根据希格斯机制,基本粒子因与希格斯场耦合而获得质量。假若希格斯玻色子被证实存在,则希格斯场应该也存在,而希格斯机制也可被确认为基本无误。

希格斯玻色子(英语:Higgs boson)是标准模型里的一种基本粒子,是因物理学者彼得·希格斯而命名。 2012年7月4日,欧洲核子研究组织(CERN)宣布,LHC的紧凑渺子线圈(CMS)探测到质量为125.3±0.6GeV的新玻色子(超过背景期望值4.9个标准差),超环面仪器(ATLAS)测量到质量为126.5GeV的新玻色子(5个标准差),这两种粒子极像希格斯玻色子。 2013年3月14日,欧洲核子研究组织发表新闻稿正式宣布,先前探测到的新粒子暂时被确认是希格斯玻色子,具有零自旋与偶宇称,这是希格斯玻色子应该具有的两种基本性质,但有一部分实验结果不尽符合理论预测,更多数据仍在等待处理与分析。 2013年10月8日,因为“次原子粒子质量的生成机制理论,促进了人类对这方面的理解,并且最近由欧洲核子研究组织属下大型强子对撞机的超环面仪器及紧凑μ子线圈探测器发现的基本粒子证实”,弗朗索瓦·恩格勒、彼得·希格斯荣获2013年诺贝尔物理学奖。

一个粒子的重要特点是它在其他粒子之后延迟多少。CERN用ATLAS进行物理实验来寻找新粒子。实验最近发现一个 Higgs boson延迟在两个tau粒子出现,但是该延迟只是淹没在背景噪声中的小信号。

竞赛官网: https://www.kaggle.com/c/higgs-boson/
相关介绍:Higgs boson machine-learning challenge

该竞赛的目的是利用机器学习方法,提高ATLAS实验发现粒子的显著性。竞赛无需粒子物理的背景知识(解决实际问题时背景知识在很大程度上还是有用的)。竞赛数据是根据ATLAS检测到的事件的特征合成的数据,竞赛任务是将事件分类为"tau tau decay of a Higgs boson" 或 "background"
      这是一个两类分类任务:将事件分类为"tau tau decay of a Higgs boson" 或 "background"。希格斯玻色子机器学习挑战的目标是探索先进机器学习方法的潜力,提高实验发现的意义。不需要粒子物理学知识。使用ATLAS检测到的具有表征事件特征的模拟数据,您的任务是将事件分类为"tau tau decay of a Higgs boson" 或 "background"。

  • 每个事件有一个ID,30个特征,权重,和标签
  • 用交叉验证选择迭代次数
  • 与sklearn中的GBM速度与性能比较

1、数据集介绍

File descriptions

  • training.csv - Training set of 250000 events, with an ID column, 30 feature columns, a weight column and a label column.
  • test.csv - Test set of 550000 events with an ID column and 30 feature columns.
  • random_submission - Sample submission file in the correct format. File format is described on the Evaluation page.
  • HiggsBosonCompetition_AMSMetric - Python script to calculate the competition evaluation metric.

For detailed information on the semantics of the features, labels, and weights, see the technical documentation from the LAL website on the task.

Some details to get started:

  • all variables are floating point, except PRI_jet_num which is integer
  • variables prefixed with PRI (for PRImitives) are “raw” quantities about the bunch collision as measured by the detector.
  • variables prefixed with DER (for DERived) are quantities computed from the primitive features, which were selected by  the physicists of ATLAS
  • it can happen that for some entries some variables are meaningless or cannot be computed; in this case, their value is −999.0, which is outside the normal range of all variables

training.csv:训练集包含250000个事件,每个事件有一个ID,30个特征,权重,和标签。 
test.csv:测试数据包含550000事件,每个事件包含一个ID和30个特征。
(1)、所有变量都是floating point类型,除了PRI_jet_num 为integer 以PRI (PRImitives) 为的前缀特征为检测器测量得到的关于bunch collision“原始” 数据。 以DER ( DERived)为ATLAS的物理学家选择的根据原始特征计算得到的数据。 缺失数据记为 −999.0, 与所有特征的正常值不同。
(2)、特征、权重和标签的具体语意可以查看CERN的技术文档。

2、比赛排行榜

Higgs Boson数据集的下载

本数据集,如有需要,可留言向博主索取

Higgs Boson数据集的案例应用

ML之xgboost:基于xgboost(5f-CrVa)算法对Higgs Boson数据集(Kaggle竞赛)训练(模型保存+可视化)实现二分类任务

Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略相关推荐

  1. Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

    Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介.下载.案例应用之详细攻略 目录 RentListingInquries比 ...

  2. Dataset之AllstateClaimsSeverity:AllstateClaimsSeverity数据集(Kaggle2016竞赛)的简介、下载、案例应用之详细攻略

    Dataset之AllstateClaimsSeverity:AllstateClaimsSeverity数据集(Kaggle2016竞赛)的简介.下载.案例应用之详细攻略 目录 AllstateCl ...

  3. Dataset之Pascal:Pascal竞赛及其Pascal VOC(VOC 2012、VOC 2007) 数据集的简介、下载、使用方法详细攻略

    Dataset之Pascal VOC:Pascal VOC(VOC 2012.VOC 2007) 数据集的简介.下载.使用方法详细攻略 目录 Pascal 竞赛 1.PASCAL VOC竞赛任务 2. ...

  4. Dataset:Big Mart Sales数据集的简介、下载、案例应用之详细攻略

    Dataset:Big Mart Sales数据集的简介.下载.案例应用之详细攻略 目录 Big Mart Sales数据集的简介 1.特征解释 Big Mart Sales数据集的下载 Big Ma ...

  5. Dataset之OttoGroup:OttoGroup数据集的简介、下载、案例应用之详细攻略

    Dataset之OttoGroup:OttoGroup数据集的简介.下载.案例应用之详细攻略 目录 OttoGroup数据集的简介 OttoGroup数据集的下载 OttoGroup数据集的案例应用 ...

  6. Dataset:titanic泰坦尼克号数据集/泰坦尼克数据集(是否获救二分类预测)的简介、下载、案例应用之详细攻略

    Dataset:titanic泰坦尼克号数据集/泰坦尼克数据集(是否获救二分类预测)的简介.下载.案例应用之详细攻略 目录 titanic(泰坦尼克号)数据集的简介 1.titanic数据集各字段描述 ...

  7. Dataset之JFT:JFT/FastEval14k数据集的简介、下载、案例应用之详细攻略

    Dataset之JFT:JFT数据集的简介.下载.案例应用之详细攻略 目录 JFT/FastEval14k数据集的简介 JFT数据集的下载 JFT数据集的案例应用 JFT/FastEval14k数据集 ...

  8. Dataset:机器学习中常用数据集下载链接集合之详细攻略

    Dataset:机器学习中常用数据集下载链接集合之详细攻略 目录 机器学习中常用数据集下载链接集合之详细攻略 sklearn.datasets数据集所有csv文件集合 seaborn-data数据集所 ...

  9. Dataset之DA:数据增强(Data Augmentation)的简介、方法、案例应用之详细攻略

    Dataset之DA:数据增强(Data Augmentation)的简介.方法.案例应用之详细攻略 目录 DA的简介 DA的方法 DA的案例应用 DA的简介 数据集增强主要是为了减少网络的过拟合现象 ...

最新文章

  1. 判断变量是否为数组的几种方法
  2. 组会PPT202006220717《双研究步骤的螺旋波等离子体放电结果分析》
  3. Windows Server 2003 导入Java生成的证书,保证iis对CAS的访问
  4. unity塔防游戏怪物转向_Unity官方新手游戏项目推荐合集
  5. luogu P1427 小鱼的数字游戏
  6. 关于表单元素input的美化
  7. Matlab基本知识概况
  8. 中级职称计算机应用考哪些,中级职称计算机考试大纲
  9. oop 商品信息按商品名称查询 商品按价格排序 内含测试类
  10. 有高度的数据分析,这样做
  11. 程序员武器之键盘,适用于其他文字录入者
  12. three.js使用外部模型创建动画,使用GLTF格式文件动画创建动画(vue中使用three.js71)
  13. Windows11系统下Edge如何兼容IE浏览器
  14. java 发送网易邮箱邮件
  15. web开发学习,HTML标签语义化
  16. Windows远程桌面连接不上问题
  17. 黑苹果安装教程:解锁VM
  18. Current Mirror
  19. 【通信原理】复习笔记
  20. 独家|60年人工智能简史

热门文章

  1. python类介绍说明_python 中类
  2. Boost.python 编译和使用
  3. Dubbo和Spring Cloud微服务架构
  4. 开源心得:一个Ubuntu用户的使用体悟
  5. 修改Ubuntu和XP双系统时的默认启动系统
  6. 一步步教你如何用疯狂.NET架构中的通用权限系统 -- 分级管理
  7. windows环境下运行.sh文件
  8. virtualBox中的ubuntu共享文件夹
  9. Android 告急!
  10. 定位服务器数据丢弃包问题