文章目录

  • 思路
    • 第一阶段
    • 第二阶段
  • 结果
    • 参数网格
    • 结果输出
      • 毕宿星流位置和速度分布
      • 毕星团位置和速度分布
  • 代码

本人专挑数据挖掘、机器学习和 NLP 类型的题目做,有兴趣也可以逛逛我的数据挖掘竞赛专栏

本人不会回访,不互关,不互吹,以及谢绝诸如此类事

赛题官网:http://www.tzmcm.cn/

思路

第一阶段

第一阶段的解题过程详见:https://blog.csdn.net/weixin_42141390/article/details/116722963

第二阶段

第二阶段的问题,看似一句“分布分散”,将聚类的思路给断了,其实不然,该问题还是聚类问题。请往下看:

在第一阶段,我们绘制出毕星团的 H-R 图(x 为 B-V,y 为 Vmag,colorbar 与 B-V 对应,注意该图不是星星的位置…):

毕星图的概念如下
原始的图在水平轴上显示恒星的光谱类型,在垂直的轴上显示绝对视星等。光谱类型不是数值的量,但其序列反映出恒星表面温度的单调序列。现代观测版本的图表将光谱类型替换成色指数(在20世纪的图表中,最常见的是恒星的B-V色指数)。这种类型的图表通常称为观测赫罗图,或特殊的色光图(CMD,color–magnitude diagram),并且通常是观测者在使用。在已知恒星处于相同距离(如恒星簇内)的情况下,CMD通常用于描述星团中的恒星,其垂直轴视恒星的视星等1
由于毕宿星流在空间中相对分散,根据天球的概念
天球上的赤经,功用与地理座标中的经度相同。赤经和经度都是沿着赤道向东或西方向量度,赤纬是天文学中赤道座标系统中的两个坐标数据之一,赤纬与地球上的纬度相似

赤经和赤纬如下图所示(图来自https://zh.wikipedia.org/wiki/%E8%B5%A4%E7%BA%AC)

根据题目,由于毕宿流星在位置分布上比较分散,而在运行轨迹上却和毕星团相近,也即 pmRA 和 pmDE 接近与毕星团。所以,我们可以考虑使用阶段一的聚类方法,先将数据进行预处理,并给 pmRA 和 pmDE 赋予一个大权重;且结合题目可知,由于毕宿流星的 RA 和 DE 比较分散,所以为了 RA 和 DE 影响聚类算法识别毕宿流星,可以给其赋予较小的权重,或让其不参与聚类。最后,剔除毕星团后进行聚类。

不过,同阶段一一样,如何筛选聚类的参数?需要我们解答

这里:同样是如同阶段一一样,我们还是用网格寻优+DBSCAN 的办法。

设置聚类的前提为

  1. 个体数量最多的那个簇,它们旗下的个体,的 pmRA 和 pmDE 必须能够通过 ANOVA。即保证 pmRA 和 pmDE 对每一个个体来说,具有均匀性。或者说,个体们的 pmRA 和 pmDE 差别可以忽略不计。
  2. 个体数量最多的那个簇,它们旗下的个体,的 pmRA 和 pmDE,与毕星团的 pmRA 和 pmDE,必须满足 T检验。具体说,就是最大簇的 pmRA 和 毕星团的 pmRA 得通过 T 检验;最大簇的 pmDE 和 毕星团的 pmDE 得通过 T 检验。这保证了类似性。即最大簇下的星体的 pmRA 和 pmDE,与毕星团的相差不会太大。

经过上述前提的筛选后,能够通过的聚类参数,对应的 DBSCAN 算法,会默认将最大簇的 pmRA 和 pmDE 设置为和毕星团接近,并且星体之间的 pmRA 和 pmDE 差异不大。 而这个最大簇,就是我们预定的毕宿星流。

上述前提体现了:

  1. 毕宿星流是最大簇
  2. 毕宿星流的 mpRA 和 pmDE 满足均匀性,和与毕星团类似性。

但这还不够,我们还要评判聚类效果,为此按优先级的从高到低,定义以下原则

  1. 最大聚类簇,的个体数必须是所有参数对应算法中最大的
  2. 聚类簇数必须是所有参数对应的算法中最大的

结果

采用 DBSCAN 算法,根据上述前提和原则,筛选参数,并得出结果。

参数网格

名称 参数
epsilon_list 0.01, 0.05, 0.1, 0.3, 0.5, 0.7, 1, 1.5, 2, 2.5, 3, 3.5
min_samples_list 2, 3, 4
coef_list 1.5, 2, 2.5, 3.0, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 10

按照上述前提和原则,设进行 T 检验和 ANOVA 检验时,为了减小对原假设的保护,提高检验的可信度,我们将显著水平设为 0.30.30.31。这样设,虽然减少了拒绝原假设时的可信度,但却提高了“接受”原假设的可信度。

但是,这样做会非常的严,从而筛选出来的毕宿流星只有少数甚至没有,因此,我们在定制原则的时候,要适当放宽。

最后,筛选出来的最佳参数,以及结果如下:

这里的最大簇就是我们的毕宿星流啦。

结果输出

画出星流的 H-R 图如下:

毕宿星流位置和速度分布

根据 RA 和 DE 画出毕宿星流的位置分布图:

根据 pmRA 和 pmDE 画出毕宿星流的速度分布图:

毕星团位置和速度分布

根据 RA 和 DE 画出毕星团的位置分布图:

根据 pmRA 和 pmDE 画出毕星团的速度分布图:

我们用肉眼比较上述结果,可以看到毕宿流星的速度还是落在毕星团的范围内的,并且呈现一定的分布规律(至少其均值和毕星团的速度差不多)。而对于位置参数,我们可以看到毕星团很集中,而毕宿星流很分散,几乎没有一定的分布规律,所以大致可以满足我们题目的要求。

代码

点赞、关注、私信、说明题目和年份

如果有其他编程问题和原理问题,请再评论区留言,私信一概不回。也在此鼓励大家独立思考。

本人不会回访,不互关,不互吹,以及谢绝诸如此类事

如果本篇博文对您有所帮助,请不要吝啬您的点赞

2021 年“认证杯”网络挑战赛 B 题(第二阶段)相关推荐

  1. 2021年认证杯SPSSPRO杯数学建模A题(第一阶段)医学图像的配准全过程文档及程序

    2021年认证杯SPSSPRO杯数学建模 A题 医学图像的配准 原题再现:   图像的配准是图像处理领域中的一个典型问题和技术难点,其目的在于比较或融合同一对象在不同条件下获取的图像.例如为了更好地综 ...

  2. 2021年华数杯数学建模B题进出口公司的货物装运策略求解全过程文档及程序

    2021年华数杯数学建模 B题 进出口公司的货物装运策略 原题再现:   进出口公司经常需要将销售的货物通过货运飞机进行运输.货运飞机有大.中.小三种类型,每一种飞机均有前.中.后三个货舱,每个货舱有 ...

  3. 2021年华数杯数学建模A题电动汽车无线充电优化匹配研究求解全过程文档及程序

    2021年华数杯数学建模 A 题 电动汽车无线充电优化匹配研究 原题再现:   电动汽车以环境污染小.噪音低.能源利用效率高.维修方便等优势深受消费者青睐.但现有电动汽车的有线充电方式操作复杂,且存在 ...

  4. 2021年华为杯数学建模B题,四题全部代码和思路

    2021年华为杯数学建模B题,四题全部代码和思路 需要的请联系我,企鹅1514168893.先看视频,满意再来找我,谢谢哈 四题均已做完

  5. 2023年泰迪杯数据挖掘挑战赛B题--产品订单数据分析与需求预测(1.数据处理)

    1. 前言 本题相对来说比较适合新手,包括针对数据的预处理,数据分析,特征提取以及模型训练等多个步骤,完整的做下来是可以学到很多东西的. 2.问题一思路分析 本题要求利用附件中的训练数据进行深入的分析 ...

  6. 2023年泰迪杯数据挖掘挑战赛B题--产品订单数据分析与需求预测(2.数据探索性分析)

    前言 继续上一片数据预处理进行续写,利用预处理之后的数据进行数据分析并且解决问题一相关的问题.问题一主要目的是让研究各种因素对于需求量的影响,然后找到确定影响需求量的主要因素并且进行数据分析和主要特征 ...

  7. 2023年认证杯数学建模网络挑战赛B题考订文本思路分析

    2023 年 "认证杯"数学中国数学建模网络挑战赛 第一阶段 B 题 考订文本 古代文本在传抄过程中,往往会出现种种错误,以至于一部书可能流传下 来多种版本.在文献学中,错误往往被 ...

  8. 2022年认证杯SPSSPRO杯数学建模B题(第二阶段)唐宋诗的定量分析与比较研究求解全过程文档及程序

    2022年认证杯SPSSPRO杯数学建模 B题 唐宋诗的定量分析与比较研究 原题再现:   唐诗和宋诗在文学风格上有较为明显的区别,这一点在古代文学研究中早有定论.所以唐诗和宋诗有时甚至会直接指代两类 ...

  9. 第八届“泰迪杯”数据挖掘挑战赛C题“泰迪杯”奖论文(基于卷积神经网络及集成学习的网络问政平台留言文本挖掘与分析)

    目 录 第一章 引言 1.1挖掘背景 1.2挖掘意义 1.3问题描述 第二章 群众留言分类 2.1数据准备 2.1.1数据描述 2.1.2数据预处理 2.2特征提取 2.3建立模型 2.3.1卷积神经 ...

  10. 2021年山东大学程序设计精英挑战赛 真题

    2021-11-28 09:00:00 至 2021-11-28 14:00:00 时长: 5小时 第一题: A Greeting from ACM/ICPC Lab 题目描述 欢迎大家参加2021年 ...

最新文章

  1. SQL Server自定义字符串分割函数——Split
  2. 【Windows】字符串处理
  3. Android平台 Psensor传感器调试方法
  4. PyTorch模型读写、参数初始化、Finetune
  5. ant的if-else
  6. 大学c语言下上机考试题,计算机考试二级C语言上机试题下[5]
  7. 彻底弄懂响应式设计中的em和rem
  8. 帝国CMS7.5仿《问答库》题库问答学习平台网站源码 带手机版
  9. javascript实现继承的几种主要方法
  10. 《产品结构设计》——黎恢来,笔记
  11. python chardet模块,没有名为“chardet”的模块
  12. iOS 蓝牙扫描枪功能
  13. creo 6.0—01:软件界面介绍,系统背景颜色修改
  14. HP LaserJet 1020打印机显示脱机,脱机使用打印机的勾去不掉
  15. 计算机英语构词法,【计算机专业论文】计算机专业英语的构词方法(共2969字)
  16. 接口测试平台代码实现146: 平台主题-夏日清凉5
  17. Flume介绍和使用
  18. 左右手坐标转换 四元数
  19. schrems ii对我们的科技创业公司意味着什么
  20. 华硕ROG STRIX Z690-A GAMING WIFI D4吹雪+12700K OC 0.7.7 EFI 黑苹果引导文件

热门文章

  1. 【011】Excel宏编程相关封装模块(新建文件、关闭文件、新增/删除工作薄)_004_#VBA
  2. 阿里云平台购买域名 域名配置 域名解析步骤
  3. 一级计算机考试如何移动文件夹,2010年职称计算机考试:文件或文件夹的移动...
  4. 笔记本电脑频繁自动重启_笔记本电脑频繁自动重启的原因和纠正
  5. 防止javascript脚本读取cookie信息
  6. CBR VBR CVBR
  7. vue微信内h5页面微信授权登录
  8. c 语言编写的一元二次方程的根,C#程式求一元二次方程根
  9. 外贸家纺布艺行业解决方案丨汇信外贸软件
  10. java导出excel搜索下拉框,SXSSFWorkbook导出Excel并带下拉菜单