如下为美赛春季赛Y题思路解析:

Problem Y: Understanding Used Sailboat Prices

像许多奢侈品一样,帆船的价值随着它们的年龄和市场状况的变化而变化。所附的“2023_MCM_Problem_Y_Boats.xlsx”文件包括大约3500艘36至56英尺长的帆船的数据,这些帆船将于2020年12月在欧洲、加勒比海和美国进行广告销售。

一位划船爱好者向COMAP提供了这些数据。像大多数真实世界的数据集一样,它可能有丢失的数据或其他问题,需要在分析之前进行一些数据清洗。Excel文件包括两个选项卡,一个用于单壳帆船,另一个用于双体船。在每个选项卡中,列标记为Make、Variable、Long(以英尺为单位)、地理区域、国家/地区/州、价目表价格(以美元为单位)和年份(制造年份)。对于给定的Make、Variant和Year,除了提供的Excel文件之外,还有许多其他来源可能提供特定帆船的详细特征描述。

背景分析:以上内容引出了问题,核心是需要利用题目所给的数据进行建模求解。写到了需要在分析前进行数据清洗,也就是说,论文的开始必须先写数据预处理工作。

常见的数据预处理方法有数据清洗、数据集成、数据变换、数据归约与数据的离散化。根据数据指标的特性可以针对不同问题做不同的处理。题目中特别提到了数据丢失问题,常见的方法为以下三种:(1)删除元组 也就是将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表。(2)数据补齐 这类方法是用一定的值去填充空值,从而使信息表完备化。除了常规方法,也可以使用随机森林、神经网络等智能算法进行数据补全。(3)平均值填充(Mean/Mode Completer) 将信息表中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的,就根据该属性在其他所有对象的取值 的平均值来填充该缺失的属性值;如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多 的值(即出现频率最高的值)来补齐该缺失的属性值。(在附1 数据集分析中会给出这道题目具体的预处理方案,可供参考)

您可以使用您选择的任何附加数据来补充提供的数据集;但是,您必须在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的数据。确保充分识别并记录所使用的任何补充数据的来源。帆船经常通过经纪人出售。为了更好地了解帆船市场,香港的一位帆船经纪人中国委托您的团队编写了一份关于二手帆船定价的报告。经纪人希望您:

背景分析:由于可以使用附加数据来补充提供的数据集,所以这道题目搜集数据也是重中之重,群内会更新部分数据给大家。由于是以中国作为帆船经纪人,所以出售地可以选择亚太地区为主,可以搜集部分已有的数据。

问题一 建立一个数学模型,解释所提供的电子表格中每艘帆船的标价。包括任何您认为有用的预测值。你可以利用其他来源来了解一艘帆船的其他特征(如横梁、吃水、排水量、索具、帆面积、船体材料、发动机小时数、睡眠能力、净空、电子设备等)。以及按年份和地区划分的经济数据。确定并描述所使用的所有数据来源。包括您对每个帆船变种的价格估计的精确度的讨论。

提示:在做第一问前需要先对题目给的数据集进行数据预处理。

问题一分析:第一问可以划分为三小问,首先需要解释说明其他来源的数据集,这需要团队获取信息的能力,可以多看看国外统计网站,以及在网上搜集好资料。这里最好对数据集做一个初步的EDA(探索性数据分析),包括一些数据可视化。包含但不限于:

  • 数据量、特征数量、数据类型
  • 数据分布情况(标准差、分位数、最大最小值)
  • 重复值处理(保留、删除):假如你想发现某个用户的行为模式,该用户在不同的时间点进行相同的操作,那这个重复值是不是能帮助你获取该用户的行为偏好(你的问题),那可以保留
  • 异常值处理(保留、删除):假如你正在做异常检测的任务,那这个信息能帮助你进行有效的数据标注(你的需要)
  • 缺失值处理(删除、填充)

这里推荐的数据可视化方法有:

单变量可视化:查看数据分布-直方图、箱线图

两个变量的可视化:相关性分析-线图、散点图、热力图,比如:

第二小问需要建立模型,去解释数据集中标价的合理性,这里可以简单一点,可以先使用相关性分析,提取相关性高的指标,然后使用多元线性回归去拟合,以判断标价的合理性。(小白使用)还可以使用因子分析、关联规则、一些预测算法等进行判别分析。

第三小问需要讨论模型价格估计的精确度,这里可以做置信度、置信区间分析。还可以划分训练集、测试集来直接计算精确率。这里还可以可视化ROC曲线等。

1.精确率(precision)

就precision而言有很多版本,各种说法不一,有精确率也有正确率更有甚者把准确率也搞出来了实在受不了,反正咱们看英文precision。

precision是表示预测为正样本中,被实际为正样本的比例。可以看出precision是考虑的正样本被预测正确的比例.根据图1-1可得其计算公式为:P = TP / (TP + FP)

2. 召回率(recall)

召回率是表示实际为正样本中,预测为正样本的比例。可以看出,召回率考虑的是正样本的召回的比例.根据图1-1可得其计算公式为:P = TP / (TP + FN)

3.准确率(accuracy)

准确率表示所有的预测样本中,预测正确的比例.其计算公式为:A = (TP + TN) / (TP + FN + FP + TN)

总结:精确率(accuracy)和召回率(recall)计算公式的分子都是TP也就是正样本被预测为正样本的数量,可知其为正样本的精确率和正样本的召回率.而准确率(accuracy)主要表征的是整体预测正确的比例.

这里提供部分数据集处理建议:

1 根据年份可以做时间序列分析

2 有很多量化指标,可以对此类数据进行归一化

3 Listing Price (USD)需要先把数据格式从$204,921处理为204921

4 Geographic Region可以以国家做聚类分析

5 一些非数值型数据,如果需要用到,可以利用one hot编码转化为数值型

以上仅为第一问部分思路(后续完善),剩余部分思路、数据集和其他全网具体配套代码、参考论文,以及其他题目思路,可以看我的这篇文章:

问题二:讨论您对给定地理区域的建模如何在香港(特区)市场有用。

从提供的电子表格中选择一个信息丰富的帆船子集,分为单体船和双体船。

从香港(特区)市场查找该子集的可比挂牌价格数据。

如果香港(特区)对你所在的帆船的每艘帆船的价格有影响,那么香港(SAR)的地区影响会是什么?

对双体船和单壳帆船的影响是一样的吗?

问题三:

问题四:

总共不超过25页的PDF解决方案应该包括:

·一页的摘要表,清楚地描述您解决问题的方法以及您在问题背景下分析得出的最重要的结论。

·目录。

·您的完整解决方案。

·向经纪人提交一到两页的报告。

·参考文献列表。

注:MCM大赛以25页为限。

您提交的所有方面都计入25页的限制(摘要表、目录、报告、提交给经纪人的一到两页报告、参考列表和任何附录)。

您必须引用您的想法、数据、图像和报告中使用的任何其他材料的来源

数据集说明

数据文件输入说明Make:船的制造商的名称。Variant:识别船的特定型号的名称。长度(Ft):船的长度(英尺)。
地理区域:船只所在的地理区域(加勒比海、欧洲、美国)。
国家/地区/州:船只所在的特定国家/地区/州。挂牌价(美元):以美元计算的购买船只的广告价格。
年份:该船制造的年份

术语表:(翻译不准,下面是原题)

以上仅为第一问部分思路(后续完善),剩余部分思路、数据集和其他具体配套代码、参考论文,以及其他题目思路,可以看文末群名片获取

如下是选题建议:2023美国大学生数学建模竞赛(春季赛)选题建议 - 知乎

2023美国大学生数学建模竞赛Y题思路解析相关推荐

  1. 2023美国大学生数学建模竞赛C题思路解析(含代码+数据可视化)

    以下为2023美国大学生数学建模竞赛C题思路解析(含代码+数据可视化) 规则: 猜词,字母猜对,位置不对为黄色,位置对为绿色,两者皆不对为灰色. 困难模式下的要求:对于猜对的字母(绿色和灰色),下一步 ...

  2. 2023美国大学生数学建模竞赛E题思路解析

    背景:光污染是指任何过多或不当使用人造光的表现.我们所称为光污染的一些现象包括光侵入.过亮.以及光混乱.这些现象最容易在大城市太阳落山后观察到天空中的发光:然而,它们也可能发生在更偏远的地区. 光污染 ...

  3. 2023美国大学生数学建模竞赛ABCDEF题思路汇总 美赛建模思路

    1 赛题思路 (赛题出来以后第一时间分享) 2023年美赛比赛日期和时间 报名截止日期:美国东部时间2023 年2月16日星期四下午 3:00前.(北京时间2023年2月17日凌晨4点) 比赛开始:美 ...

  4. 2023美国大学生数学建模竞赛E题思路

    problem 背景: 光污染用于描述过度或不良使用人造光.我们称之为光污染的一些现象包括光侵入.过度照明和光杂波.在大城市,太阳落山后,这些现象最容易在天空中看到:然而,它们也可能发生在更偏远的地区 ...

  5. 2023美国大学生数学建模竞赛E题光污染完整数据集和求解代码分享

    目录 数据集收集 GeoNames 地理数据集 全球各国的经纬度数据集 协调一致的全球夜间灯光(1992 - 2018)数据集 NASA 的 EaN Blue Marble 2016 数据集 全球夜间 ...

  6. 2022美国大学生数学建模竞赛F题思路

    一.思路 思路下载链接:2022美国大学生数学建模竞赛F题思路 二.题目 三.2021最全数学建模比赛时间.含金量.获奖率等数据一览! 2021最全数学建模比赛时间.含金量.获奖率等数据一览!

  7. 2023年美赛A题思路解析/2023年美国大学生数学建模竞赛A题思路

    思路见文末,比赛开始就更新,先占坑 美赛.数学建模.美国大学生数学建模.美赛思路.美国大学生数学建模思路.2023美赛.2023美国大学生数学建模竞赛.2023美赛思路.2023美赛数据.2023美赛 ...

  8. 2023美国大学生数学建模竞赛资料及思路

    1 赛题思路 (赛题出来以后第一时间分享) 2023年美赛比赛日期和时间 报名截止日期:美国东部时间2023 年2月16日星期四下午 3:00前.(北京时间2023年2月17日凌晨4点) 比赛开始:美 ...

  9. 2023电工杯数学建模竞赛A题思路解析+代码+论文

    电工杯A题:电采暖负荷参与电力系统功率调节的技术经济分析 建设以新能源为主体的新型电力系统是应对全球气候变化挑战的重要举措.高比例新能源接入导致电力系统调节能力稀缺,亟需开发新的调节资源,如火电深度调 ...

最新文章

  1. Python中使用PIL快速实现灰度图
  2. arcgis9.2的安装方法
  3. 又重新让aspspider.net支持中文PDF输出了
  4. Android xmlns 的作用及其自定义
  5. 智能仓储管理系统分析?
  6. PlantUML in a nutshell(官方文档)
  7. ansible 第二次练习
  8. 128.深入 cookie ,session
  9. 微信小程序蓝牙连接TSPL打印机打印图片思路
  10. Android科大讯飞语音合成
  11. SonarQube检测出的bug、漏洞以及异味的修复整理
  12. 计网——计算机网络和互联网
  13. 安全防范知识点 -- CSRF
  14. gwipr70驱动天空_win7 kmplayer plus设置_gwi pr2 pluswin7驱动_kmplayerplus官方下载
  15. iOS开发者账号快速添加手机号码
  16. 虾皮广告怎么投放?——成都扬帆际海教育咨询
  17. 深圳地铁APP伴您行,妥妥的
  18. 2023年系统集成项目管理工程师【计算要点和常用公式】
  19. 基于Hadoop的高校大数据治理融合系统设计与实现
  20. javascript生成二维码

热门文章

  1. 【项目管理/PMP/PMBOK第六版/新考纲】易错单选题20道带答案解析!
  2. 不同电脑之间共享键鼠:sharemouse
  3. 导电滑环检测方法检测导电滑环时要注意什么
  4. Python中用turtle库画哆啦A梦
  5. Zookeeper原理及实战开发-余强-专题视频课程
  6. oracle插入日期异常,Oracle插入日期数据常见的2个问题和解决方法
  7. 谷歌生物医学翻译软件_科研神器丨一个软件带你零基础阅读英文文献
  8. 协议——SCCB与IIC的区别
  9. 非递归遍历二叉树实现
  10. 10款网站后台管理系统模板_bootstrap网站后台模板_html后台模板下载(二)