2021美赛C题(大黄蜂传播规律和目击准确性研究)——赛题解读&解题思路

  • 赛题目的
  • 一.胡蜂预测模型
  • 二.目击准确性的深度学习模型
    • 2.1数据分析/预处理
    • 2.2问题解答
  • 三.模型评估
  • 四.模型优化
  • 五.建议模型

赛题目的

赛题目的:预测胡蜂的传播规律,研究公众报道胡蜂踪迹的准确性,并且利用模型研究消灭胡峰的方法
问题描述由于胡蜂(Vespa mandarinia)对当地蜜蜂种群的潜在严重影响, 胡蜂的存在会引起很大的焦虑。 华盛顿州已经建立了帮助热线和一个网站,供人们报告这些黄蜂的目击情况。根据这些来自公众的报告,国家必须决定如何将其有限的资源优先用于后续补充调查。 虽然一些报告已被确定为胡蜂, 许多其他目击已证明是其他类型的昆虫。
你的论文应该探讨和解决以下几个方面:

(1)说明并讨论是否可以预测这种有害生物随时间的传播,以及精确程度如何。
(2) 大多数报道的目击都把其他黄蜂误认为是胡蜂。仅使用提供的数据集文件和(可能)提供的图像文件来创建、分析和讨论预测错误分类可能性的模型。
(3) 使用你的模型讨论你的分类分析如何导致优先调查最有可能是正面目击的报告。
(4) 说明随着时间的推移,如果有额外的新报告,如何更新模型,以及更新的频率。
(5) 使用你的模型,有什么证据可以证明该害虫已被消灭在华盛顿州

一.胡蜂预测模型

问题分析分析大黄蜂的出现量随时间的变化、创新点:考虑空间分布的差异。
预测模型选择:LSTM、RNN、ARIMA、MLR、SVR

二.目击准确性的深度学习模型

2.1数据分析/预处理

#问题分析=;通过题目给的公众报告准确度情况excel表格,上图可见Positive ID、Negative ID、Unverified数据中Positive ID数据很少。数据严重不均衡会影响深度学习模型的偏好,也就是说给你新公众报道信息,模型更容易预测为Negative ID、Unverified两种情况,这是我们不希望的。针对这样的问题又两种解决办法:
(1)数据扩充,数据为文本数据:

  • 1、传统文本数据增强的技术:EDA

    • (1). 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。

      • Eg: “我非常喜欢这部电影” —> “我非常喜欢这个影片”,句子仍具有相同的含义,很有可能具有相同的标签。
    • (2). 随机插入(RI: Randomly Insert):不考虑stopwords,随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。该过程可以重复n次。

      • Eg : “我非常喜欢这部电影” —> “爱我非常喜欢这部影片”。
    • (3). 随机交换(RS: Randomly Swap):句子中,随机选择两个词,位置交换。该过程可以重复n次。

      • Eg: “如何评价 2017 知乎看山杯机器学习比赛?” —> "2017 机器学习?如何比赛知乎评价看山杯
    • (4). 随机删除(RD: Randomly Delete):句子中的每个词,以概率p随机删除。

      • Eg: “如何评价 2017 知乎看山杯机器学习比赛?” —> "如何 2017 看山杯机器学习 “.
  • 2.深度学习数据增强技术
    • 1.半监督 Mixmatch
    • 2.无监督数据增强UDA

      (2)加权损失函数
  • 让对Positive ID预测错误的惩罚更重,即下面的公式中w1设置的更大点:
    w1*LossPositive + w2*LossNegative+w3*LossUnverified
    对Negative ID、Unverified数据预测错误的惩罚更轻,最后w1+w2+w3=1

2.2问题解答

方法:训练图像分类模型,模型需要构建深度学习框架:
(1)首先将数据分为训练数据和验证数据,
(2)然后利用深度学习网络进行特征提取。
(3)建立损失函数,方向传播进行训练
模型选择:CNN、SVM、决策树等

三.模型评估

问题分析:即对第二个模型进行评估,可以从准确率方面说明

四.模型优化

解释模型的更新机制、复杂度、时效性、不同区域的适用性等。

五.建议模型

给出黄蜂数量减少至认定的安全范围的证据
本博客参考文章链接:
【1】让机器自动生成文本数据–NLP文本数据增强方法简述

2021美赛C题(大黄蜂传播规律和目击准确性研究)——赛题解读解题思路相关推荐

  1. 2022美赛E题(森林的碳封存)——赛题解读解题思路

    2022美赛E题(森林的碳封存)--赛题解读&解题思路 2023美赛题分析已经出了! 赛题目的 一. 预测碳吸收模型 ==1.1. 问题分析==: 1.2. 查资料:碳排放怎么估计&碳 ...

  2. 倪文迪陪你学蓝桥杯2021寒假每日一题:1.11日(2017省赛A第9题)

    2021年寒假每日一题,2017~2019年的省赛真题. 本文内容由倪文迪(华东理工大学计算机系软件192班)和罗勇军老师提供. 后面的每日一题,每题发一个新博文,请大家看博客目录:https://b ...

  3. 倪文迪陪你学蓝桥杯2021寒假每日一题:1.20日(2018省赛A组第8题)

    2021年寒假每日一题,2017~2019年的省赛真题. 本文内容由倪文迪(华东理工大学计算机系软件192班)和罗勇军老师提供. 后面的每日一题,每题发一个新博文,请大家每天看博客蓝桥杯专栏: htt ...

  4. 倪文迪陪你学蓝桥杯2021寒假每日一题:1.19日(2018省赛A组第7题)

    2021年寒假每日一题,2017~2019年的省赛真题. 本文内容由倪文迪(华东理工大学计算机系软件192班)和罗勇军老师提供. 后面的每日一题,每题发一个新博文,请大家每天看博客蓝桥杯专栏: htt ...

  5. 倪文迪陪你学蓝桥杯2021寒假每日一题:2.1日(2019省赛A组第10题)

    2021年寒假每日一题,2017~2019年的省赛真题.本文内容由倪文迪(华东理工大学计算机系软件192班)和罗勇军老师提供.每日一题,关注蓝桥杯专栏: https://blog.csdn.net/w ...

  6. 倪文迪陪你学蓝桥杯2021寒假每日一题:1.15日(2018省赛A组第3题)

    2021年寒假每日一题,2017~2019年的省赛真题. 本文内容由倪文迪(华东理工大学计算机系软件192班)和罗勇军老师提供. 后面的每日一题,每题发一个新博文,请大家每天看博客蓝桥杯专栏: htt ...

  7. 倪文迪陪你学蓝桥杯2021寒假每日一题:1.26日(2019省赛A组第4题)

    2021年寒假每日一题,2017~2019年的省赛真题.本文内容由倪文迪(华东理工大学计算机系软件192班)和罗勇军老师提供.每日一题,关注蓝桥杯专栏: https://blog.csdn.net/w ...

  8. 倪文迪陪你学蓝桥杯2021寒假每日一题:1.21日(2018省赛A组第9题)

    2021年寒假每日一题,2017~2019年的省赛真题. 本文内容由倪文迪(华东理工大学计算机系软件192班)和罗勇军老师提供. 后面的每日一题,每题发一个新博文,请大家每天看博客蓝桥杯专栏: htt ...

  9. Cell二连发 | 广东CDC/耶鲁大学利用纳米孔测序揭示中/美新冠病毒基因组流行病学传播规律...

    利用纳米孔测序技术实时测定病毒全基因组信息(Nanopore Real-time Sequencing),能够动态地分析病毒分子进化来研究病毒的变异及传播特征,这些信息对疫情发展不同阶段制定有效的防控 ...

最新文章

  1. 【Runtime】动态添加方法demo
  2. 在某些输入上删除IE10的“清除字段”X按钮?
  3. 二十万字C/C++、嵌入式软开面试题全集宝典十一
  4. 去掉a标签下划线_条码软件如何修改条码标签的字体格式
  5. mybatis_user_guide(4) Mapper XML 文件
  6. 15 WM配置-主数据-定义存储区标识符(Storage Section Indicators)
  7. Android Logcat 报错:Could not create the view: For input string:
  8. 设计模式 接口隔离原则
  9. cfd计算机模拟,CFD软件数值模拟分析(中联智泵)
  10. matlab中erf什么,matlab中的误差函数erf是什么意思?
  11. html编写菜鸟教程首页页面
  12. 2021年最后一期 | 转录组分析的正确姿势你了解了吗?
  13. macos 切换账户_如何在macOS上设置访客用户帐户
  14. 软件项目管理工具,JAVA WEB 框架技术(结合实际工作经验,全是干货)
  15. 怎么把图片拼接成长图,3招教你快速处理
  16. ActiveX控件缺失解决方法
  17. You-get 几乎万能的媒体内容下载工具
  18. access贝克曼_贝克曼库尔特ACCESS 2化学发光免疫分析仪
  19. Bean重名报错 解决方案
  20. 关于VIPS算法的实现

热门文章

  1. 硬件工程师常用的英文缩写及汉语翻译
  2. MAVEN 淘宝中央仓库
  3. 华为freebuds4e和5i哪个好 华为freebuds5i和4e区别
  4. C# 文字转语音遇到的坑(System.Speech)
  5. 3GPP中关于功耗的规范
  6. 2022青海最新初级消防员模拟试题题库及答案
  7. fetch发送请求:Failed to fetch
  8. Qt连接数据库失败常用解决方法
  9. Visual Studio 2022 C++ CLR 的艰难除 Bug
  10. python输出由1234组成的素数_python,编写程序,输出所有由1,2,3,4这四个数字组成的素数,并且在每个素数中每个数字只能使用一次...