点击蓝色“程序猿DD”关注我

回复“资源”获取独家整理的学习资料!

场景描述:要问什么水果和夏天最搭,答案一定是西瓜。作为西瓜生产与消费大国,中国在 2018 年以全世界 20% 的人口消耗掉全世界 70% 的西瓜,人均 100 斤。如何挑选最甜的瓜,也成了「吃瓜群众」十分关心的问题。一位浙江大学的博士,用机器学习的方法判断西瓜的成熟度,十分接地气。

关键词:西瓜 声学特征检测 机器学习

大数据表明,今年夏天,是 140 年来最热的夏天。「热」已成为全球热词,我们经历了最热六月,刚送走最热七月,正在进入最热八月……

在难熬的酷暑面前,抱着半块冰凉的西瓜大快朵颐,无疑是最佳解暑选择了。啃着吃,勺子挖着吃,打成沙冰吃,炒着吃,烤着吃,怎么吃都好吃……

西瓜对于中国人的意义

世界上,恐怕没有比中国人更爱吃、更能吃也更会吃西瓜的了。

自从 1000 多年前南北朝时期,西瓜传入中国,它就慢慢开始登上夏日水果霸主的地位。

有史学家考证,1000 多年前京地区已有西瓜种植,而古人最早的「吃西瓜」场面,是在内蒙古辽代墓葬壁画上发现的,此墓筑于公元 1026~1027 年间。

1000 多年来,西瓜的外貌基本没什么变化

刚传入中国时,西瓜还属于贵族专享。直到公元 1143 年,南宋官员洪皓出使金国回来之时,带回了金人种植的西瓜种子,从此江南有了西瓜,老百姓也能吃上西瓜了。

洪皓回到南宋后,将见闻整理成书

洪皓撰写的《松漠纪闻》中,有一段对西瓜的描述:「西瓜形如匾蒲而圆,色极青翠,经岁则变黄。其瓞类甜瓜,味甘脆,中有汁,尤冷。予携以归,今禁圃乡囿皆有。」

此后,西瓜开始频现于南宋文人笔端,「年来处处食西瓜」、「西瓜黄处藤如织」、「醉拾西瓜擘」等文字,都表明西瓜已经越来越普及。

湖北恩施发现了北宋咸淳年间的「西瓜碑」

碑文记载了当地所种植的四种西瓜

西瓜,已经成为了中国文化的一部分。很多成语都和西瓜有关:老王卖瓜,滚瓜烂熟,瓜熟蒂落,顺藤摸瓜……

2004 年,位于北京大兴区庞各庄镇的「中国西瓜博物馆」正式开馆,其外形效果主题为「飞翔的西瓜」,寓意中国西瓜飞出国门。这是国内首家以「西瓜」为主题的博物馆。博物馆内向人们展示西瓜历史、西瓜种植、西瓜文化以及科技等内容。

中国西瓜博物馆里到处都是西瓜相关的照片、漫画、模型

根据联合国粮农组织 FAO 公布的数据,当前,我国已成为世界上最大的西瓜生产国和消费国,2018 年我国消化了超过 7000万吨西瓜,也就是人均消费掉了 100 斤。

所以,在西瓜面前,我们都可以骄傲地说:我终于实现了水果自由!

全球通用挑瓜大法:敲它

不过,吃瓜容易挑瓜难。面对一堆长相相似的西瓜,如何才能选中最好最甜的瓜?全球通用的办法是:敲它。

西瓜西瓜告诉我,你是不是最甜的瓜

但是,事实上,很多「吃瓜群众」最后敲来敲去,也听不到西瓜的回答。

于是,一位浙江大学的博士写了一篇 130 页的论文《西瓜成熟度和内部空心的声学检测技术及装置研究》(论文地址:http://t.cn/AiYcAYei,告诉我们,如何利用人工智能技术,从敲西瓜的声音来判别最甜的西瓜。

除了这位博士,还有很多硕博士也都在做这方面的研究

当然,他做这项研究的初衷,是为了提高瓜农收入,扩大西瓜的对外出口。也顺便造福一下我们广大「吃瓜群众」。

 传统方法如何判断西瓜成熟 

我国西瓜产量和种植面积居世界第一,但是出口量却不到产量的 1%,不仅是因为我们自己消耗的多,还因为西瓜产后检测和处理的手段落后,导致质量良莠不齐,商品化程度较低。

西瓜是否适时采收对西瓜品质影响极大,过熟或者不熟采摘都会影响西瓜的品质与口感。在我国,采收时机主要还是依赖于瓜农的主观经验,他们往往通过生长周期、气候(主要是气温)以及观察瓜皮颜色、纹理来判断西瓜成熟情况。

当然,还有一个技巧,就是上文提到的,敲瓜皮听声音。这是目前瓜农最常用的方法。

从左至右西瓜成熟度分别为:未熟,成熟,过熟

一般来说,未熟西瓜声音较清脆,敲打时会发出「咚咚咚」的声音,成熟瓜声音比较低浊,发声为「嘭嘭嘭」,而过熟西瓜则会发出「扑扑扑」的声音。靠人工一个一个去检测,费时费力且依赖经验,准确率无法保证。

如今,计算机、图像处理、传感器等技术飞速发展,将这些技术广泛用于农产品品质检测中,可以大大提高检测效率与准确率。

用机器学习判断,准确又高效

通过研究,论文作者发现西瓜成熟度的变化,一般与内部成分(如糖度)和结构(如体积质量变大、内部空心)的变化密切相关,而这些变化也会导致声学特征参数发生变化,因此他认为利用声学无损检测方法,通过不同建模方法与技术,来判断西瓜熟度比较合适。

而且,对比其他检测方法,比如激光、核磁共振等技术,声学特征检测具有价格低廉、检测效率高、准确度高的优点。试验之后,作者得出结论,LS-SVM 方法在西瓜成熟度分类建模中表现最佳,预测准确率为 73.6%。

声学检测装置实物图

在声学检测装置结构和材料优化基础上,并对敲击信号去噪之后,作者进行了两种试验,分别为成熟度分类试验和空心判定试验。

试验中选用了麒麟西瓜作为样本,为杭州市余杭区仓前镇吴山前村五组瓜农于温室瓜棚分批次采摘,采摘后便立刻搬至实验室。

成熟度分类试验中,选用 147 个非空心瓜,随机分为两组:建模集 75 个,预测集 72 个。

空心判定试验中,选取 190 个样本(包含有空心瓜),随机分为两组,建模集 97 个,预测集 93 个。

建模集用来建立样本的分类或空心判定模型,预测集用来测试模型的性能。

试验采用了四种常见有监督机器学习算法和模式识别算法,分别是线性判别分析法(LDA)、K-最小近邻法(KNN)、BP 神经网络技术(ANN)和最小二乘-支持向量机法(LS-SVM),以声学特征对未熟、成熟和过熟三种西瓜进行了分类,此外还对空心瓜进行鉴别。

空心瓜样本中,空心体积位置与形状都有所不同

为了消除敲击西瓜声音频谱中峰值分裂所造成的不利影响,作者定义了阶矩指数 MI1 和二阶矩指数 MI2,因为在西瓜穿刺试验中(判断果肉坚实度)判定这两个参数与西瓜成熟度关联性较高,因此将其作为西瓜成熟度分类的声学特征参数。

 最适配辨瓜算法:LS-SVM

试验结果表明,LS-SVM 算法建模集和预测集的准确率分别为 76% 和 73.6%,均高于其他三种分类器的分类结果。

三种不同成熟度西瓜的 LS-SVM 分类结果

另外,神经网络建模集和预测集准确率分别 73.3% 和 66.6%,仅次于 LS-SVM。

作者由此得出结论:LS-SVM 采用了线性方程组对 SVM 的二次规划问题加以简化,分类效率得到大幅度提高,并且引入惩罚因子使结构风险化最小。该方法更适用于处理小样本集合不均衡样本集不均衡西瓜样本集的分类;

而 LDA 算法适用于线性分类问题;KNN 算法对不均衡样本集分类时,易使位置样本偏向数量多的样本类,造成分类误差变大;神经网络分类器则存在过拟合、易陷入局部极值的缺点。

此外,作者还采用了上述四类方法以及能量比经验阈值法,以 MI1、MI2 和能量比 Er为特征参数,对不均衡样本进行空心瓜判别。

作者采用 Fβ 分数作为分类器的评价指标,其物理含义是通过给予准确率和召回率不同的权重,将二者合并一个分数,综合评判分类器对样本总体和某类样本分类的准确程度。

 Fβ 的定义

定义公式中,TP 为被正确划分为空心瓜的样本数,TN 为被正确划分为好瓜的样本数,P 为实际的空心瓜样本数,N 为实际的好瓜样本数。本文中 β = 2.

这些判别方法中,仍然是 LS-SVM 分类效果最佳,其建模集和预测集的 Fβ 分数分别为 88.1% 和 74.7%。

看来,关于如何挑到最甜的瓜,浙大博士已经帮我们算得清清楚楚了。

吃瓜,我们是最科学的

上千年的积累之下,西瓜已经越来越成为国人生活中的一部分。所谓「夏天没有吃过西瓜的人,不足以语人生。」

如今非常流行的网络热词「吃瓜群众」,也充分显示了我们对于西瓜的热爱。原本「吃瓜群众」中的「瓜」,指的是瓜子,但是由于西瓜的深入民心,这个「瓜」就渐渐演变成了「西瓜」。

而对于人工智能领域的同学来说,最熟悉的「瓜」一定是南大周志华教授撰写的《机器学习》西瓜书了。

这本机器学习入门著作,就是以挑西瓜开篇

并处处用西瓜来解释各种术语和问题

(周志华教授也一定很喜欢吃西瓜吧)

日本 Shibuya 公司的挑西瓜设备,下次大家可以带着它去买瓜

OpenWrite最受欢迎的技术类内容平台票选

不知道啥是OpenWrite?

留言交流不过瘾?添加微信:zyc_enjoy

根据指引加入各种主题讨论群

每日一问

今日问题:【一道很有意思的面试题】

一个屋子里面有五十个人,每个人领着一条狗,而这些狗中有一部分病狗(不少于一条).假定有如下条件:

  1. 狗的病不会传染,也不会不治而愈.也就是说病狗的数量一直不会改变

  2. 狗的主人不能看见自己的狗是否有病,但是狗的主人只有通过别人的狗是否有病才可以看出自己的狗生病了没有

  3. 一旦主人发现自己的狗肯定是一只病狗,就会在当天开枪打死这 条狗

  4. 狗必须由他的主人亲自动手开枪杀死.如果他们在一起第一天没有枪声,第二天没有枪声,第三天发出了一片枪声

问有几条狗被打死?

(留言说说你的答案和解析吧,关注公众号,发送口令:Q20190816,核对正确答案)

昨日答案:一小时

(昨日问题可在昨日推文的文末查看)

推荐阅读

  • 四个大点,搞懂 Redis 到底快在哪里?

  • Apache的架构师们遵循的30条设计原则

  • 程序员干私活搞副业?个税问题搞清楚没?

  • Spring Boot + Redis 实现接口幂等性

  • 百万年薪挖了个P8程序员,难道是“水货”?

签到计划

活动介绍:自律到极致-人生才精致:第12期

活动奖励:《Java微服务测试》* 10

扫描下放二维码,签到参与

点一点“阅读原文”小惊喜在等你

浙大博士 130 页论文,教你用人工智能挑西瓜相关推荐

  1. 浙大博士130页论文,教你用人工智能挑西瓜

    作者 | 神经小姐姐 来源 | HyperAI超神经(ID:HyperAI) [导读]要问什么水果和夏天最搭,答案一定是西瓜.作为西瓜生产与消费大国,中国在 2018 年以全世界 20% 的人口消耗掉 ...

  2. DeepMind网红博士300页论文出炉:面向NLP的神经迁移学习

    https://www.toutiao.com/a6674376172496749067/ 新智元推荐 来源:图灵 TOPIA(ID: turingtopia) 作者:Sebastian Ruder ...

  3. Youtube视频推荐算法:从10页论文到4页论文的变迁

    Youtube视频推荐算法:从10页论文到4页论文的变迁 所以说豆瓣广播是个好东西,长久以来已经怠于主动关注paper的我,每次都能通过我那些专业敬业的友邻们发现有意思的文章或话题,知识因分享而伟大! ...

  4. 天大博士/硕士学位论文Latex模板2021年

    这是小王在Github上的项目 TJUThesis_master_2021的Readme.为了扩大影响范围,我把它搬到CSDN上来了.如果本模板对你有帮助,请在Github给一个宝贵的Star,让更多 ...

  5. 【学术相关】72所高校博士毕业的论文发表要求

    来源:核心论文指南,研乎  编辑:学妹 "没有延期毕业的硕士,没有按期毕业的博士."一直以来,坊间都流传着这样一句话. 尽管学校学位申请不再作硬性指标,然而你会放弃发论文吗?对于文 ...

  6. python 字符串转日期_我总结的130页Python与机器学习之路V1.2.pdf,都是干货!

    告别枯燥,通过学习有趣的小例子,扎实而系统的入门Python,从菜鸟到大师,个人觉得这是很靠谱的一种方法.通过一个又一个的小例子,真正领悟Python之强大,之简洁,真正做到高效使用Python. 两 ...

  7. 【2023 年第十三届 MathorCup 高校数学建模挑战赛】A 题 量子计算机在信用评分卡组合优化中的应用 42页论文及代码

    相关信息 (1)建模思路 [2023 年第十三届 MathorCup 高校数学建模挑战赛]A 题 量子计算机在信用评分卡组合优化中的应用 详细建模过程解析及代码实现 [2023 年第十三届 Matho ...

  8. 电子科技大学计算机博士要求,博士研究生发表论文的要求-电子科技大学.PDF

    博士研究生发表论文的要求-电子科技大学 博士研究生发表论文的要求 为营造良好的学术氛围,激发博士生的创新能力,鼓励博士生潜心研究,做出创新 性成果,提高博士生的学术写作水平,对博士生在申请学位论文答辩 ...

  9. 浙大博士求助:华为总包50万,oppo约70万,选谁?

    前言: 互联网时代催生网络热词无数,如今"人生赢家"这个词开始横行,越来越多的"人生赢家"也开始变得透明,当然,这些"人生赢家"们也总是拿着 ...

  10. 【2023 年第十三届 MathorCup 高校数学建模挑战赛】 B 题 城市轨道交通列车时刻表优化问题 42页论文及代码

    相关信息 (1)建模思路 [2023 年第十三届 MathorCup 高校数学建模挑战赛]A 题 量子计算机在信用评分卡组合优化中的应用 详细建模过程解析及代码实现 [2023 年第十三届 Matho ...

最新文章

  1. RSA遭骇 Token 换?不换?
  2. 网站关键词优化从这几方面下手效果会更好!
  3. Netty系列(三):说说NioEventLoop
  4. 嵌入式linux ext4映像制作工具说明 real210_v62
  5. XMLHttpRequest对象在IE和Firefox中创建方式有没有不同?
  6. CSS3+JS切割轮播图
  7. MyBatis自定义类型处理器 TypeHandler
  8. java中runnable_Java:在Runnable中处理RuntimeException
  9. python如何保持数据类型不变_python 可变和不可变数据类型、格式化输出和基础运算符...
  10. ROS中常见坐标系定义及基本单位
  11. unity摄影机depth模式_Unity3D Camera 摄像机属性详解
  12. 客户端的效果 ktv 1216
  13. 表单提交数据大小的限制
  14. win7开启ftp被动模式_FTP服务器在Linux系统上的搭建
  15. RadHat 6 系列心路历程、新功能及变化
  16. java jvm学习笔记三(class文件检验器)
  17. Oracle数据库中查看所有表和字段以及表注释.字段注释
  18. boost电路输出电流公式_开关电源BOOST拓扑计算公式和参考分析
  19. TODA SMT上料防错系统
  20. iOS保存图片到相册

热门文章

  1. 记2021春季PAT乙级考试题解
  2. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism
  3. 解决MAC系统Big Sur 11无法安装cad注册机无权限 奔溃 闪退问题 AutoCAD 2021 for Mac CAD2021 中文版安装注册激活教程
  4. 新元宇宙奇科幻小说原创作品每周连载地球人奇游天球记第八回邂逅嫦娥
  5. CREO图文教程:三维设计案例之齿轮参数化设计(排屑槽+轴阵列+钻嘴)图文教程之详细攻略
  6. 统一社会信用代码校验规则
  7. pe下查看ip和计算机名称,利用U盘pe系统查找原来电脑ip
  8. amd超频软件LINUX,cpu超频软件amd
  9. 开源软件的法律风险及防控
  10. 商标注册要的一些重要基本常识(附:注册流程)