目录

  • 原文链接
  • 文章结构导图
  • 整体概述
  • 具体概念解释与分析
    • 基于机器学习的数据库技术
    • 机器学习技术带来的挑战

原文链接

《基于机器学习的数据库技术综述》
李国良、周煊赫等著,发表于《计算机学报》,2020-11-5.

文章结构导图

整体概述

传统数据库技术往往依赖于启发式算法或者人工干预,例如数据库参数调优、故障诊断、索引推荐等。然而在大数据时代,数据库实例越来越多、场景越来越复杂、数据量越来越大, 导致传统数据库技术难以满足大数据的需求。

机器学习技术因其较强的学习能力,逐渐在数据库领域展现潜力和应用前景, 为数据库优化技术带来了新的机遇。但是由于传统机器学习模型相对简单(如线性感知器、回归模型等),往往只能从单一的层次描述学习过程,严重限制了其应用场景和优化能力。随着算法的改进、计算能力的提升、大数据的变革,深度学习强化学习为数据库优化技术带来了更大的优化空间。

本论文首先给出一个高效、高可靠、高可用、自适应性强的数据库系统需要涵盖的方面,包括数据库运维、数据存储、查询优化等。其次,讨论机器学习算法与数据库技术结合过程中可能面临的挑战,包括训练数据少、训练时间长、泛化能力有限、适应性差四个方面。然后, 综述数据库技术与机器学习结合的现状以及具体技术。 其中, 重点介绍数据库自动调参、查询基数估计、查询计划选择、索引和视图自动选择五个方向。最后,从八个方面展望机器学习将给数据库带来的革命性突破

整体上,文章综述了数据库技术的研究情况以及与机器学习技术结合的前景, 并对未来机器学习与数据库关键技术的融合方式给出进一步展望。

具体概念解释与分析

基于机器学习的数据库技术

在该部分,作者主要提出了数据库的8个可以通过机器学习介入、完成或改善的方面:

数据库运维:指为保证数据库稳定工作而开展的性能监控、 配置优化、 故障处理等服务。

数据存储:涉及到数据的组织、存储和管理方式,仅从软件和架构两个角度总结,这方面的研究主要包括存储模型和数据扩容两个方面。

优化器与执行器:优化器主要负责为查询语句生成相应的执行计划,执行器则根据选择的计划实际进行各类物理操作。这方面的研究工作主要包括基数估计、计划选择和分布式协同机制三个方面。

查询优化:查询优化主要是关于 SQL 层面上的优化工作,旨在写出执行友好的 SQL 语句。这方面工作主要有SQL 重写、索引推荐和自然语言查询三个方向。

数据库负载管理:数据库负载管理对于数据库的执行效率和系统资源的合理配置有很重要的意义,它主要包括负载分析、负载调度和负载预测与生成三个方面。

数据库安全与隐私:数据库安全的基本目标是利用信息安全和密码学技术,实现数据库数据的保密性、完整性和可用性保护,拒绝非授权的访问,保证数据库系统的运行安全。主要包括智能数据隐藏、智能审计、安全漏洞自检测等方面。

数据库自管理:主要指自动检测和修复数据库中的各类软件、硬件和架构问题。其基本目标是从管理层面提高数据库的稳定性。当前主要有自诊断、自修复和可视化管理工具三个方面。

数据库支持机器学习:将各个数据库方法乃至于整个数据库各自打包成组件仓库,由机器学习方法提供一套决策机制,统一根据负载和数据类型决定调用方法。包括机器学习作为用户定义函数(UDF)、机器学习作为物化视图、自动机器学习等。

机器学习技术带来的挑战

机器学习技术给数据库发展带来新的机遇。但是,由于机器学习算法对训练数据和时间有较高要求, 而且数据库技术本身存在诸多问题。本部分作者探讨了二者在结合中出现的一些问题和挑战:

高质量的训练数据少:机器学习算法多对训练数据有较高的要求,主要体现在训练样本质量、训练样本数目和训练样本多样性三个方面。

训练时间过长:也即机器学习算法本身所需的较高的训练时间成本开销。现实场景下,系统在面临面临用户需求、上线压力时,往往倾向于选择简单的分类器,并很难有足够长的空闲时间等待模型收敛。因而数据库系统对机器学习算法的选择有两个方面的要求,一是模型与业务场景适配,二是结合梯度下降、迁移学习等提高训练效率的算法。

算法适应能力不足:当前数据库系统,面对多样的硬件环境、用户负载和用户需求,对机器学习算法的适应能力提出了更高的要求。

机器学习模型与数据库技术的匹配:数据库优化技术涉及到环境配置、查询优化和缓存机制等诸多方面, 发展至今仍然有很多亟待解决的复杂问题。如数据库系统参数的最优配置、状态空间的最优计划等。

【DBAI】《基于机器学习的数据库技术综述》相关推荐

  1. 自然场景文本检测识别技术综述

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 番外青蛇 ...

  2. 基于机器学习技术的用户行为分析:当前模型和应用研究综述(A survey for user behavior analysis based on machine learning technique)

    A survey for user behavior analysis based on machine learning techniques: current models and applica ...

  3. 基于机器学习与人工智能的数据(数据库+大数据)技术

    该文主要介绍了数据技术的发展现状和展望,通过对第35届中国数据库学术会议的内容整理以及总结而成,希望能够给以后打算从事数据库研发或者开发的朋友们指点迷津.本文主要内容包括:1.数据新技术简介,2.数据 ...

  4. 基于机器学习的技术术语识别研究综述

    摘要 [目的] 梳理机器学习算法在技术术语识别中的应用现状与前景.[文献范围] 在WOS核心库和CNKI数据库中,以"technology term* recognition".& ...

  5. 基于机器学习的软件缺陷预测技术的研究综述

    本文基于马樱博士<基于机器学习的软件缺陷预测技术研究>归纳总结而成,不具备论文作用,仅为学校交流 中文摘要 自过去几十年来,软件规模不断扩大,计算机程序设计变得更加复杂,软件规模显著增长, ...

  6. 读“基于机器学习的无参考图像质量评估综述”有感

    读"基于机器学习的无参考图像质量评估综述"有感 摘要: 无参数图像质量评价(NRIQA)因其广泛的应用需求一直以来都是计算机视觉及其交叉领域的研究热点.回顾近十几年来基于机器学习的 ...

  7. 《大数据》编辑推荐 | 基于遥感大数据的信息提取技术综述

    主题词 遥感大数据:目标识别:地物分割:变化检测 遥感大数据虽然能够多粒度.多时相.多方位和多层次地反映地物信息,但其数据量与日俱增.种类日益增多,且存在大量的冗余信息,使得从遥感数据中提取有效信息具 ...

  8. 对《基于机器学习的区域滑坡危险性评价方法综述》阅读的总结

    对<基于机器学习的区域滑坡危险性评价方法综述>阅读的总结 1.摘要 ​ 这篇综述主要系统阐述了:作者通过阅读文献,总结了基于机器学习技术解决滑坡危险性评价方法:可以分为 1.评价因子选择 ...

  9. 基于机器学习、人工智能和区块链技术的物联网安全

    物联网安全:基于机器学习.人工智能和区块链技术的挑战和解决方案 背景介绍 物联网 IoT基础设施 物联网协议 IoT 应用 物联网面临的攻击 三种技术下的物联网安全调研 区块链 机器学习 人工智能 物 ...

  10. 【技术综述】基于弱监督深度学习的图像分割方法综述​

    文章首发于微信公众号<有三AI> [技术综述]基于弱监督深度学习的图像分割方法综述​ 本文是基于弱监督的深度学习的图像分割方法的综述,阐述了弱监督方法的原理以及相对于全监督方法的优势,首发 ...

最新文章

  1. mysql003三表查询.三表查询.自链接查询
  2. 字节跳动实验室招聘户型图理解实习生|北京
  3. 叠置分析(涉及结果属性和输入图层属性的关系)
  4. matlab使用load指令,科学网—matlab常用方法 - 陈超的博文
  5. android权限申请方法,安卓开发Android6+权限申请管理用户拒绝权限一键解决方案...
  6. [译]R语言——Shiny框架之入门(三):如何启动一个Shiny应用
  7. Java定时器quartz停止
  8. Windows自动关机设置
  9. php自动发卡程序8.0_php自动发卡平台源码
  10. 回顾华为荣耀6手机刷机相关
  11. labwindows制作特殊图形面板
  12. mysql中筛选不重复值_MYSQL中筛选不重复记录值的示例
  13. 【英语流利说】让你发音更标准的十个窍门
  14. 做明日达超市,美团电商这次能成吗?
  15. Qt-网易云音乐界面实现-9 照片墙功能
  16. 招投标法、合同法、采购法
  17. 【原创】浅谈在探索数分之路上“数据思维”培养
  18. 解决ADB搜不到设备的问题
  19. 那些逝去的岁月-性格分析
  20. [ACNOI2022]猜数

热门文章

  1. C#检测ocx控件是否注册
  2. 基于Java毕业设计新纪元大酒店管理系统源码+系统+mysql+lw文档+部署软件
  3. Hook入门之鼠标钩子
  4. 金山毒霸 2011 SP2 论坛内测开始
  5. 高质量解读《互联网企业安全高级指南》三部曲——理论篇
  6. 计算机四级和网络工程师区别,计算机四级网络工程师和软考中级的网络工程师有什么区别啊?...
  7. 【Unity3D插件】Dialogue System for Unity插件分享《对话系统插件》
  8. Linux交叉编译FFmpeg
  9. 中国省份数据字典表---自用
  10. Android直播APP源码搭建中豪华物特效的实现