徐宗本院士讲座《关于大数据研究下的若干问题》摘记
今天早上屁颠屁颠地跑去听了徐宗本院士的:关于大数据研究的若个问题 觉得还不错,由于徐教授横跨数学与管理两方面,所以讲的角度还有深度刚刚好
在我的接受范围内。讲座主要从下面三个方面来讲的:
1 关于大数据的认识
2 大数据研究涉及的科学问题
3 他们团队的探索
(一)关于大数据的认识
大数据炒得很火,但是什么是大数据,跟海量数据有什么区别? 徐教授首先从自己的角度给出大数据的定义,主要有四个特点:
a 不能在单个计算机上集中存储,一般需要用到分布式/云计算模式等;
b 难以在可接受的时间内进行分析处理;
c 单个数据可能价值不大,但是数据整体还是有高价值的(比如一个班级大家发的微博可能没有特别大的意义,但是全国高校大学生发的微博就可以反映当代大学生思想理念**)
d 海量的复杂结构的数据集
对于大数据,他觉得不能按什么GB,TB,PB,EB这些量化来死衡量。
大数据这个概念最近炒得很火,主要是从2008年《Science》杂志用了几版做了大数据专题开始。奥巴马在2011年给出的报告《大数据分析》,竞选一般都喜欢对什么人说什么话,其实就是精确化营销。奥巴马的竞选主要得意于背后的数据分析团队,他们收集各个州post出来的微博,进行舆情分析,得出各个州分别最关心的是什么问题,然后在竞选的时候就针对这些问题提出相应的口号和策略。 继而欧洲等国也把大数据研究作为重要的发展战略。随之越来越火,企业,个人,现在好像所有人都在谈论大数据。
大数据影响力不仅在自然科学研究中,而且在商业领域,徐教授觉得后面会成为企业核心竞争力(数据规模,活性(有没有用,即是不是活的)与解释力),以及发展与大数据相关的商业模式。这是未来高科技公司必须有的概念。 还有在公共政策上,徐教授觉得大数据的火一个很重要的贡献就是给决策者,政策修改者带来的观念上的冲击,即数据资产,主权的概念,现在不仅是海陆空主权了,数据已经渗透到我们每天的日常生活,早在十几年前,美国就能精确摧毁南斯拉夫大使馆,考的就是数据。我们现在用的google GPS,更是精确到一颗沙子,如果不注重数据主权,一个国家的主权也会受到侵犯。从这个角度来讲,google搜索退出中国,百度开始垄断中国搜索引擎市场,其实也是国家对数据主权的觉醒。徐宗本还呼吁大家多多使用百度,呵呵。(想到了斯诺登的事情。腾讯帝国。。)
那么 大数据值得热吗?
gartner报告中-—— 2012年,正在或是即将进行大数据的公司为58%,而进入2013年,这一数字变成了64%。对于大多数企业来说,他们最大的问题,就是不明白大数据究竟是什么,以及如何使用大数据。
现在很多企业都在炒大数据,发展了大数据技术,其实本质上来说只是一种口号上的宣传。目前大数据研究还在初始阶段。
总的来说,徐教授觉得大数据还是值得热,
(1 数据概念重视;
2 数据挖掘方法得到普世的重视。(数据挖掘主要方法: 聚类分析 判别分析 回归分析(一个因素如何随着另外一个因素而改变) 隐变量分析 因果分析 时间序列分析)
但是不能一哄而上。他担心中国人做很多事情都很喜欢一哄而上,继而一哄而散。
从数据到价值的产业链 管理学院前沿计划:大数据产业管理(产业链,商业模式,公共政策等)
(二) 大数据研究涉及的科学问题
a 超高维问题 即决策因素随着样本数n呈现更高量级引起的解的不确定性与经典统计推断失效问题。
经典统计:n>>p,高维:p》》n,大数据高维度p=o(exp(n)) n->00
热点研究:稀疏建模(尽管变量很多,但是很多都是0)
比如南海,虽然监控很大,但是舰队只是很小的一部分。 基本科学问题: 如何补足信息使得数据可解; 利用特征相关性发展统计学(变量之间的独立性基本都是不能成立的)
b 大数据的重采样 subsampling
the big data boostrap,kleiner et.al 2012,ICML(大数据下如何求均值,很有创新)
基本问题:
如何重采样以刻画数据整体特征
基于试验设计的重采样
基于目标信息的重采样
联合处理:boosting ,bagging 等 现在的高分辨率(p维度大),同时雷达不能携带过多的样本数据,即n小。
c 可解的计算理论
大数据可解与传统数据不同,算法中的可解性是指在有限步内可以用图灵机解决的问题。
大数据下的可解, 具体例子(针对具体形式的数据):
流数据(容易是指处理的速度大于数据更新的速度)
分布式数据(容易是指交互的速度大于处理的速度)
d 分布式实时计算
基本问题:
问题的解分解性与解的可组装性
随机优化模型可能成为将来一个趋势。(对于大数据而言,精确解并不太重要,实时性更重要。让我想起3D in the wild重构)
e 非结构化问题
挑战:数据的异构性,不一致性
基本问题:
异构数据的表示与分析 (向量-》矩阵-》张量(现在普遍应用))
f 可视分析
基本问题:
1 高维数据的特征提取;
2 特征如何用几何展示
crowdsourcing(讲到现在公司不知道什么方面,向公众征集,再加上一点小奖励,利用群体智慧)
(三) 我们的探索
a 超高维的稀疏建模
回归分析(大数据-》均匀抽样(subsampling)-》回归-》联合处理,成功
网络监测(失败,因为处理的速度慢于更新的速度)模拟美国城市的交通监测 决策,比如如果处理速度快了,可以加快城市交通监测的更新速度。
b 视觉认知
基于尺度空间的数据建模(聚类)
聚类看上去像5类,有的又说是4类,究竟是几类呢?模拟人脑视觉认知。 引入尺度空间的概念,sigma 为尺度,表示物体与视网膜距离或晶状体曲率。 在一定的尺度范围内,是5类,过了这个范围,在另一个范围内就是四类。 他们的团队引进了生存寿命,生命周期最长的一个类定义为最有价值的类。 谈到meanshift
c 全局优化有用吗? f(x)极小值虽然不一定是全局最优,但是他的吸引域够大就可以了。类比药的结构及药效的稳定性在东南亚,广州。
(粗略的笔记,后面找时间完善)
转载于:https://www.cnblogs.com/diliwang/p/3457309.html
徐宗本院士讲座《关于大数据研究下的若干问题》摘记相关推荐
- 记一次徐宗本院士的讲座——大数据分析技术图谱与研究举例
主讲嘉宾:徐宗本院士 主持人:申恒涛教授 海报原文: 大数据分析与处理依赖特定的计算模式与全新的计算方法(称为大数据算法),设计创新的大数据计算模式与大数据算法是大数据的最核心技术,也是一个全新的领域 ...
- 大数据研究的若干科学问题——徐宗本
什么是大数据? 维基百科:大数据是指无法在容许的时间内用常规的软件工具对其内容进行抓取.管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在十几TB和PB之间. 大数据:不能 ...
- 数学与 AI「融通」 ,徐宗本院士进行超强“迁移学习”
来源: AI科技评论 编辑 | 唐里 徐宗本院士在数学与 AI 之间进行了一次超强的"迁移学习". 9 月 21 日至 22 日,为期两天的 CCAI 2019 正在秋意浓浓的中 ...
- 演讲实录丨徐宗本院士:如何突破机器学习的先验假设?
来源:中国人工智能学会 2021年6月5日至6日,由中国科学技术协会.中国科学院.中国工程院.浙江省人民政府指导,中国人工智能学会.杭州市人民政府主办,杭州市余杭区人民政府筹备组承办,浙江杭州未来科技 ...
- 大数据研究,不能“忽悠”
几个盲人分别摸到了大象的鼻子.耳朵.腿.尾巴和躯体,这张"瞎子摸象"的照片,在"2013中国计算机大会"上出现多次,好几位报告人和讲者,都不约而同地选了这张照片 ...
- 上海推进大数据研究与发展三年行动计划(2013-2015年)
发布时间:2013-07-12 前言 在国家和上海市"十二五"科技发展规划及<上海市中长期科学与技术发展规划纲要>指导下,上海市科学技术委员会通过近一年时间的充分调研和 ...
- 院士论坛︱李德仁院士:展望大数据时代的地球空间信息学(论文版)
展望大数据时代的地球空间信息学 李德仁1,2 1.武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉 430079:2.地球空间信息技术协同创新中心,湖北 武汉 430079 Towards Geo- ...
- 浙江省电子商务大数据研究所在温州成立
今天上午,浙江省电子商务大数据研究所在鹿城区府举行了揭牌仪式,浙江省商务厅为温州中津先进科技研究院授牌为"浙江省电子商务大数据研究基地". 仪式上,浙江省电子商务促进中心主任阮刚辉 ...
- 深证信息等三方拟联合开展大数据研究
昨日,深圳证券信息有限公司(下称"深证信息").泛欧交易所.北京新浪互联信息服务有限公司(下称"新浪网")联合签署了合作备忘录,三方将基于各自优势在互联网大数据 ...
最新文章
- 计算机丢失scecli,Server 2012 R2 SceCli 事件ID:1202( 0x534)解决方案
- 全球及中国TEA-月桂酰肌氨酸盐市场调研与竞争调查分析报告2022版
- Java异常知识整理_处理异常时的性能开销
- 判断scrollview是否滚动到了底部
- JTextPane设置颜色出现的问题
- 48岁的C语言,你知道它背后的历史吗?
- 防止System.exit调用
- 谷粒商城--API三级分类--网关统一配置跨域
- web---SSL/TSL
- java 对话框 显示图片_Java对话框上显示图片
- new float查询长度 c++_C/C++经典面试题
- TextView 内容居中
- 针对医疗数据进行命名实体识别
- 基于单片机的无线鼠标设计
- 学习微积分60年有感(III)
- php 爬虫图片代码,python爬虫入门教程之糗百图片爬虫代码分享
- PySerial库的简单用法
- 信息安全应急预案整理
- 全球及中国阻力带行业市场前瞻及投资竞争力分析报告2022-2027年
- 微信聊天记录导出(iOS) [2019.7.24]