我是百度研究院大数据实验室的吴海山,做一名数据科学家有怎样的体验,问我吧!

思想 2015-06-16 已关闭提问
如果说“大数据”是一扇门,使人们得以更深入地认识这个世界和世界上的人,那么,数据科学家就是把这扇门推开的人。我们所做的工作,是收集和处理数据,建立模型,预测事件——从人群预警到商业决策,数据都可以提供可靠的参考。
夸张点儿说,在这个信息时代,数据科学家仿佛充当了先知的角色。那么,如何做一名数据科学家?数据科学家需要什么样的素质和技能,工作中采用何种思维方式,是怎样面对隐私问题的?尽可以在这里问我。
http://www.thepaper.cn/asktopic_detail_10000321
101
相关新闻
大数据的傲慢

澎湃研究所 2015-06-16 41
20个回复共76个提问,热门 最新

搬运工2015-06-16

我来答| 关注

您好,不知道能否这样讲,假如针对生活的方方面面,都用大数据的方法进行分析,人就成了全知全能的。作为一个保守的人,对这样的结果,我感到特别不安,您怎么看待这种大数据导致的人类生活透明化?

吴海山 2015-06-16

13|回复

这个问题问的好,如何在大数据时代,在给用户提供更好的服务的同时,还保护好用户的隐私是个十分重要的问题。我们实验室的一个研究课题就是如何对用户移动互联网的时空数据进行加密,来更好的保护用户的隐私。

搬运工 2015-06-16

0|回复

是的,我问的并不是技术层面的问题,也不是单靠技术就能解决的问题。

zqzzr

他没看明白你的提问,对你的担心答非所问

zqzzr 2015-06-16

0|回复

他没看明白你的提问,对你的担心答非所问

大雄 2015-06-16

0|回复

同态密码技术吗?

吴海山

这个问题问的好,如何在大数据时代,在给用户提供更好的服务的同时,还保护好用户的隐私是个十分重要的问题。我们实验室的一个研究课题就是如何对用户移动互联网的时空数据进行加密,来更好的保护用户的隐私。

收起全部回答

123409872015-06-16

我来答| 关注

现在什么都叫大数据,到底什么才是真正的大数据?

吴海山 2015-06-16

12|回复

大数据算是咨询公司和媒体热炒出来的一个名词。对于我本人看来,并没有所谓的“大数据”,今天的大数据可能就是将来的小数据。能解决问题的数据才是最有用的数据。

12340987 2015-06-16

0|回复

有道理

收起全部回答

123409872015-06-16

我来答| 关注

感觉a和t在数据积累上已经超过b了,百度对自己的行业地位怎么看?

吴海山 2015-06-16

11|回复

我不认为at的数据超过了百度,三家公司的数据各有特色,阿里的数据重在交易,腾讯的数据重在社交,百度的数据重在需求。因此在洞察用户各种各样需求上,百度的数据更胜一筹。在打通人和服务的连接上,我认为百度的数据可以更好反映用户的服务需求,在将来更有胜算。

字数限制2015-06-16

我来答| 关注

现在有什么实际成果商业化了吗?

吴海山 2015-06-16

8|回复

基于百度数据的选址系统 bdl.baidu.com/huixuan 服务商铺、地产选址
基于百度数据的城市管理系统, 服务城市规划、人群管理,视频介绍http://tv.cntv.cn/video/C10616/1904980df3c1467da10bfbeec5ec77dc
此外,我们还有基于百度数据的智能客户分析,敬请期待。

字数限制2015-06-16

我来答| 关注

腾讯和阿里通过微信和淘宝,掌握了大量用户真实的信息,百度却要做数据分析,结果也不一定准,这点百度准备怎么应付

吴海山 2015-06-16

7|回复

相比微信和淘宝,从直观上看起来似乎百度的数据缺少强账号体系。实际上,百度除了百度贴吧、百度知道、百度文库、百度云盘等贯穿账号体系的产品化,用户的移动空间数据本身就是反映用户身份的特征。详情请关注我们实验室的研究成果。

张麻子 2015-06-17

0|回复

未经许可对同行业数据进行读取分析是否合法?

吴海山

相比微信和淘宝,从直观上看起来似乎百度的数据缺少强账号体系。实际上,百度除了百度贴吧、百度知道、百度文库、百度云盘等贯穿账号体系的产品化,用户的移动空间数据本身就是反映用户身份的特征。详情请关注我们实验室的研究成果。

收起全部回答

二卡蝦2015-06-16

我来答| 关注

貴司相對a和t,的確略顯低調。我個人猜測也許貴司的客戶大多是公司,不在這個行業就不會了解。
能舉幾個例子嗎:您的客戶是什麼類型的公司,有什麼你們意想不到的要求?是百度把標準的大數據產品推銷給他們,還是他們主動找上門跟百度訂製大數據產品?

吴海山 2015-06-16

7|回复

由于我们隶属于百度研究院,即百度的研究部门,并不直接只对客户,所以具体针对是哪些客户,我这里可能无法给出回答。不过作为研究部门,我们也希望从事的研究能够落地,将从百度大数据分析的结果,服务百度用户,或者服务某个行业。

Bigbone2015-06-16

我来答| 关注

大数据会取代目前市场调研行业最常用的“许可式调研”吗?当数据监控越来越深地渗入到生活中,也会有越来越多的人有抵触心理。请问大数据行业的专家们对此有没有什么应对之策?

吴海山 2015-06-16

4|回复

从目前看来,基于大数据的市场分析发挥的作用越来越大,带来的分析维度也越来越丰富,传统的许可式用户调研的局限性越来越明显了,因此这些传统的方法需要适应新的变化。比如传统的出行调查,现在我们根据百度时空数据的分析结果,可以得到更丰富、更全面的用户出行调查结果。 我们正在研究的O2O消费者分析有望帮助品牌酒店客户得到更为全面的商业决策。我不认同“数据监控”这个词汇,在移动互联网时代,对于大部分情况而言,用户需要在自己得到的个性化服务和自己的网络踪迹之间做一个平衡。我们同样十分关注用户的隐私,目前我们在做的就是如何更好的对用户的时空数据进行变换和加密,最大程度保护用户的隐私数据。对于用户而言,在使用各种服务时,也需要认真阅读隐私条款,也有说否的权利。

Frantz2015-06-16

我来答| 关注

深度学习研究院目前主要在做哪些方面的工作?

吴海山 2015-06-16

4|回复

深度学习研究院在进行十分前沿和有意思的图像和视觉领域探索等工作,具体可以参考idl.baidu.com

医药邦2015-06-16

我来答| 关注

有没有可能实现自动看病?病人输入症状,化验结果,就给出治疗方案,谢谢!

吴海山 2015-06-16

4|回复

这个问题问的好。看病包括给出完整治疗方案是需要经过严格医学职业培训、有医生执照的大夫才可以完成。大数据的解决方案目前无法(或者也是不合法)代替医生做出这些决定,但是可以通过多个数据源的数据分析和挖掘,自动给出咨询和诊断的辅助决策,或者给患者提供一些参考建议。基于大数据的健康分析也是我们实验室的一个研究方向。

白水堂 2015-06-17

0|回复

能够自己输入症状的是精神病人。

收起全部回答

陌上桑2015-06-16

我来答| 关注

您好,关于大数据,如果我是一个新闻专业大学生,想从事这方面工作,应该做那些准备呢?

吴海山 2015-06-16

4|回复

数据方面的工作有很多较色,比如数据工程师、数据分析师、可视化工程师等。看你个人的兴趣,但是基本的数据清洗、分析、可视化和挖掘算法的应用是需要掌握的。

皇马踢中超2015-06-16

我来答| 关注

你们和google比的优势在哪里?(我是百度狗)

吴海山 2015-06-16

3|回复

这个问题问的好。从百度提供的用户服务来看,百度的最大的优势是比谷歌更了解中国用户的需求,比如百度直达号、百度贴吧等。尤其是百度直达号,在移动互联网里面,用户的需求从信息的获取变为对移动场景的服务需求,我觉得在这单上百度反应的比谷歌要快很多。在比如百度文库,对中小学老师的重要性超出我的想象。再比如百度外卖。所有这些都是对中国用户的需求做出的创新。我个人的想法就是,希望努力在百度做出让中国发生改变的事情。

皇马踢中超 2015-06-16

0|回复

哈哈

收起全部回答

boweiyu2015-06-16

我来答| 关注

大数据分析对市场调查业有怎样的冲击?哪些传统市场调查做的现在可以通过大数据分析做了?哪些还不行,还是得通过市场调查来获得?谢谢!

吴海山 2015-06-16

3|回复

参见上面一个问题。传统市场调研也有其不可取代的部分,但是要想不被淘汰,还是需要积极拥抱变化,适应技术变化的需求。

andy sower,2015-06-16

我来答| 关注

大数据怎样应用到小企业中

吴海山 2015-06-16

2|回复

这是个好的问题。我的个人想法是这样的:1.企业无论大小,从一开始就要意识到数据对业务的重要性 2.小的企业如果开始没有积累数据,如果有业务需求,可以考虑第三方咨询服务。比如我们在做的基于百度大数据的商业地产选址,我们打算主要服务中小企业的选址服务,因为这些企业本身没有太多数据,也难以借助类似IBM等咨询公司获取咨询服务。

andy sower, 2015-06-16

0|回复

感谢,一般咨询费用根据什么来收?

吴海山

这是个好的问题。我的个人想法是这样的:1.企业无论大小,从一开始就要意识到数据对业务的重要性 2.小的企业如果开始没有积累数据,如果有业务需求,可以考虑第三方咨询服务。比如我们在做的基于百度大数据的商业地产选址,我们打算主要服务中小企业的选址服务,因为这些企业本身没有太多数据,也难以借助类似IBM等咨询公司获取咨询服务。

收起全部回答

le o2015-06-16

我来答| 关注

你用什么工具进行数据分析?什么能力可以衡量你的在数据分析处理上做的好坏?

吴海山 2015-06-16

3|回复

我个人偏好开源的工具,主要是python, 但没有具体限制,视个人爱好和使用经验等, 比如R也可以。衡量好坏的能力我个人看重对数据的好奇、敏感,能否洞察自己的分析是否有问题,能否讲出分析背后的故事,我觉得更重要。

包子豆浆2015-06-16

我来答| 关注

此发言已被用户删除

吴海山 2015-06-16

3|回复

能不能更取决于你个人的职业规划。我觉得物理专业在数学建模上应该更有优势。

裘弘亮2015-06-16

我来答| 关注

前辈您好,请问在您看来,『大数据』是一个真的可以推动社会各行各业颠覆变革、创造更多可能的风口,还是一个被媒体过度放大炒作、昙花一现的一个概念?(我正在面临专业的选择,我对数据科学这个方向很感兴趣,因此我很想知道这个行业有多少生命力)谢谢!

吴海山 2015-06-16

2|回复

我个人看来,两个方面都有。个人建议,选择专业时关键还是要看自己是不是感兴趣,因为任何一个行业的生命力都会发生变化,但是如何把握机会,只要做好准备,随时都有机会。

lazygg2015-06-16

我来答| 关注

针对前两天百度参加比赛作弊事件,你是怎么看的?因为前几天360也出过这种事,你觉得中国公司是不是都这样?最后百度对这样的事件是怎样定位的?

吴海山 2015-06-16

2|回复

比赛作弊是件让人非常遗憾和心痛的事。我对360公司的这个事情不知情,所以没法评价。但不管怎样,尤其认为中国公司都是这样无疑是太片面了。近几年,随着中国移动互联网的发展,越来越多的中国公司都变现的十分出色,也无疑会受到更多国外媒体和同行的关注,我更愿意相信中国的公司都是朝着积极的一面发展的。也更是因为这个原因,我也希望大家能放下对国内公司的偏见,希望海外有更多有志之士加入国内公司也好、来国内创业也好,来用技术改变中国。

鞋子特大号2015-06-16

我来答| 关注

现在的数据量有多大了呢 是怎么从大数据中挖出有用的数据的呢 工作会不会很繁琐

吴海山 2015-06-16

3|回复

数据量每天都在增加。从数据里面挖掘有价值的东西是件十分挑战的任务,里面也包含很多脏活和累活。数据清洗可能是里面最为繁琐的一部分。而且真实世界的数据和实验室的不一样,很有可能是和你的预期是不一样的,这需要你对数据有知觉和敏感。

王华2015-06-16

我来答| 关注

科学家你好,我是学文科的,想做大数据,还有机会吗?需要具备什么条件?

吴海山 2015-06-16

3|回复

完全有机会。不同情况下对数据从业者的要求可能不一样,但是基本的数据清洗、处理、可视化和基本的统计分析和挖掘方法是必要的。

zmt0012015-06-16

我来答| 关注

能介绍一下百度研究院大数据实验室的情况吗?进入这个实验室的员工需要具备哪些条件?

吴海山 2015-06-16

2|回复

首先是百度研究院(Baidu Research)由Andrew Ng带领,下属三个实验室,其中之一是大数据实验室(Big Data Lab)由 Zhang Tong(张潼)教授带领,目前实验室的成员主要来自国内外的高校和研究机构硕士和博士,大多数有海外留学经历。从事的研究方向包括大规模机器学习、百度大数据挖掘应用等。一般需要有较好的机器学习功底和编程能力。

BDL 百度研究院大数据实验室的吴海山,做一名数据科学家有怎样的体验,问我吧!相关推荐

  1. 神策 FM:做一名数据分析师是什么体验?

    采访 | 策小编 受访者 | 陈新祥 陈新祥 前天弘基金网站分析负责人,6 年多网络营销.数据分析相关从业经验,谷歌分析资格认证.先后负责或参与过天弘基金.中国移动.春秋航空.肯德基等企业的数据分析项 ...

  2. bootstraptable 怎么在特定行添加数据_手把手教你做一个“渣”数据师,用Python代替老情人Excel...

    大数据文摘出品 来源:medium 编译:张大笔茹 十年前,你说你是做数据的,大家的反应就是 -- 用 Excel 做做表. 现在,要成为一个合格的数据分析师,你说你不会 Python,大概率会被江湖 ...

  3. 搞了个30天学习量化的数据资料,可以bt做全球。数据链接白送

    待会上传代码,资料,打包好了,拿来就能用.累死我了,搞了两天,必须收费,绝不允许白嫖.不然对不起我熬夜,那么辛苦. 确定后,扫描百度网盘 链接:https://pan.baidu.com/s/1C0k ...

  4. 2023 十大科技趋势预测!百度研究院最新发布

    来源:美辑科研 1 月 5 日,百度研究院 2023 年科技趋势预测如约而至.这是自 2020 年以来,百度研究院第四次发布十大科技趋势预测. 连续四年发布十大科技趋势预测,百度研究院看到了什么? & ...

  5. 大家最关心的问题:大数据培训完一般可以做哪些工作?

    大数据引领世界进入数据光速前进的时代. 数据可谓是网站的一种重要财富,可以说,谁能更佳地灵活掌握和使用数据,谁就站在互联网前端.因此,一些大的互联网公司对数据方面投入了大量的人力物力. 同时对大数据分 ...

  6. 百度大数据+零售发挥引擎优势 ------BDL ,大数据+亚当科茨领导的人工智能实验室和由张潼领导的大数据实验室

    百度大数据+ 百度大数据+,是百度开放的新商业"能源库",旨在面向行业关键诉求,开放百度大数据核心能力,帮助企业先人一步创造新商业机会.实现用户体验的升级换代. 百度大数据+,基于 ...

  7. 百度研究院在硅谷新设两大实验室,三名AI科学家加盟

    李根 发自 纽约  量子位 报道 | 公众号 QbitAI 百度研究院再次扩军. 今日,百度研究院在硅谷召开全员大会,宣布设立商业智能实验室(Business Intelligence Lab,BIL ...

  8. 大数据早报:原百度研究院院长林元庆宣布离职创业 比特采矿业巨头BitMain推出深度学习AI硬件(10.27)

    数据早知道,上乐投网看早报! 『百度』原百度研究院院长林元庆宣布离职创业 将投身AI领域 原百度深度学习实验室主任林元庆已经离职,接下来将在人工智能领域创业.据悉,林元庆在八月份便有离开的意向,十一之 ...

  9. 深圳市大数据研究院(医疗大数据实验室)招聘博士/硕士/博士后/科研助理

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> AI算法岗求职群 深圳市大数据研究院下属的医疗大数据实验室项目组面向海内外招聘博士后.博 ...

最新文章

  1. python监听文件更改记录_如何用机器人监听老板微信?
  2. Java中恒等条件判断:“equals”和“==”
  3. MyBatis 获取数据库中自增主键值
  4. JavaScript 复习之 事件模型 和 Event对象
  5. hashmap put复杂度_你碰到过几种HashMap在高并发下出现的问题,哪些可能出现的问题...
  6. nginx配置二级目录,反向代理不同ip+端口
  7. 【学术】施一公分享自身经验:如何提高自己的专业英文文献阅读能力
  8. Raphael的transform用法
  9. servlet跳转问题
  10. ubuntu环境下android开发环境安装
  11. 【Python 爬虫 CASE】使用新榜API获取数据
  12. 办公室计算机应用简单知识,新入职办公室人员基础电脑操作知识.doc
  13. 一小时看懂Ruby代码基本逻辑(自定义metasploit模块)
  14. 集体的智慧:为什么SaaS打败企业软件?
  15. 深圳计算机学校排名2015年,2015深圳各区初中最新排名,10各区学校都有
  16. 云南计算机专修学校附中,云南昆明这四所重点中学,师资力量雄厚,教学经验丰富!...
  17. python脚本编程:批量压缩图片大小
  18. .NET AutoCAD二次开发之路(二、直线篇)
  19. linux服务器离线安装autoconf
  20. 开闭原则的例子_开闭原则

热门文章

  1. php 时区对应的地区,PHP 输出的各个时区对应的时差表
  2. Task运行过程分析1
  3. 基于java的毕业设计选题系统的设计与实现
  4. [IT与培训]IT培训与企业建设的思路
  5. 微信公众平台开发(100) 2048游戏
  6. [JavaScript学习记录] 首次运用于网页,做一个简易利息计算器!!!
  7. Linux资源控制-CPU和内存
  8. 关于程序员的20 幅幽默漫画,太真实了!
  9. Spring MVC PUT 表单参数获取
  10. 日本计划建造世界上速度最快的超级计算机