文章选摘:统计之都

推荐语:2019年,第十二届中国R会议(北京)将于5月24-26日在中国人民大学举办。2019年,是中国R会议值得纪念的第12个年头,12年象征一个轮回,这一个轮回中,变化的是不断壮大的统计与数据科学领域奋斗者队伍,是日渐凝聚的统计力量,而不变的是中国R会议的初心——服务广大统计与数据科学爱好者,推动中国R会议的不断发展。在这样一个值得纪念的时刻,让我们相约中国人民大学,共赴这场数据科学盛会!本届会议涵盖了多个学科领域,我们真诚地期待您的到来,一同感受数据科学为这个时代带来的惊喜与挑战。

推荐人:统计之都

报名链接:http://t.cn/EadnIGY


推荐语:编程语言曾经是各有特色,但应用层的优秀软件包都在自发形成跨平台语法,Shiny 是基于 R 语言的网络应用框架,开发与上手都很方便,那么作为 R 的竞争者 Python 自然也会有人开发类似平台,也就是 Plotly 出品的 Dash[1],这篇文章对比了这两个网络应用框架的异同。个人感觉虽然底层机制不同,但编程框架非常接近,基本会了一个另一个也差不多会了。

推荐人:于淼

链接:http://t.cn/ESM3jw9


推荐语:在顶刊上对显著性差异的批评几乎成了每过一段时间就会出现的新闻,《自然》杂志上最近又出了一篇号召科学家放弃使用显著性差异的评论。其实对于显著性差异的问题,科研人员要么是真不懂,要么装不懂。前者是确实搞不清楚啥意思,经常发明出诸如不显著性差异的名词来曲解实验结果;后者多半是被逼的没法子,不显著发不出文章毕不了业,甚至问出哪个检验可以看出差异的问题。科研的职业化让统计工具化,然后为了在学术界生存下去各类误用摘樱桃层出不穷,真相与饭碗的矛盾可能是显著性差异问题更本质的源泉。

推荐人:于淼

链接:http://t.cn/ESM3guA


推荐语:sits包旨在构建统一的机器学习与卫星图像时间序列分析工具,包含数据获取,数据可视化,数据去噪与聚类的卫星图像时间序列分析全流程。一方面,它紧密结合包括深度学习(keras),贝叶斯方法, SOM,TWDTW,SVM 等在内的算法工具。另一方面,与 tidyverse, data.table, raster 和 sf 数据处理包也深度集成,实现了高效地卫星图像时间序列分析。

推荐人:朱俊辉

链接:http://t.cn/ESM1PUs


推荐语:学术研究用软件开发者通常面临一个困境:学术文章通常发表后不需要维护而软件开发则是反复迭代的,这就造成了学术软件开发者往往很难获得与其工作量对应的学术评价例如文章发表数。而为了发布软件写的文章通常又不怎么关注代码质量,这使得很多软件文章效果一流但换个数据集就各种找不到对象。RopenSci[2]是一个旨在促进基于R语言的开放科学文化的社群,其发布的软件包需要经过同行评议,代码质量也有检查清单与指南[3]来控制,本来这只是一个野生标准,然而正统的学术期刊例如 Methods in Ecology and Evolution (MEE) 也开始借鉴并实施了,这是一个很好的开端与趋势。从黑匣子软件到开源软件,从开源软件到高质量的代码评审,透明化的学术研究会更有利于思想的流动。

推荐人:于淼

链接:http://t.cn/ESM12ls


推荐语:亚马逊提供一项付费在线图像识别的应用 Rekognition ,有人把这个应用连接到了纽约布莱恩特公园的摄像头上,然后只花了9个小时与60美元,就从行人路过的图像中识别出了很多人,其中就包括一位纽约州立大学的教授,验证则是通过其学术网站的公开照片来完成的,值得注意的是整个流程都是合乎现在法律法规的。很明显这对个人隐私不是什么好消息,打比方用来监督交通状况的公开摄像头很有可能完整追踪了在社交网站发过自拍的个人的完整行动轨迹并公开而当事人完全意识不到,假如算命的懂面部识别,那准确率肯定高的离谱,街上抓个人就能报出你去过哪吃饭,喜欢坐公交还是地铁等等。其实这项技术最早是设计来寻找走失儿童的,其本身也只是执行搜索验证的命令,监管技术使用更多是靠自觉,那么这里的问题就是:如果某项数据技术或算法存在伦理困境,商业化的行为该如何监管?也许这会是另一个技术问题。

推荐人:于淼

链接:http://t.cn/EXRzblI


推荐语:如果你对统计学概念历史及背后的哲学原理与辩论感兴趣,一定不要错过这个博客,博主是一位研究统计学的哲学教授,她夏天也会有个短期课程并顺道会招两个这个方向的博士生,纯的哲学博士。

推荐人:于淼

链接:https://errorstatistics.com/


推荐语:这是一门名为“布鲁士特的召唤”的公开课,来自华盛顿大学两位教授,收集整理了现实世界中利用歪曲事实,谬解数据的案例与其背后的原理,你可以从中学到识别这类布鲁士特的方法,涉及的主题包括但不限于相关与因果、统计学花招、大数据忽悠、可视化误导、发表歧视、掠夺性期刊、假新闻等,这门课本来只是在学校里教,但现在视频也都放网上了。

推荐人:于淼

链接:https://callingbullshit.org/


推荐语:自从 rocker[4] 全家桶上线后,保持数据分析环境最新已经不是什么问题了,然而确实存在有些分析只能制定某一个版本的包才能完成的情况,如果这个包不在全家桶里,我通常的解决方式是自己在 GitHub 上复制那个版本到自己的仓,然后用自定义安装的方式打包进镜像,不过这个方法很啰嗦。这篇文章则灵活使用了 packrat 包用来如实还原本地分析环境并提供了演示案例。

推荐人:于淼

链接:http://t.cn/ESM1KLG


推荐语:Shiny 1.3.2 发布,这次更新加入了交互日志功能,这使得 shiny 应用的开发除虫更为容易,因为现在可以直接在另一个浏览器窗口里检查是那个部分出的问题了,对于提高应用效率很有帮助。另一个功能则是对 js 脚本与 css 的快速部署,因为它们不再都挤一个 R 进程了,背后的黑魔法是 httpuv 包。总体看 shiny 正在着手解决开发与部署效率问题,推荐更新。

推荐人:于淼

链接:http://t.cn/ESM1Ot5


请回复统计之都 Github 主站相关 issue[5] 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。

文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。

招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。


注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。欢迎点击文末“阅读全文”进行投稿!


参考文献

[1] https://dash.plot.ly/
[2] https://ropensci.org/about/
[3] https://ropensci.github.io/dev_guide/reviewtemplate.html
[4] https://www.rocker-project.org/
[5] https://github.com/cosname/cosx.org/issues/831


往期回顾

·2019年1月统计月读

·2019年2月统计月读

·2019年3月统计月读

·2019年4月统计月读

统计月读(2019年5月)相关推荐

  1. steam游戏在线人数统计周报第9期-2019年12月23日

    统计时间范围:2019年12月16日-2019年12月22日 本周steam在线人数排行榜 # 图片 名称 周平均在线人数(人) 1 Counter-Strike: Global Offensive ...

  2. steam游戏在线人数统计周报第1期-2019年10月11日

    steam游戏在线人数统计周报第1期-2019年10月11日 top10热门增长游戏 top10周平均在线人数游戏 top10本周新游戏 top10玩家流失最大游戏 每周一凌晨统计上一周的数据,也就是 ...

  3. steam游戏在线人数统计周报第2期-2019年10月13日

    统计时间范围:2019年10月07日-2019年10月13日 top10热门增长游戏 # 名称 增长人数(人) 增长比率 1 7 Days to Die 6176 92.43% 2 Sid Meier ...

  4. 北京海淀区统计数据集(2016年3月-2019年3月)

    数据集名称:北京海淀区统计数据集(2016年3月-2019年3月) 时间范围:2016年3月-2019年3月 包含字段: 年份 月份(数值) 从业人员月末人数(人) 研发人员合计(人) 工业总产值(当 ...

  5. 2019手机浏览器排名_浏览器排行榜2019年1月浏览器市场份额排名

    各大电脑浏览器2019年1月浏览器市场份额排名如何?NetMarketShare的最新统计数据显示,2019年1月份Google Chrome浏览器在桌面.笔记本上的份额已达67.29%,比此前一个月 ...

  6. vb中mschart利用数组作图_选考VB算法解析之2019年4月高考真题卷第17题

    说在前面 在对数组排序时,我们常把数组分成已排序区域和待排序区域,并使用左右边界来划分待排序区域的范围:对分查找时我们也引入了左右边界的概念.可见左右边界在数组中是一个非常重要的概念,它在分段处理数组 ...

  7. 00018计算机应用2018年4月,全国2019年4月自考00018《计算机应用基础》试题及答案...

    全国2019年4月自考00018<计算机应用基础>试题及答案 发布时间:2020-02-21 19:24:33 全国2019年4月自考00018<计算机应用基础>试题及答案 针 ...

  8. Netcraft :2019年4月全球Web服务器排名 nginx首度登顶

    Netcraft 发布了 2019 年 4 月 Web 服务器调查报告,排名前三的是 nginx.Apache 和 Microsoft Server.这是 nginx 首度登上第一宝座,其原因来自于微 ...

  9. SiteServer CMS 新版本 V6.11(2019年7月1日发布)

    欢迎来到 SiteServer CMS V6.11版本(.NET CORE V7.0预览版本将推迟至2019年9月1日发布),经过两个月的连续迭代开发,V6.11 版本新增了采集插件以及多项BUG修复 ...

  10. 2019自考00018计算机应用基础,全国2019年4月自考00018《计算机应用基础》试题及答案...

    全国2019年4月自考00018<计算机应用基础>试题及答案 发布时间:2020-02-21 19:24:33 全国2019年4月自考00018<计算机应用基础>试题及答案 针 ...

最新文章

  1. linux c daemon 程序后台运行函数
  2. 为什么“无人问津”的Lisp可以这么狂?
  3. VMM2012应用指南之3-安装VMM2012
  4. 我的电脑不联网,很安全!黑客:你还有风扇呢
  5. spring.net 对象创建 几种情况
  6. nginx 多个root_dockerfile定制自己的nginx
  7. pinpoint agent性能优化方面官方文档翻译
  8. html鼠标感应图片,jQuery实现的感应鼠标悬停图片色彩渐显效果
  9. [BZOJ1492][NOI2007]货币兑换Cash(斜率优化+CDQ分治)
  10. abp vnext修改密码策略
  11. “奔跑吧”大数据!河北大数据产业“跑”向升级路
  12. 如何拼局域网所有ip_查看局域网内所有ip
  13. php mov格式转换,mov格式怎么转换成mp4 如何将mov转换成mp4
  14. Mysql事务操作及存储引擎
  15. 负载均衡器 运行在2、3、4、7层之间的区别 [资料整理]
  16. 沈寅鑫银行内训实战专家
  17. Facebook一季报解读:未来十年要打造一个怎样的世界?
  18. word段落操作快捷键(一)
  19. SL651-2014全协议解析
  20. 闲鱼架构专家,详解亿级C2C电商平台,商品体系架构如何搭建?

热门文章

  1. iOS自定义SearchBar样式
  2. 肝完这篇 TCP/IP ,我就面试去!
  3. 掌握了这30道MySQL基础面试题,我成了面霸
  4. [经典]技术面试宝典: 很全面的算法和数据结构知识(含代码)
  5. 微服务架构如何实现网站服务垂直化拆分
  6. 这个锅,运维来背?忘记续期 HTTPS 证书,网易邮箱大量用户无法使用
  7. 盘点当下稳定又好用的远程控制方案,软硬全覆盖
  8. 手把手教你免费申请支持通配符的 SSL 证书
  9. Google I/O 2016到底讲了啥
  10. 「ZJOI2019」麻将