本技术周刊是以周为单位作为里程碑,记录一个程序员视角下的所见,所学,所想。兴趣领域包括:数学,算法,图形,图像,音视频,AI,游戏,软件开发技术,操作系统,开源,以及生活杂记等。“不积跬步,无以至千里;不积小流,无以成江海。”希望与君共勉。

1. AI

1.1 初识DirectML

https://shi-tech.blog.csdn.net/article/details/121722792

DirectML是微软发布的一套基于DirectX12的机器学习底层推理API。本文对DirectML做了初步介绍,它的优点来源。和其他推理引擎WinML、ONNXRuntime、TensorRT也做了比较。

1.2 DirectML 1.8 版本更新内容

https://github.com/microsoft/DirectML/blob/master/Releases.md

  • 增加DML_FEATURE_LEVEL_5_0

    • 加入四个新操作:

      • DML_OPERATOR_ELEMENT_WISE_CLIP1
      • DML_OPERATOR_ELEMENT_WISE_CLIP_GRAD1
      • DML_OPERATOR_PADDING1
      • DML_OPERATOR_ELEMENT_WISE_NEGATE
    • 下列操作增加了对64位数据类型的支持:

      CLIP, CLIP_GRAD, CUMULATIVE_SUMMATION, CUMULATIVE_PRODUCT, ELEMENT_WISE_MAX, ELEMENT_WISE_MIN, REDUCE+REDUCE_FUNCTION_MAX, REDUCE+REDUCE_FUNCTION_MAX, REDUCE+REDUCE_FUNCTION_SUM, REDUCE+REDUCE_FUNCTION_MULTIPLY, REDUCE+REDUCE_FUNCTION_SUM_SQUARE, REDUCE+REDUCE_FUNCTION_L1, PADDING, SPACE_TO_DEPTH, DEPTH_TO_SPACE, TOP_K, ELEMENT_WISE_NEGATE, ELEMENT_WISE_IF, MAX_POOLING, MAX_UNPOOLING, FILL_VALUE_SEQUENCE, REVERSE_SUBSEQUENCES, ROI_ALIGN BatchIndicesTensor

  • 一些Bug修复。

2. 音视频

2.1 视频大时代下基础架构的演进

https://mp.weixin.qq.com/s/0MeJKITaHWsyMapG1jlXTQ

这篇文章是LiveVideoStackCon 2021音视频技术大会北京站,来自快手短视频架构负责人黄琦的演讲。本文讲解了随着快手业务量的不断增加,为了适应业务需求,底层音视频架构也经历了多个版本的迭代。比如为了应对在业务代码中升级FFmpeg版本或转码逻辑,就需要连同业务逻辑一起调整,非常影响迭代速度的挑战。把底层技术工具封装成独立服务,并且用配置去管理每个服务的调度方式。也就是音视频能力和业务逻辑的解耦。还有第二次架构升级中加入的流程编排引擎和基于FaaS的计算平台。
从Facebook和Netflix视频基础架构的演进看,得出惊人相似的结果。架构迭代中要解决的核心问题是让业务只关注要什么,而不是视频怎么来和放在哪里。如果要满足业务希望的接口,整个媒体处理平台的接口应该是函数式编程,而不仅仅是把计算执行交给FaaS平台。

2.2 Android直播开发之旅(2):深度解析H.264编码原理

https://blog.csdn.net/andrexpert/article/details/71774230

这篇文章介绍了H.264编码的基本原理,H.264的数据组织形式:

数据的组织形式从大到小排序是:序列(sequence)、图像(frame/field-picture)、片组(slicegroup)、片(slice)、宏块(macroblock)、块(block)、子块(sub-block)、像素(pixel)

讲解了什么是NALU以及NAL技术。介绍了使用工具H.264 Video ES Viewer查看H264流的方法,以及如何判断NALU的不同类型:SPS、PPS、IDR帧等。

3. 计算机视觉

3.1 Stylevision:基于 WebRTC、FFmpeg、Tensorflow 的实时风格变换

https://mp.weixin.qq.com/s/MrXl6MYelDoATYGAeOc6uw

本文首先介绍了风格转换领域三篇重要论文:

  • A Neural Algorithm of Artistic Style,基石。
  • Artistic style transfer for videos,视频图像风格转换,使用光流稳定帧。
  • Perceptual Losses for Real-Time Style Transfer and Super-Resolution,6K+引用。提高性能。

然后介绍了StyleVision的管线架构:

项目地址:https://github.com/chrisuehlinger/stylevision,目前Star数不多。

3.2 Distractor-aware Siamese Networks for Visual Object Tracking——论文精读

https://shi-tech.blog.csdn.net/article/details/121617864

近年来,Siamese网络以其均衡的精度和速度在视觉跟踪领域引起了巨大关注。但大多数Siamese跟踪方法所使用的特征只能区分前景和非语义背景。语义背景一直被认为是干扰因素,阻碍了Siamese跟踪器的鲁棒性。本文提出了一种基于干扰感知的Siamese网络,用于精确的长时跟踪。通过分析传统Siamese跟踪器使用的特征,我们发现训练数据分布的不均匀导致学习的特征缺乏判别性。在离线训练阶段,引入一种有效的采样策略来控制分布,使模型专注于语义干扰。在推理过程中,设计了一种新的干扰感知模块进行增量学习,可以有效的将通用内嵌项迁移到当前视频域。此外,通过引入一种简单有效的由局部到全局搜索区域的策略,来扩展提出的长时跟踪方法。大量实验表明,我们的方法大大超过了SOTA方法,在VOT2016数据集和UAV20L数据集上的指标分别提高了9.6%和35.9%。本文提出的跟踪器在短时基准上可以达到160FPS,在长时基准上可以达到110FPS。代码地址 https://github.com/foolwood/DaSiamRPN.

4. 图形学

4.1 苹果AR头显明年登场!目标10亿部,搭Mac电脑级芯片

https://mp.weixin.qq.com/s/CW2cQiAi3J6J8OTHpqdPHA

报告称苹果将于2022年第四季度推出AR头显,将搭载性能媲美M1的“桌面级”芯片和索尼4K Mirco OLED显示屏,目标是在10年内取代iPhone,预计出货将超过10亿部。中国台湾科技企业欣兴电子将成为苹果AR头显芯片关键材料ABF(Ajinomoto Build-up Film)载板的重要供应商。
如果消息属实,那么也就是一年以后,我们将会看到这款苹果AR头显,号称可以完全取代手机或电脑。这无疑是低头族的福音,解放了头了手指,可以360度任何姿势刷新闻,刷视频,玩游戏等。而且伴随的肯定有三维创新应用,背后的生态也会慢慢建立。

SUPERBIN技术周刊第8期相关推荐

  1. SUPERBIN技术周刊第6期

    本技术周刊是以周为单位作为里程碑,记录一个程序员视角下的所见,所学,所想.兴趣领域包括:数学,算法,图形,图像,音视频,AI,游戏,软件开发技术,操作系统,开源,以及生活杂记等."不积跬步, ...

  2. 「运维之美」技术周刊 ( 第 5 期 )

    这里将分享一些最新运维相关技术和业界资讯的精彩内容,每周五发布. 欢迎投稿或推荐你自己的项目,投稿邮箱: editor@hi-linux.com .如果你对周刊有什么建议和意见,或者想与大家一起讨论技 ...

  3. PostgreSQL技术周刊第8期:用PostgreSQL 做实时高效搜索引擎

    PostgreSQL(简称PG)的开发者们: 云栖社区已有5000位PG开发者,发布了3000+PG文章(文章列表),沉淀了700+的PG精品问答(问答列表). PostgreSQL技术周刊将会为大家 ...

  4. PostgreSQL技术周刊第20期:PostgreSQL何以支持丰富的NoSQL特性?

    [点击订阅PostgreSQL技术周刊] PostgreSQL(简称PG)的开发者们: 云栖社区已有5000位PG开发者,发布了3000+PG文章(文章列表),沉淀了700+的PG精品问答(问答列表) ...

  5. 【聚划算 Android 技术周刊 第五期- 20160912】

    我们是聚划算无线Android团队,目前负责聚划算客户端.手淘天猫聚划算插件.淘抢购插件.俪人购客户端等,欢迎交流同时欢迎优秀的人才转岗或者加盟 --- G20过后,杭州的人气和天气又迅速恢复往常那样 ...

  6. 前端食堂技术周刊第 82 期:Vue3.3、Google I/O、CSS In 2023、Remix Conf 2023、Rollup 中文文档、React 中文文档

    By Midjournery 美味值:

  7. 前端食堂技术周刊第 53 期:React Router 6.4、VS Code August 2022、2022 Google 谷歌开发者大会、Meta 开源 MemLab、Vue.js 技术内幕

    美味值:

  8. 东航电商前端技术周刊第五期20180724

    今天我们将分享如下内容,希望能对小伙伴们有些许帮助: 1.通过改变类名渲染不同背景图的简洁写法: 2.项目中常会用到的点击弹出模态框禁止页面滑动: 3.axios post提交的Content-Typ ...

  9. 【码云周刊第 28 期】计算机视觉时代的识图技术

    为什么80%的码农都做不了架构师?>>>    Venture Scanner 追踪了全球957家人工智能公司,总融资额为48亿美金.其中,机器学习.自然语言处理.计算机视觉等认知技 ...

最新文章

  1. two years in cnblogs.com
  2. 华华和月月种树(牛客)
  3. 排序算法时间复杂度分析
  4. go context包的WithTimeout和WithCancel的使用
  5. Linux(Centos6.5)用户名密码
  6. fastbin attack攻击中关于 malloc__hook
  7. 借助树的概率dp(期望)+数学-好题-hdu-4035-Maze
  8. 国外管理学博士国内计算机博士,教育部认可的国外管理学博士
  9. SpringCloud入门之Maven系统安装及配置
  10. 马里兰大学calce电池循环测试数据集_锂电池极片:机械性能测试是门学问,要搞懂真不容易...
  11. TextView 在xml 中设置图片大小
  12. LaTeX制作表格---学习笔记
  13. 移动智能终端PIN码破解
  14. 压力测试-Jmeter脚本录制方案
  15. 怀孕后可使用计算机吗,怀孕可以用电脑工作吗?使用须适当
  16. 【法规】投标申请人资格预审须知-刘俊平
  17. JavaScript中递归函数
  18. 求1!+2!+3!+.......20!
  19. php正则匹配中文、汉字
  20. [分享]在线的代码片段测试工具 jsbin

热门文章

  1. 问题 G: 似魔鬼的步伐
  2. 网页重构应该避免的10大 CSS 糟糕用法
  3. net2.0服务器应用程序不可用问题解决
  4. android桌面文件夹美化
  5. 毛哥的快乐生活(10) 深藏不漏的美工妹子
  6. 2020考研大纲词汇TXT版本5500
  7. Cs6/7笔记01、计算机基础
  8. 分享136个HTML公司企业模板,总有一款适合您
  9. 渗透测试-木马免杀的几种方式
  10. 行驶车辆状态估计,无迹卡尔曼滤波,扩展卡尔曼滤波(EKF UKF)