认知计算导论笔记——江湖救急版


特别感谢 W&J dalao的支持!以下部分图片源自教师课件,仅供学习交流使用,侵权致删!


Lecture 1 - What is Cognitive Computing

  1. 什么是AI?(Rational)

    Thinking humanly 、Acting humanly 、Thinking rationally 、Acting rationally

    (人性化思考,人性化行动,理性思考,理性行动)

  2. Thinking humanly: Cognitive Science

    (模拟人)

  3. 重点是Thinking rationally

  4. rational agent : is one that acts so as to achieve the best outcome or, when there is uncertainty, the best expected outcome.

    (理性主体是指为了达到最佳结果而采取行动的主体,或者在存在不确定性时,达到最佳预期结果的主体。)

  5. Potted History of Cognitive Science(认知科学史)

    1973年前后:行为主义

    20世纪初:格式塔理论

    1967年前后:认知心理学(信息处理)

  6. 认知计算的目的认知计算的目标之一是使计算机能够像人类一样学习、思考并做出正确的决定:

    方法1(狭义):认知计算寻求一种以脑神经学为基础,符合当今计算机科学的软硬件组件。它被用来模拟诸如感知、记忆、语言、智力和意识等心理过程

    方法2(广义):认知计算代表了一种新的计算模型,它包含了信息分析、自然语言处理(NLR)和机器学习(NL)等领域的大量技术创新,可以帮助决策者从大量数据中揭示非凡的见解非组织性数据


Lecture 2 - Cognitive Data Collecting

  1. Source of the Data(数据来源):

    Physical world: The Internet of Things provides a large amount of data. (物理世界:物联网提供了大量的数据。)

    Virtual world: social network and mobile computing. (虚拟世界:社交网络和移动计算。)

    Crowd-Sensing: Unconscious collection and transmission of data by large group of people through mobile devices.(群智感应:通过移动设备,大量人群无意识地收集和传输数据。)

  2. Cognitive data vs Traditional data (认知数据VS传统数据)

    传统数据: Minimized data content and structural redundancy. (最小化数据内容和结构冗余)RDBMS(关系数据库管理系统)

    认知数据: Environmental data detected and collected by sensors. (传感器检测和收集的环境数据。)Internet social data. (互联网社交数据)Physiological data collected by wearable devices(可穿戴设备收集的生理数据)

    Cognitive data is completely different from traditional data, and its processing level exceeds the processing capacity of relational databases. (认知数据与传统数据完全不同,其处理水平超过了关系数据库的处理能力)

    The role of the cognitive system is to interpret the meaning of the data, improve its implied cognitive intelligence and transform it into human-readable form.(认知系统的作用是解释数据的含义,提高其隐含的认知智能,并将其转换为人类可读的形式)

  3. Characteristics of Cognitive Data(认知数据的特征)

    I Volume I Velocity I Variety I Veracity I Value

    体量:数据量大,非结构化数据的超大规模和增长。

    速度:实时分析而非批量式分析;数据输入、处理与丢弃立竿见影而非事后生效。

    多样性:大数据的异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义。

    真实性:得到的数据是否为真实的、是否存在作假现象。

    价值:对于需求是否有用,海量数据中只有少数数据对需求有帮助。

  4. Structured Data vs Unstructured Data (结构化数据与非结构化数据)

    Structured data :I has a pre-de ned length and format. I Metadata, views and vocabulary are clear I For example: relational database, sensor, meter data

    (结构化数据:具有预先定义的长度和格式。元数据、视图和词汇都很清楚,例如:关系数据库、传感器、仪表数据)

    Unstructured data/semi-structured: I No speci c format or semantics I Semantics need to be further extracted through NLP I Not transactional I For example: documents, magazines, satellite images, radar, sound, etc .

    (非结构化数据/半结构化:没有特定的格式或语义、语义需要通过NLP进一步提取、非交易性、例如:文件、杂志、卫星图像、雷达、声音等。)

    Common storage methods for unstructured data :I KV database: Riak I Document database: MongoDB, CouchDB, Cassandra I Column database: Hbase I Graph database: Neo4J I Spatial database: Often used to store GPS data I PostGIS/OpenCEO database: 3D modeling and analysis of sensor data

    非结构化数据的常用存储方法:

    KV数据库:Riak

    文档数据库:MongoDB、CouchDB、Cassandra

    列数据库:Hbase

    图形数据库:Neo4J

    空间数据库:通常用于存储GPS数据

    PostGIS/OpenCEO数据库:传感器数据的三维建模与分析

  5. Cognitive data collection and preprocessing:(认知数据采集与预处理)

    Data sources: Log, Sensor, Web Crawler

    Data storage: I Distributed File System I Distributed database

    Data cleaning: I The format, completeness, reasonableness, and restraint of the data will be checked

    Data integration: Integrate data from different sources to provide a unified view

    数据来源:日志、传感器、网络爬虫

    数据存储:分布式文件系统、分布式数据库

    数据清理:检查数据的格式、完整性、合理性和约束性

    数据集成:整合不同来源的数据以提供统一的视图

  6. IoT Cognition(物联网认知)

    The ultimate objective the IOT is to integrate real world with the digital world (物联网的最终目标是将现实世界与数字世界结合起来)

    I The range of network will get extremely large 网络的范围将会非常大

    I The mobility of network will grow rapidly 网络的移动性将迅速增长

    I Integration of heterogeneous network will witness a growing development 异构网络集成将不断发展

  7. IoT Sensing Techniques(物联网传感技术)

    I RFID I Sensor/Wireless Sensor/Sensor Network I GPS

    射频识别|传感器/无线传感器/传感器网络|全球定位系统

  8. IoT Application Framework (物联网应用框架)

    I WSN: Sensor network/ Wireless Sensor Network I M2M: Machine to Machine I BAN: Body Area Network I CPS: Cyber-Physical System

    WSN:传感器网络/无线传感器网络

    M2M:机器对机器

    BAN:身体区域网络

    CPS:网络物理系统

  9. What is Crowd-Sensing(什么是群智感知?)

    移动设备越来越多地出现在人们身边。移动电话、平板电脑、可穿戴设备。随着传感器的不断增多,便携式设备具有强大的计算和感知能力,在用户集群中形成了大规模、密集的移动感知网络。传感器网络使用移动设备传感器获取数据,然后使用移动互联网进行协作。最后,形成人群感知网络。

    I Participatory sensing I Social sensing I Crowdsourcing

    参与式感知

    社会感知

    众包

  10. The Origin of Crowd-Sensing(群智感知的起源)

    I Sensor technology I Intelligent mobile phone I App store I Cloud platform

    传感器技术

    智能手机

    应用商店

    云平台


Lecture 3 - Cognitive Computing with Cloud Computing

  1. Cognitive Computing with Cloud Computing(面向认知计算的编程工具)

    Hadoop: Distributed Processes、Fault Tolerance、Reliability、High Availability、Scalability

    分布式进程、容错性、可靠性、高可用性、可伸缩性

  2. HDFS分布式文件系统:HDFS是一个分布式文件系统,具有容错性、可扩展性和极易扩展性

  3. MapReduce Introduction: Map(映射)——Reduce(归约)

    灵活性差;所有中间计算结果都要放到文件中,io操作高

  4. Hadoop:基于磁盘

    Spark(Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎):基于内存

  5. RDD (Resilient Distributed Datasets 弹性分布式数据集):

    Similar to a relational database:可以处理结构化数据,Hadoop也可以

  6. Directed Acyclic Graphs (DAG)(有向无环图):

    I nodes are RDDs I arrows are Transformations

    节点是RDD

    箭头是变换

    优化执行过程

  7. Spark Operation:

    先执行 Actions :I The final stage of the workflow I Triggers the execution of the DAG I Returns the results to the driver I Or writes the data to HDFS or to a le I reduce, collect, count, fi rst, take, takeSample, saveAsTextFile, saveAsSequenceFile, countBy, foreach

    后执行 Transformations :I create a new RDD I map, filter, flatMap , mapPartitions, mapPartitionsWithSPlit, sample, union, distinct, groupByKey, reduceByKey, sortByKey, join, cogroup, cartesian

  8. Characteristics of Cloud Computing(云计算的特点):

    I Flexibility and Self-Service Provisioning

    I Expansibility

    I Distributed Computing Model

    灵活性和自助服务供应

    可扩展性

    分布式计算模型

  9. Development Models of Cloud Computing
    Deployment models de ne the type of access to the cloud, i.e., how the cloud is located? Cloud can have any of the four types of access: Public, Private, Hybrid and Community.

    I Public Cloud: The public cloud allows systems and services to be easily accessible to the general public. Public cloud may be less secure because of its openness, i,e., e-mail.

    I Private Cloud: The private cloud allows systems and services to be accessible within an organization. It others increases security because of its private nature.

    I Community Cloud: The community cloud allows systems and services to be accessible by group of organizations.

    I Hybrid Cloud: The hybrid cloud is mixture of public and private cloud. However, the critical activities are performed using private cloud while the non-critical activities are performed using public cloud.

  10. Service Models of Cloud Computing 云计算服务模型:

    I IaaS: Infrastructure as Service

    I PaaS: Platform as a Service

    I Saas: Software as a Service

    laaS:基础设施即服务

    PaaS:平台即服务

    Saas:软件即服务

  11. laaS:基础设施即服务

    laaS是将技术基础设施作为随需应变的可伸缩服务交付

    laaS提供对物理机、虚拟机、虚拟存储等基本资源的访问

    按使用量计费

    多租户虚拟化环境可与托管服务耦合,以支持操作系统和应用程序。

  12. PaaS:平台即服务

    PaaS为应用程序、开发和部署工具等提供运行时环境。

    PaaS提供了支持构建和交付web的完整生命周期所需的所有设施。

    通常,应用程序的开发必须考虑到特定的平台多租户环境。

    高度可伸缩的多层架构。

  13. Saas:软件即服务

    SaaS模型允许将软件应用程序作为服务提供给最终用户

    SaaS是一种软件交付方法,它提供对软件及其功能的许可多租户远程访问,作为基于web的服务

    通常根据使用量计费

    通常是多租户环境高度可伸缩的架构

  14. MapReduce的介绍:

    MapReduce [OSDI’04]提供自动并行化,分布

    ​ IO调度:负载平衡;网络和数据传输优化

    ​ 容错:机器故障处理

    需要更多能量:向外扩展,而不是向上!

    ​ 大量的商用服务器,而不是一些高端专用服务器

  15. MapReduce解决的典型问题:

    阅读大量数据

    映射:从每个记录中提取您所关心的内容

    洗牌和排序(Shuffle and Sort )

    Reduce:聚合、汇总、过滤或转换

    Write the results

  16. Map Reduce Paradigm:

  1. Map-Reduce的缺点:


Lecture 4 - Cognitive Computing with Machine Learning

  1. Supervised Learning 监督学习:有标签 I Regression回归 I Classification分类
  2. Unsupervised Learning 无监督学习:无标签:I Clustering 聚类 I Dimensionality Reduction 降维I Collaborative Filtering推荐 I Hidden Markov models 隐马尔可夫模型
  3. Semi-Supervised Learning 半监督:I Self-Training自我训练 I Transductive Learning直推学习 I Semi-Supervised Learning 半监督学习
  4. Reinforcement Learning强化学习
  5. 半监督学习和直推式:直推式不产生模型

Lecture 5 - Linear regression with one variable Model representa6on’

  1. J(θ)取最小,误差最小

  2. α为学习率:如果太小,梯度下降可能会很慢;如果太大,梯度下降会超过最小值。不收敛,甚至不发散

  3. 迭代次数增加,cost function减小

    **
    **

  4. 学习率过大时:

    **
    **

  5. 学习率大(图中有错)时:

    **
    **

  6. 不收敛时,使用较小的学习率:

    **
    **

  7. 总结:如果α太小:收敛缓慢。如果α太大:J(可能不会在每次迭代中减小;可能不收敛。

  8. 方差JCV、偏差JTrain:

    **
    **

    左边都大,为欠拟合;右边为过拟合

  9. 惩罚因子:

    Large λ High bias (underfit)

    **
    **

    Intermediate λ Just right

    **
    **

    Small λ High variance(Overfit)

  10. λ惩罚力度越大,模型越简单

  11. λ很小时,JCV>JTrain,过拟合

    λ很大时,JCV<JTrain,欠拟合

  12. 如果一个学习算法有很高的偏差,获得更多的训练数据本身不会帮助很多。

  13. 如果学习算法的方差很大,那么获得更多的训练数据可能会有所帮助。

  14. 建议:从一个可以快速实现的简单算法开始。实现它并在交叉验证数据上测试它。绘制学习曲线,以决定更多数据、更多功能等是否有帮助。错误分析:手动检查算法出错的例子(交叉验证集)。看看你是否发现了它出错的系统趋势。

  15. 三步走:第一步是假设或预测,就是先得出个模型比如线性回归,然后第二步是看损失函数(也就是对看预测的准不准)第三步是进行优化比如梯度下降啥的,加正则项


Lecture 6 - Machine Learning Algorithm Introduction

  1. Type of Clustering Method(聚类方法的分类): Hierarchical algorithms: Seek to build a hierarchy of clusters. Strategies for hierarchical clustering generally fall into two types.

    I Agglomerative (“Bottom-Up”, “Hard Clustering”) I Divisive (“Top-Down”, “Hard Clustering”)

    层次算法:寻求建立集群的层次结构。

    ​ 凝聚性(“自下而上”、“硬凝聚”)

    ​ 分裂性(“自上而下”,“硬集群”)

    分区集群:一次性确定所有集群

    ​ k - means(硬聚类)

    ​ 高斯混合聚类(软聚类)

  2. Distance Measures:降维、PCA算法、正则、Lasso算法、线性回归、自编码器

  3. K-means:初始条件、怎样迭代、怎样停止

  4. Map-Reduce & K-means:

    map:算距离

    reduce:汇聚到一起


Lecture 7 - Arti cial Neural Network Introduction

1.

  1. OR:


Lecture 8 - Introduction to

Convolutional Neural Networks

1.


Lecture 9 - Transformer

  1. 我们再把逐渐展开,发现编码组件是由多个编码器叠加而成的,解码组件由多个解码器组成。

    并且编码组件中只有最顶层的编码器与解码组件相连接。

    编码组件中的这些编码器都是同样的结构,我们接下来把编码器的结构展开[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  2. 这里我们有一个输入序列 x1到x3,首先通过一个embedding变成a1到a3,然后要把它丢进self-attention里。

    在self-attention里,每一个input,我们都乘上三个不同的权重矩阵产生q,k,v向量

    可能这里大家会有疑问,这个Q,K, V到底有什么意义?

    论文原文里面作者没有解释这个疑问,我下面介绍一种观点

    Query Key Value的概念取自于信息检索系统。举个简单的搜索的例子来说,当你在某电商平台搜索某件商品时,你在搜索引擎上输入的内容便是Query,然后搜索引擎根据Query为你匹配Key(例如商品的种类,颜色,描述等),然后根据Query和Key的相似度得到匹配的内容(Value)。

    Self-attention中的QKV也起了类似的作用,在矩阵计算中,点击是计算两个矩阵相似度的方法之一,因此使用QK的点积进行相似度计算。接着根据相似度进行输出的匹配。


认知计算导论笔记——江湖救急版相关推荐

  1. 人工智能导论笔记——江湖救急版

    人工智能导论笔记--江湖救急版 Powered by DZY 以下部分图片来源于老师课件,仅供学习交流使用,侵权致删! 一.绪论 感觉并无考点,列出提纲 人工智能的基本概念 人工智能的发展简史 人工智 ...

  2. 软件质量保证与测试笔记——江湖救急版

    软件质量保证与测试笔记--江湖救急版 Powered by DZY 以下部分图片来源于老师课件,仅供学习交流使用,侵权致删! Ch1 软件质量与测试概念 软件质量的定义 软件质量是"反映实体 ...

  3. 认知计算导论自救版笔记

    认知计算导论 认知数据收集 认知cognitive数据 1.定义 认知物联网IoT:认知系统和互联网组合 认知数据来源:物理世界(互联网提供大量数据).虚拟世界(社交网络和移动计算) 人群感知Crow ...

  4. Cognitive Computing :东北大学认知计算导论RNN与LSTM简单的上课手写笔记

  5. 西电认知计算复习笔记

    整理不周到之处请指正! 祝学业进步!

  6. 机器人导论(第四版)学习笔记——第二章

    机器人学导论(第四版)学习笔记--第二章 2. 空间描述和变换 2.1 引言 2.2 描述:位置.姿态与位姿 2.3 映射:从一个坐标系到另一个坐标系的变换 2.4 算子:平行,旋转和变换 2.5 总 ...

  7. 机器人导论(第四版)学习笔记——第四章

    机器人导论(第四版)学习笔记--第四章 4.1 引言 4.2 解的存在性 4.3 当n<6时操作臂子空间的描述 4.4 代数解法和几何解法 4.5 简化成多项式的代数解法 4.6 三轴相交的Pi ...

  8. 机器人导论(第四版)学习笔记——第一章

    机器人学导论(第四版)学习笔记--第一章 1. 概述 1.1 背景 1.2 操作臂力学和控制 1.3 符号 1. 概述 1.1 背景 工业自动化的发展带来了工业机器人的高速发展.本书聚焦机械臂的力学和 ...

  9. 机器人导论(第四版)学习笔记——第三章

    机器人导论(第四版)学习笔记--第三章 3 操作臂运动学 3.1 引言 3.2 连杆的描述 3.3 连杆连接的描述 3.4 连杆坐标系的定义 3.5 操作臂运动学 3.6 驱动空间.关节空间和笛卡尔空 ...

最新文章

  1. mysql-python 安装错误: Cannot open include file: 'config-win.h': No such file or directory
  2. 试题以文件的形式存在C语言,2016年计算机二级C语言上机题库
  3. github是什么?
  4. VTK:图像平面小部件用法实战
  5. HDU-水饺基情 二维树状数组
  6. 蓝桥杯基础模块8_1:串口通信收发
  7. 小技巧 ----- 枚举整数的每一位数字
  8. java矩阵连乘算法_矩阵连乘(java实现)
  9. Sklearn聚类算法之meanshift
  10. AD20笔记-PCB设计
  11. 高中生如何结合生物思维导图做好知识点整理?
  12. api数据接口文档_接口文档示例(Taobao/jd/pinduoduo/开放接口调用)
  13. iPhone的2D/3D游戏引擎
  14. Python按特定字符分列
  15. matlab 在2k屏幕,如何将4k显示器的分辨率调整为2k,并将2k分辨率用于4k显示器
  16. 查找OpenJDK安装路径
  17. 中考计算机试题ppt判断,2015中考信息技术试题PPT操作题2-26(终)
  18. Java程序员学Golang
  19. 仿QQ空间的评论编辑器实现
  20. 含鼠标开源免费截图小软件Greenshot推荐

热门文章

  1. 2020年最新字节、阿里、腾讯
  2. 搜狗网如何介绍软件测试,搜狗测试五六年:思维模式
  3. 1015 : 二次方程的实根
  4. 计算机网络 --- IP
  5. SAP咨询顾问如何掌握核心技术?
  6. 注入(4)--消息钩子注入(SetWindowsHookEX)
  7. Power BI — 形状地图制作
  8. Spark SQL/DSL
  9. java毕业设计贴吧管理系统mybatis+源码+调试部署+系统+数据库+lw
  10. cometoj——C1100 [Contest #8]支援城市