抖音视频推荐功能

如何理解谷歌运行机制,可能一下子大家无法理解。我们可以用我们身边能接触到的去试着理解以下。通俗易懂的话来说就是我们经常接触的抖音。如果你经常刷情感剧,就会给你推荐此类电视片段。如果你沉迷爱情,就天天推送爱情是神圣的伟大的。但是你浏览习惯是一会儿关注搞笑段子,一会关注育儿,考证,跨度很大的时候,最近视频推荐的就会很乱。

以上现象的原理是,我们每天在软件上的行为都被抖音贴上标签,时刻随着我们的喜好变化,但是在一段时间我们的生活起伏,心态比较乱,或者是同一个观看手机视频的人换人了,亦或许我们新买的一个手机安装的抖音。推送的视频就显得乱七八糟了,需要我们去看,后台会收集共同点,人物特征,喜好;针对性的推荐视频。

谷歌搜索引擎机制原理

它们的原理一样,所以我们在账户上线早期,数据不稳定是正常现象,要有耐心等着让量变发生质变,前期用尽可能多的优质点击去吸引到最相关的用途。后期模型稳固,生意通畅。这个机器学习过程不是人为控制,我们不能决定出效果的快慢,但是可以用正确的做法去驱动机器运营,做正确的事情,其他的交给天意。正常跑流量情况下一个月到三个月都会有效果。但是不按正确模式执行周期会延长到一年,二年或者更久。当然也有一周,两周显著效果马上就出现的。因为控制得当。有一些比较特殊的情况是本公司的产品词市场上没人进行搜索,搜索量不足,模型是无法跑成功的,周期会无限拉长。

以下几种情况大家应该会经常遇到:

最近询盘质量跟以前比有些下降,为什么呢?

①、因为随着点击广告的人增多,更多的用户人群新的特征加入数据库,数据在不断学习和优化的一个状态,是动态的。

②、最近账户因为费用暂停,运行暂停,重新启用,又进入了一个学习状态,所以充值前和充值后,效果可能大打折扣。

③、因为公司业务方向调整,加了很多不是相关的词,范围太广。机器无法判断你的目标。

④、最近加了大批量的排除账户字词,也就是否定字词几千,上万的填充。改变机器运营方向。

⑤、我们是做B2B生意的,最近的流量怎么都是零售的。遇到这种情况一定要及时和运营人员沟通,数据集偏移,需要调整账户,再次进入账户学习阶段,命令机器重新梳理数据。

听起来是不是很复杂,而且数据方向无法控制。并不是的其实数据模型前期跑的足够优质,各方面细节把控得当。询盘稳定,单个点击价格和单个获取询盘价格是不断可以降低的。

技术层面的理解机器学习工作流程

1.获取数据

对原始数据进行收集,也就意味着是一个谷歌账户sem的开始。前期跑流量,尽可能更多的点击,去收集用户在网站上的行为特征。我们每个所消费的搜索字词造成的点击,都是一次用户行为的记录。前期搜索词选的越准,为后期的机器学习模型打下良好的数据收集基础,账户后期越稳定,也更容易形成模型闭环,流量越精准,询盘更优质。

2.数据基本处理

即对数据进行缺失值、去除异常值等处理。数据预处理是数据分析和数据运营过程中的重要环节,它直接决定了后期所有数据工作的质量和价值输出。

  • 数据清洗

  • 数据转换

  • 数据抽样

把一个账户我们所有收集到的用户搜索字词,进行数据分析拆解。利用大数据分析搜索这个词的背后用户行为特征,一个账户所有词的共同点,包括行业是否一致,产品属性是否一致。越纯净越好,如果数据量庞大,什么产品都有,数据处理的时间周期会增长,单个点击和单个询盘的价格迟迟降不下来。还有可能因为机器学习模型需要不断学习处理,造成账户动荡,询盘不稳。

3.特征工程

特征工程是使用专业背景知识和技巧处理数据使得特征能在机器学习算法上发挥更好的作用的过程。它的意义:会直接影响机器学习的效果。

业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

特征工程包含内容:

  • 特征提取
  • 特征预处理
  • 特征降维

我们前期如果投放的产品词范围太大,太宽泛。打个比方:一个网站如果是做电缆的,电缆有工程项目用线、机器用线、汽车上用线、光伏行业用线,电线的种类繁多,如果都集中到一个点的话,反而适得其反。我们要做的就是工业线,光伏线,电力线和充电桩电缆等等几个不同的大类不要放在同一个网站上,因为受众群体群庞大,每个产品有不同的特性,流量发展趋势不稳定。数据模型跑的持久,一直无法形成闭环。单个询盘价格始终无法降下来。而且流量质量浮动,效果无法保持平稳上升。

4.机器学习(模型训练)

机器学习是从数据自动分析获得模型,并利用模型对未知数据进行预测。

机器学习一般的数据集会划分为两个部分:

  • 训练数据:用于训练,构建模型
  • 测试数据:在模型检验时使用,用于评估模型是否有效

训练模型测试数据;是因为我们的这个后台谷歌机器学习系统是一个不断获取新词的过程,就是在我们投放过程中,每天都会有新的关键字被点击。这个是数据积累的过程。新添加进来的每个词都是要重新训练的,所以随着数据量的增多,这个机器模型在不断地学习加固,数据越纯净,后期的模型跑的越好,询盘质量就越高。反之、如果期间新上线的产品与之前的没有任何关系,相差很大,就会造成机器模型动荡,询盘不准,大大下降的状态。或者是新上的产品有一点点关系,这个模型训练的周期会无限拉长,而且询盘不稳,时好时坏,时多时少,价格迟迟下不来。

5.模型评估

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。我们谷歌的机器算法是最严谨的,大数据也做得相当到位。

比如,逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,可以应用在广告点击率上。

我们可以把模型比作一个球,如果数据集越集中,这个具有共同点的球,会越来越大,而且很坚实。反之很蓬松,一动就开。基础不牢,地动山摇。数据的最佳模型决定将来工作的性能如何。前期我们所选目标准确,账户整体各方面细节问题控制得当,询盘暴涨只是时间问题,我们每天只需要投入少部分预算,就可以获得很大的投资回报比。但是前期数据积累阶段,切记不要着急,频繁破坏机器学习模型进度。

谷歌机器学习经常遇到的问题:

  • 欠拟合

    • 学习到的东西太少
    • 模型学习的太过粗糙
  • 过拟合
    • 学习到的东西太多
    • 学习到的特征多,不好泛化

一般我们上线的账户会经常遇到正在学习状态:我们的账户有学习的目标,设置好目标,然后通过学习达到这个目标。前期账户切记勿着急,经常调整反而离我们的目标背道而驰。

谷歌搜索引擎机器学习原理理解相关推荐

  1. 搜索引擎工作原理笔记

    搜索引擎的工作过程大体可以分为三个阶段: 1.对网页进行抓取建库 搜索引擎蜘蛛通过抓取页面上的链接访问其他网页,将获得的HTML代码存入数据库 2.预处理 索引程序对抓取来的页面数据进行文字提取.中文 ...

  2. 干货丨谷歌最新机器学习术语表

    作者:思颖     来源:雷锋网 日前,谷歌发布机器学习术语表,以下术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义. A A/B 测试 (A/B testing) 一种统计方 ...

  3. 强化学习ppt_机器学习原理、算法与应用配套PPT第四部分(深度学习概论、自动编码器、强化学习、聚类算法、半监督学习等)...

    本文是SIGAI公众号文章作者雷明编写的<机器学习>课程新版PPT第四部分,包含了课程内容的深度学习概论,自动编码器,受限玻尔兹曼机,聚类算法1,聚类算法2,聚类算法3,半监督学习,强化学 ...

  4. 谷歌开发者机器学习词汇表:纵览机器学习基本词汇与概念

    选自Google Developers 机器之心编译 机器之心曾开放过人工智能术语集 ,该术语库项目目前收集了人工智能领域 700 多个专业术语,但仍需要与各位读者共同完善与修正.本文编译自谷歌开发者 ...

  5. 谷歌开源机器学习可视化工具 Facets:从全新角度观察数据

    谷歌开源机器学习可视化工具 Facets:从全新角度观察数据 By 黄小天2017年7月18日 10:51 近日,出于支持 PAIR initiative的目的,谷歌发布了 Facets,一款开源的可 ...

  6. php关键词分词搜索 最多匹配的排在最前面_百度搜索引擎工作原理,做Seo的建议看一看 - 蜘蛛池博客...

    原出处:蜘蛛池博客 原文链接:百度搜索引擎工作原理,做Seo的建议看一看 - 蜘蛛池博客 从事SEO(搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家,作为一名合格称职的管家必须要了解所服务对象的习 ...

  7. [机器学习-原理篇]学习之线性回归、岭回归、Lasso回归

    线性回归.岭回归.Lasso回归 前言 一,线性回归--最小二乘 二,Lasso回归 三,岭回归 四, Lasso回归和岭回归的同和异 五, 为什么 lasso 更容易使部分权重变为 0 而 ridg ...

  8. 集成学习——NGBoost论文研读与原理理解

    NGBoost(Natural Gradient Boosting)是一个比较新的Boosting方法,它是2019年10月斯坦福吴恩达团队在arXiv上发表的,论文连接为:NGBoost: Natu ...

  9. [网站建设] 深度解析搜索引擎的原理结构

    搜索引擎(searchengine)也可以说是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.搜索引擎包括 ...

  10. 谷歌大规模机器学习:模型训练、特征工程和算法选择 (32PPT下载)

    本文转自:http://mp.weixin.qq.com/s/Xe3g2OSkE3BpIC2wdt5J-A 谷歌大规模机器学习:模型训练.特征工程和算法选择 (32PPT下载) 2017-01-26  ...

最新文章

  1. 底板芯片组与内存映射(Motherboard Chipsets and the Memory Map) 【转】
  2. 关于“INS-40922 Invalid Scan Name – Unresolvable to IP address”
  3. linux系统判断是否重启、关机、查询登录诊断分析简介
  4. 动图演示23个鲜为人知的VSCode快捷键
  5. CF1473E Minimum Path(拆点+最短路)
  6. 【视觉项目】【day5】8.25号实验记录(修完BUG,28张测试图,13个样本,四张测试图误判,这比之前效果好很多了)
  7. 榴莲肉多到流出来!引爆全国吃货的榴莲千层终于杀到来!100%好评
  8. CentOs基础操作指令(进程管理)
  9. c语言学习-从键盘输入10个字符,按照字典顺序将其排序输出(二维字符数组)
  10. linux读取 dev tty0,linux命令: ls命令
  11. 无法在VMware Player中安装64位系统
  12. VMwear安装Centos7超详细过程
  13. vscode remote 离线环境搭建
  14. 西南科技大学OJ题 交换二叉树的孩子结点1105
  15. logistic回归分析优点_一文详尽系列之逻辑回归
  16. 让你的工作变轻松的一套免费的 iPhone 手势图标
  17. Java入门 二维数组、一维数组、多维数组的解析(第十三天)
  18. python编程练习--跑马灯
  19. 三方协议的服务器,电子口岸电子支付签定三方协议是怎么操作的
  20. 多位数的各位数数字提取方法

热门文章

  1. http-server介绍及使用
  2. yum install安装时 提示“Another app is currently holding the yum lock; waiting for it to exit...”原因和解决
  3. 视频教程-区块链技术通俗讲解-区块链
  4. FusionSphere 物理CPU与VCPU的关系梳理总结
  5. ssh远程登录阿里云服务器
  6. 实现图像批量重命名处理方法(mat文件、matlab简单程序等方法)
  7. 运维服务级别管理流程
  8. SQLMAP简易使用教程
  9. 进计算机本地安全策略的命令,Win10还原本地安全策略和使用命令行重置组策略方法...
  10. 计算机无本地安全策略,如何打开本地安全策略、如何解决“未授予用户在此计算机上的请求登录类型”...