jquery数据折叠

Sometimes your dataset is just too large, and you need a way to shrink it down to a reasonable size. I am suffering through this right now as I work on different machine learning techniques for checkers. I could work for over 18 years and buy over 10 petabytes of data to solve it, but I would rather just give up on some of the quality of the solution, get a program that can play checkers well, and use fewer resources in the process.

有时您的数据集过大,您需要一种将其缩小到合理大小的方法。 当我为跳棋员开发不同的机器学习技术时,我现在正遭受这种痛苦。 我可以工作18年以上,并购买超过10 PB的数据来解决它 ,但是我宁愿放弃一些解决方案的质量,获得一个可以很好地运行检查程序并在此过程中使用更少资源的程序。

One technique you can use is called bit folding. This technique is similar to hashing in that the function is one way and it can produce the same result for multiple inputs. This latter phenomenon is known as collision. While collision has a bad connotation when hashing, we need collision in order for this to work for data shrinking.

您可以使用的一种技术称为位折叠。 该技术类似于哈希,因为函数是一种方式,并且可以为多个输入产生相同的结果。 后一种现象称为碰撞。 尽管在散列时冲突具有不好的含义,但我们需要冲突才能使其在数据收缩时起作用。

When folding bits, you start with your data in binary form. Then, you start folding the bits into one another, losing half of the information that you had in the two bits. How do you combine the bits? When you start with bits A and B, you may choose one of the seven operations shown in Table 1 to condense the information.

折叠位时,您将从二进制格式的数据开始。 然后,您开始将位相互折叠,从而丢失了两位中一半的信息。 您如何组合位? 当您从位A和B开始时,可​​以选择表1所示的七个操作之一来压缩信息。

Table 1
表格1

Upon first observation, one may notice several combinations missing. First, outputs of all zeros and all ones are not present. This result would zeroize the information, not condense it. We do not want to remove all of the information in the input bits; we just want to shrink the information. Second, we omit all of the inverses of these outputs because inverses convey the same information as one another.

首次观察时,可能会注意到缺少几种组合。 首先,不存在全零和全零的输出。 该结果将使信息归零,而不是压缩信息。 我们不想删除输入位中的所有信息。 我们只想缩小信息范围。 其次,我们忽略了这些输出的所有反函数,因为反函数相互传递相同的信息。

I wrote a short Python script that you can use to fold your bits. The first function is gen_param(size). This function generates random parameters for bit folding given the size of the input data that you want to fold. It returns two lists. The first list maps which bits to fold into which other bits, and the second gives the operations that you will use for each fold. We generate random parameters because the data is already too large, so you just need random fold parameters to help you shrink the data. Once you shrink the data and test it, you can compare randomly generated parameters to one another for improved performance. The second function, fold(value, new_size, mapping, ops), takes your parameters and returns your value folded into the size new_size.

我写了一个简短的Python脚本,您可以用它折叠位。 第一个函数是gen_param(size)。 给定您要折叠的输入数据的大小,此函数将为位折叠生成随机参数。 它返回两个列表。 第一个列表将要折叠的位映射为其他位,第二个列表给出了每次折叠将使用的操作。 我们生成随机参数是因为数据已经太大,因此您只需要随机折叠参数即可帮助您缩小数据。 收缩数据并对其进行测试后,可以将随机生成的参数相互比较以提高性能。 第二个函数fold(value,new_size,mapping,ops),获取您的参数并返回折叠为new_size大小的值。

If your dataset is too large and you are looking for ways to shrink the data, try out my program. I use comparison testing between two sets of parameters to find the better one and improve my algorithms. With data sets that are too large, bit folding gives you speed and wieldy data sizes in exchange for precision.

如果您的数据集太大,并且您正在寻找缩小数据的方法,请尝试我的程序。 我使用两组参数之间的比较测试来找到更好的参数并改进算法。 对于过大的数据集,位折叠可为您提供速度快而复杂的数据大小,以换取精度。

翻译自: https://medium.com/swlh/shrinking-big-data-with-bit-folding-4ea0aa6a055d

jquery数据折叠


http://www.taodudu.cc/news/show-994943.html

相关文章:

  • 决策树信息熵计算_决策树熵|熵计算
  • 流式数据分析_流式大数据分析
  • 数据科学还是计算机科学_数据科学101
  • js有默认参数的函数加参数_函数参数:默认,关键字和任意
  • 相似邻里算法_纽约市-邻里之战
  • 数据透视表和数据交叉表_数据透视表的数据提取
  • 图像处理傅里叶变换图像变化_傅里叶变换和图像床单视图。
  • 滞后分析rstudio_使用RStudio进行A / B测试分析
  • unity3d 可视化编程_R编程系列:R中的3D可视化
  • python 数据科学 包_什么时候应该使用哪个Python数据科学软件包?
  • 熊猫tv新功能介绍_您应该知道的4种熊猫绘图功能
  • vs显示堆栈数据分析_什么是“数据分析堆栈”?
  • 广告投手_测量投手隐藏自己的音高的程度
  • python bokeh_提升视觉效果:使用Python和Bokeh制作交互式地图
  • nosql_探索NoSQL系列
  • python中api_通过Python中的API查找相关的工作技能
  • 欺诈行为识别_使用R(编程)识别欺诈性的招聘广告
  • nlp gpt论文_GPT-3:NLP镇的最新动态
  • 基于plotly数据可视化_[Plotly + Datashader]可视化大型地理空间数据集
  • 划痕实验 迁移面积自动统计_从Jupyter迁移到合作实验室
  • 数据开放 数据集_除开放式清洗之外:叙述是开放数据门户的未来吗?
  • 它们是什么以及为什么我们不需要它们
  • 机器学习 啤酒数据集_啤酒数据集上的神经网络
  • nasa数据库cm1数据集_获取下一个地理项目的NASA数据
  • r语言处理数据集编码_在强调编码语言或工具之前,请学习这3个基本数据概念
  • 数据迁移测试_自动化数据迁移测试
  • 使用TensorFlow概率预测航空乘客人数
  • 程序员 sql面试_非程序员SQL使用指南
  • r a/b 测试_R中的A / B测试
  • 工作10年厌倦写代码_厌倦了数据质量讨论?

jquery数据折叠_通过位折叠缩小大数据相关推荐

  1. sqoop数据倾斜_北京卓越讯通大数据岗位面试题分享

    北京卓越讯通面试题 学长1 1)笔试 (1)JAVA支持的数据类型有哪些?什么是自动拆装箱? (2)AtomicInteger和Volatile等线程安全操作的关键字的理解个使用 (3)创建线程有几种 ...

  2. 大数据实效_全流程监督 让大数据督查取得实效

    点击上方蓝字,关注郧西纪委监委微信公众号 "老陈,你的护林员工资是否发放到位?是否存在被虚报冒领.侵占挪用的现象?" "都发放到位了,感谢你们,对我的事这么关心..... ...

  3. 内存 增量数据持久_内存中数据模型和大数据持久性

    内存 增量数据持久 ORM框架在需要与关系数据库进行交互时可以帮助开发人员. 对于关系数据库,有许多出色的ORM框架,例如Hibernate和Apache OpenJPA,其中一些确实很棒. 如今,大 ...

  4. python做数据和大数据区别_不懂Python,不懂大数据的人,和咸鱼有什么区别?

    原标题:不懂Python,不懂大数据的人,和咸鱼有什么区别? 在这个处处充斥着大数据影响的时代之下,不懂Python,不懂大数据,你就可能轻易地错过身边的黄金. 我们生活在数据密布的环境中,就像< ...

  5. informatica数据脱敏_助您首个大数据项目破茧成蝶的实践指南

    自从本世纪初软件应用开始在整个业务流程中盛行以来,一个不争的事实就是:数据改变了我们的工作方式.越来越多的企业认识到必须在大数据方面有所作为,但他们却并未切实规划出如何开展这项工作.而调查发现,切实展 ...

  6. 大数据相加_推动媒体融合与大数据相加发展

    深圳特区报讯 7月7日至8日,备受瞩目的第十二届中国传媒年会在贵州贵安新区东盟国际会议中心举行.本次年会以"媒体深度融合与大数据"为主题,近300名与会嘉宾深入思考研讨媒体融合与大 ...

  7. 大数据算法_【中科大】大数据算法(2020年春季)

    算法与理论是计算机科学的核心领域之一.随着大数据时代的来临,传统的算法理论已经不能很好地解决人工智能. 物联网.工业制造等领域所遇到的实际问题.本门课程主要介绍基于大数据的新型算法技术,如随机采样.数 ...

  8. python大数据平台_基于腾讯位置大数据平台的全球移动定位数据Python爬取与清洗...

    前不久投稿了一篇论文是以腾讯位置大数据为基础进行人口空间化研究的,但是还未见刊,见刊后会给大家分享下具体的研究方法. 首先打开腾讯位置大数据星云图链接:https://xingyun.map.qq.c ...

  9. 数据科学家数据分析师_站出来! 分析人员,数据科学家和其他所有人的领导和沟通技巧...

    数据科学家数据分析师 这一切如何发生? (How did this All Happen?) As I reflect on my life over the past few years, even ...

最新文章

  1. 日志、下载、投影、连接查询
  2. 结构型模式—外观模式
  3. JS保留4位小数(合集)
  4. 直播丨探究Oracle多租户架构
  5. 实践2.2 内核模块编译
  6. ARP,这个隐匿在计网背后的男人
  7. 使用OGR2OGR将S57数据转为shp格式
  8. poj2528 区间覆盖
  9. jquery插入节点
  10. SpringMVC的RESTful(二)定制格式
  11. [Threejs]环境光与HDR贴图
  12. 根据已订房客人资料快速登记
  13. 一文揭开图机器学习的面纱,你确定不来看看吗
  14. linux路由登录密码忘记,路由器重置密码
  15. UVM--单向通信、双向通信、多向通信和通信管道
  16. android 个推封装,Android个推快速集成
  17. 从零开始开发Android相机app(三)简单介绍图像滤镜功能
  18. Linux进程间通信(五)——进程间通信
  19. Visual Studio2010随云而动 特性大揭秘
  20. 美国早期电子商务成功案例今昔:网上卖鞋的成就

热门文章

  1. html类名定义规则_HTML入门笔记1
  2. Linux系统编程---4(进程间通信IPC,管道)
  3. c++中this指针基本概念和使用
  4. Find a way——BFS
  5. 最强Android教程!2021年Android面经分享,大厂面经合集
  6. 阿里P7亲自教你!我的头条面试经历分享,完整PDF
  7. 系统盘点Android开发者必须掌握的知识点,含小米、腾讯、阿里
  8. 1、Linux命令随笔
  9. is 和 == 的区别
  10. 【FRDM-K64F学习笔记】使用ARM mbed和Keil MDK下载你的第一个程序