我正在尝试对地理ip定位的准确性进行分析,并基于ip地址到ip整数或ip_number的转换,使用两个非常大的数据集。在

转换如下所示ip_number = 16777216*w + 65536*x + 256*y + z (1)

在哪里

^{pr2}$

我用Hive在Hadoop中构建了我的两个表:表1是2.9MM的行,被组织成由ip_number范围标识的地理位置。字段显示:start_ip, end_ip, zipcode, city

其中,start_ip是给定zipcode的最小值ip_number,end_ip是给定zipcode的最大值ip_number。在

这个表是一个ip_num bucket或范围以及相应位置的索引,我需要从另一个具有唯一ip_号的表中分析其使用情况。在

我的第二个表或数据集包括来自服务器的每个IP的交互和使用数据。因此,我有25毫米唯一的ip_number,其中包含我需要在第一个表中按bucket求和和和分组的使用数据。字段显示:ip_number, ip_address, usage

在配置单元中的标准联接的两个数据集之间没有公共字段,所以我卡住了。在

我尝试过使用完全的外部联接,但是我相信结果数据集太大,我们的Hadoop集群无法处理。在map/reduce期间脚本超时。在

配置单元有没有一种方法可以从第一个表中选择行,并从第二个表中为活动求和一个字段,该活动来自第一个表中每个bucket或范围内的ip_号?如果不是,那么Python或R有没有办法操纵Hadoop表来实现这一点?在

我希望生成的数据集组织起来:table_1.ip_start, table_1.ip_end, table_1.zipcode, sum(table_2.usage)

非常感谢任何帮助!在

python用户标识符条件_使用sum(if…)或条件语句操作两个数据集,这些语句没有hivehadooppython的公共标识符...相关推荐

  1. python用户画像建模_求用户画像的详细解释、建模方法及算法模型

    先给你一个传送门,目测是一个腾讯内部的培训资料:https://bbs.pinggu.org/thread-3868699-1-1.html 该文档我看了,虽然比较浅,但内容相当实在--目前大家谈起用 ...

  2. python用户标签体系_什么是用户画像和标签?

    一.先熟悉一些名词和概念 1. 标签(Tag) 对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性. 例:对于"人"这类群体,可将"男&qu ...

  3. python用户登录程序_「Python」每日一练:函数的应用之注册登录程序

    编程题 函数的应用之注册登录程序 任务内容:要求模拟系统注册及登录的情境,注册密码要求:密码是6位或以上,必须包涵大写字母.小写字母.数字.程序若未退出前,则一直循环运行. 程序编写要求:按要求完善各 ...

  4. python中合法的布尔表达式_笔记||Python3之布尔表达式+条件判断

    布尔表达式: 布尔类型:特性:只有两种情况 ---   真  /  假 1 -- True    False 2 -- type(True) ------------ 布尔表达式:1 ---它的结果是 ...

  5. 二值logit模型的适用条件_一文读懂条件Logistic回归

    在医学研究中,为了控制一些重要的混杂因素,经常会把病例和对照按年龄,性别等条件进行配对,形成多个匹配组.各匹配组的病例数和对照人数是任意的,比如一个病例和若干个对照匹配即1:1,在医学上称作" ...

  6. if test 多条件_五条写好JavaScript条件语句的建议(译)

    1. 多重准则时使用 Array.includes 看个栗子: function test(fruit) {if (fruit == 'apple' || fruit == 'strawberry') ...

  7. python根据index合并_通过index和cols合并/联接/追加两个Pandas数据帧,其中包含多索引列...

    为了这件事我一直把头撞在桌子上,不知道有没有办法,也许我在尝试一些不可能的事情.在 我有两个带有多索引列(三级)和时间索引(单级)的数据帧.第一个是这样的:border a-b c-d from a ...

  8. pyspark 条件_删除pyspark中特定条件下的特定行

    我是火花的新手 . 我想删除一行使用spark sql.due来删除temptable中的不兼容性到目前为止我已经读过,操作删除像sql查询我需要永久保存pyspark中的表,这是hive表我猜 . ...

  9. python中循环语句只有for和while两种_Python循环语句之while,for语句详解

    下面为大家分享一篇Python 循环语句之 while,for语句详解,具有很好的参考价值,希望对大家有所帮助.一起过来看看吧 Python中有两种循环,分别为:for循环和while循环. for循 ...

最新文章

  1. Intel Realsense D435 python(Python Wrapper)example02: NumPy and OpenCV 用窗口展示并排堆叠的RGB流和深度流
  2. JSP自定义标签学习笔记
  3. Linux -- 进程或线程独占CPU
  4. ui kit模板,让新手设计师临摹提高!
  5. vbs获取群聊当前内容_通过VBS脚本批量检测服务器状态 - 易本地工作室-Ebend SoftwareNetwork Studio - 群发,采集,管理类软件定制开发服务【易本地工作室】...
  6. Hadoop-2.2.0中文文档—— Common - CLI MiniCluster
  7. 服务器能用usb pe安装win7系统,另一种U盘(支持winPE,可以安装win7)安装ubuntu系统的方法...
  8. ps一点通精品知识库
  9. Android使用DatePickerDialog日期控件使用主题android:Theme.Holo.Light.Dialog有白边的问题解决
  10. 1493:物种大交换开创的世界史
  11. VMware 虚拟机三种网络模式详解
  12. 沃达丰看淡Sigfox/LoRa先行优势:NB-IoT才是运营商的未来
  13. 初始脚本一键搞定虚拟机
  14. linux 安装nodejs
  15. 鉴于近期的自然灾害,WorldRemit免收向菲律宾汇款的费用
  16. hanLP探索-语义距离计算的实现
  17. 硬件基础知识和典型应用-STM32 替换说明-CKS32, HK32, MM32, APM32, CH32, GD32, BLM32, AT32(推荐), N32, HC华大系列
  18. Android学习--LitePal使用
  19. mysql年龄段统计_怎么分年龄段查询、统计?
  20. 用OpenCV将视频分解成单帧图片,图片合成视频

热门文章

  1. oracle undoautotune,Oracle 隐藏参数:_undo_autotune、一个吃力不讨好的活
  2. 将字符串1/4转换成0.25 eval()
  3. 通讯录 app 使用哪种协议查找服务器上存储的联系人?,uniapp通讯录查找
  4. android8 测试,Android 8.0 Oreo 国内可用测试平台上线
  5. 和方舟rust一样的手游_偶像梦幻祭2新活动 ES手游全新开服
  6. win7查看隐藏文件_Win8系统查看隐藏文件的操作方法是什么?
  7. linux的shell脚本if语句,Shell脚本编程之判断语句
  8. grpc java 泛型_gRPC中Any类型的使用(Java和NodeJs端)
  9. 玩转 SpringBoot 2 快速整合 Filter
  10. java project整合spring和hibernate