2019腾讯算法广告大赛冠军方案复现遇到的问题

  1. 把时间戳变成local时间,以及日期字符串,截取时间的某部分(月、年)
    df[‘date’] = df[‘request_timestamp’].apply(time.localtime)
    df[‘date_str’] = df[‘date’].apply(get_date_str)
    df[‘wday’] = df[‘date’].str[6]
    df[‘hour’] = df[‘date’].str[3]
    df[‘minute’] = df[‘date’].str[4]
  2. 数据量过大,内存爆炸
    大文件分割成多个小文件,多进程并行处理小文件
import random
from multiprocessing import Process
def run(name):print('%s runing' %name)time.sleep(random.randrange(1,5))print('%s running end' %name)p1=Process(target=run,args=('anne',)) #必须加,号
p2=Process(target=run,args=('alice',))
p3=Process(target=run,args=('biantai',))
p4=Process(target=run,args=('haha',))p1.start()
p2.start()
p3.start()
p4.start()
print('主线程')
  1. dataframe的reset_index
    不同的pandas版本的函数使用方法不同,最新版不能在groupby之后直接reset_index()
    正确的处理方式是tmp = pd.DataFrame(train_df.groupby([‘aid’,‘request_day’]).size()).reset_index()
  2. debug (Pycharm)
    不下断点:从头运行到尾(如果代码完全正确)
    下断点:从第一行运行完到运行完断点行的前一行


看接下来每一行的运行结果:step over,左键单击一下往下按顺序运行一行。哪行亮了证明该行的上一行运行完了。

这一行亮了,但是这一行是引用了函数,想看函数里面是怎么执行的step into

从里面的函数跳出来step out,其实相当于一键执行完了里面的函数(已经return)。

还有两个:step into my code(只局限于当前代码文件的脚本中的函数)
多个断点,从一个断点直接运行到下一个断点:resume program

中断重启:未找到

run to cursor:光标放在哪行,点击之后运行完之前一行,该运行该行
5. nunique() 函数
unique()是以数组形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)
nunique() 返回的是唯一值的个数
count和size区别:count和size在无空值的时候等价,count统计非空个数,size统计含空值的个数

tmp = pd.DataFrame(train_df.groupby(['aid','request_day'])['bid'].nunique()).reset_index()

2019腾讯算法广告大赛冠军方案复现遇到的问题 python相关推荐

  1. 一文梳理2019年腾讯广告算法大赛冠军方案

    ‍‍ 点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 作为从本次比赛共157队伍中脱颖而出的冠军方案,评分达到87.9683,从数据清 ...

  2. 【数据竞赛】2020腾讯广告算法大赛冠军方案分享及代码

    写在前面 2019年冠军选手成功卫冕!!! 代码地址:https://github.com/guoday/Tencent2020_Rank1st 从初赛冠军.复赛冠军,然后到最佳答辩,一路披荆斩棘,再 ...

  3. 多模型结合的等长拼写纠错 | 全国中文纠错大赛冠军方案

    每天给你送来NLP技术干货! 来自:达观数据 点击这里进群->加入NLP交流群 参与任务  DATAGRAND 中文拼写检查任务是中文自然语言处理中非常具有代表性和挑战性的任务,其本质是找出文本 ...

  4. 2019年华为算法精英大赛--用户人口属性预测组比赛复盘

    文章目录 比赛介绍 初次探索 缺失值填充 再次探索 提取新特征 再次提取新特征 后记 1 算法实现思路说明 1.1算法整体框架 1.2 特征提取 1.3 模型拟合 2 算法实现说明 2.1算法运行环境 ...

  5. 邀你来参会!冠军方案实战分享,2022高通人工智能开发者大会来了

    2022年12月2日,高通人工智能开发者大会即将在成都金牛区举行.大会将携手产业界各路技术大咖,聚焦探讨人工智能行业产业生态链的升级与挑战.本次活动由高通公司冠名赞助,成都市金牛城市建设投资经营集团有 ...

  6. 2019腾讯广告算法大赛方案分享(冠军)

    写在前面 队伍介绍:哈尔滨工业大学二年级硕士生刘育源.中山大学微软亚洲研究院联合培养博士生郭达雅和京东算法工程师王贺. 本文将给出冠军完整方案,全文内容架构将依托于答辩PPT,具体细节也会结合代码进行 ...

  7. 2019腾讯广告算法大赛-冠军之路

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 写在前面 历时三个月腾讯广告算法大赛已经告一段落,在前两届成功经验的基础上,今年大赛在 ...

  8. 大神备赛干货:腾讯广告算法大赛冠军教你玩出大赛新高度

    2019年腾讯广告算法大赛的战鼓已然敲响.今年的大赛将广告曝光预估作为选题,紧紧贴合了最in的数字营销趋势,将理论模型应用于实践. 为了更好的帮助大家准备今年的赛事,本期我们特地邀请了李强同学为大家分 ...

  9. 【采访】腾讯社交广告高校算法大赛第二周周冠军——Groot 比赛经验及心得分享

    [采访]腾讯社交广告高校算法大赛第二周周冠军--Groot 比赛经验及心得分享 经过又一周紧张又激烈的角逐 腾讯社交广告高校算法大赛产生了第二周周冠军 他们的名字叫Groot 三个冷静沉着的大男孩 低 ...

  10. 2019腾讯广告算法大赛完美收官,算法达人鹅厂“出道”

    7月8日,2019腾讯广告算法大赛"终极之战"在深圳腾讯滨海大厦顺利举行.在前两届成功经验的基础上,今年大赛在赛题专业性和赛事体验上都有了更大的提升,进而吸引了更多海内外优秀选手参 ...

最新文章

  1. xy苹果助手未受信任_手机畅销榜出炉:iPhone11销量第一,苹果是安卓无法逾越的大山...
  2. Nature子刊:来自人类肠道菌群的189,680种DNA病毒基因组集
  3. python编程入门p-读书笔记 - 《Python编程:从入门到实践》
  4. 优秀logo设计解析_必修课 | 抛开固有思维,品牌amp;logo设计不求人!
  5. javascript事件详细说明
  6. 2019春第五周作业
  7. java光标位置无效_java - java.sql.SQLException:无效的光标位置 - 堆栈内存溢出
  8. 爬虫-08-requests使用入门-利用发送post与get请求
  9. 多项目加载顺序修改_面试官:Java 类在 Tomcat 中是如何加载的?
  10. 算法:Validate Binary Search Tree(验证二叉查找树)
  11. 进程调度算法Java
  12. Excel Vba编程初探一
  13. 计算机类一级学科目录是什么,教育部学科门类及一级学科目录表.doc
  14. html展示base64有长度限制,网页上的base64码太长?科普base64究竟是啥
  15. JZOJ【NOI2017模拟3.30】原谅
  16. 简单c语言实现小猫钓鱼
  17. Android开发各版本适配(不断更新)
  18. 健全养老综合制度,智康护的智慧养老介绍
  19. Tomcat两个项目,一个可以正常访问,另一个报错404
  20. Windows Server 远程桌面 SSL/TLS 漏洞修复

热门文章

  1. 多域名一个公网ip多内网应用服务同时使用80端口
  2. 车道线检测预处理(1)------ 融合白线黄线+高斯
  3. linux 实验感悟_linux实验心得
  4. 简单快捷的ArcGIS 10.7安装方法
  5. OSPF学习笔记整理
  6. 抖音极速版自动运行脚本
  7. prosody之component
  8. 八卦罗盘动态时钟(C语言)
  9. hive 常用函数操作
  10. 加拿大 大学 计算机硕士学费,加拿大各大学硕士学费的情况介绍