终于报名参加了TREC,从去年12月份开始申请11年的数据起,折腾了好久。写个LOG吧,看看自己一步步走过来的脚印,自恋下,顺便反省下。

----------------------------------------------------------------------------------------------------------------------------

LOG 1. 毕设定题目为短文本的话题检测与跟踪,做了一些数据的调查知道了这个比赛。

LOG 2. 求教了TREC的administrator,了解了一些有关TREC的一些事项,如参赛时间资格等等,发现国外的administrator都很nice,回了老长老长的信,还和我说这个比赛就算最后得不到结果也没关系。感动到了袅。

LOG 3. 开始动心思想参加这个比赛袅,加入了TREC的google group,有次一个人问到了TREC数据集的下载,MicroBlog Track的“主管”说只要你填个申请表就能下载到twitter的数据,只是你不能把数据给别人。感觉TREC真够意思。

LOG 4. 填了TREC 2011的数据申请表格,找老高签字,扫描发过去了,还特地把实验室夸了一通。嗯……HOHO~

LOG 5. 下载数据愁到了……先是捣鼓工具,我对Linux那套是完全知らない。看到用到Hadoop的包还以为要装Hadoop……于是我捣了一天装上去了,发现根本用不到。装了Cygwin,装了ant,工具终于下完了,可是在命令行下工具报错……咋办捏,求助师兄,师兄闹了半天也不行,说你直接扔MyEclipse里呗,于是俺扔进去了,能跑了。只是Twitter上不了自然也爬不了。不知道那个墙墙是不是有自适应能力,每次跑下这个程序google就上不去好久。可怜的谷歌君。

LOG 6. 数据太大,又要FQ,间歇性看到墙就怨念。网上各种搜无意间看到厦大一个老师弄过这个,于是翻网上厦大老师主页找到那个老师,弱弱的发信去问。那个老师还蛮好的,回信说她是找国外认识的人下的,老师还很nice的建议了亚马逊。

LOG 7. 问了吴珂,吴珂说可以用代理,用亚马逊也可以,但是要注意他提供的免费服务的限制,如带宽什么的。可是1Tbyte啊,实在吃力。想转投kdd,kdd太恐怖了,而且不知道为什么就是想做这个。于是又group里发信问别人的一些下载情况。于是乎,闹笑话了。原来数据解压后是18Gbyte的。噗……太好了。

LOG 8. 注册了亚马逊,亚马逊的一年免费服务实在太给力了。只是绑了张信用卡。阿门,希望不会背到超支,否则银子哗哗的……

LOG 9. 尝试着用亚马逊的机器,亚马逊Free的服务里提供Windows的服务器。挺好的,但是不知道怎么把数据传上去,师兄帮忙倒腾了ssh和putty,可是连不上去。可能还是权限问题吧。于是就把自己打的包放到自己服务器上,再从亚马逊的服务器上联网下载。

LOG 10. 由于原工具不能用,所以自己改了tool的程序,自己电脑上测试成功,可是放到服务器上:Connection Time Out。想屎。因为项目的事情也有,所以现在每天是double 线程,不对,triple,偷偷玩玩游戏啥的。好消息是,TREC报名成功了。因为绑的是老高的邮箱(因为需要是机构的头头的邮箱),所以信件转来转去费了些时间。

LOG 11. 查了论坛,论坛上列了12345五条原因,看来看去还是连接太多服务器过载比较合适。于是又把电脑扛回去研究了下工具,修改了参数什么的,弄成就一条请求,打包上去可以连接了,也下到了,可是写数据的时候出问题了……Hadoop需要Linux内核。泪奔。

LOG 12. 关掉了我可爱的windows instance,欲哭无泪。亚马逊的网站刷的一个慢,刷个网页得大5分钟。重新lanch了。

LOG 13. 开了一个Ubuntu的instance,ssh连上后发现scd和sftp被禁掉了,每次都permission denied,各处找帖子问人没着落,想要不还是用回windows吧。

LOG 14. 很开心,google+和group解禁了,去group看以前的帖子的时候发现好多人问在windows上的问题,有人说可以用cgywin的包,于是在windows的实例上上载了cygwin的bin包,问了师兄用命令行修改了PATH路径:call set PATH=%PATH%;C:\...\bin。问题解决,可以下了

LOG 15. 又是Connection time out的问题,修改了程序将每个块也都分割了。结果跑了两个后还是有这个问题,查了windows server 2003的这个问题,修改了IIS->Web Sites-->properities-->time limit 设成300s。可是下了大概50个之后就开始不下了,悲催。。。

LOG 16. 重头开始。

LOG 17. 问了吴珂有关proxy的东西,他很nice的把proxy的一些程序给我了,我找了一些proxy下了下,不行……唉~ 各种无奈啊~ 因为数据集出来要五月的样子,所以索性就放了放,先做别的。

LOG 18. 愚人节做了一个TREC报告,介绍了上次比赛的一些情况和方法,顺便在讨论班里鼓吹了下这个比赛。嘻嘻~ 师姐说有空可以来弄下,开心开心~ PC也说可以,嗯嗯,八错八错~ 不过实验室里没有闲人的,大家都很忙,主要还是自己要先迈出去。老高说,不能做成最后一名啊,额~ 可是这个比赛没有名次啊~ 哈哈哈~

LOG 19. 最近一直没管这茬,4月20号放出风来说还是用以前的数据集,瞎了~早知道先把2011下下来了,因为考虑到要麻烦同学,所以就想麻烦一次就算了。。。。。

LOG 20. 数据集还是挺大的,为了防止太麻烦别人,就先把功课做足了,譬如把程序合并,变成不需要人操控的~ 对哈,如果这样的话就算不是计算机的同学也可以帮忙吧?诶~这倒是好办法。

LOG 21. 要做项目,老高给了期限,要在5月16号把项目做完。因为里面遇到一个比较棘手的bug,所以拖了三天最后完成了。

LOG 22. 师兄说他上课听到其他实验室的人也在做twitter的数据,让我发信去问,我发信问了相关的老师,老师们都很nice的回复了,因为数据不一样最后借了个VPS下载。终于可以下了可是速度很慢,差不多下载一个地址列表文件的时间在半天,后来老板找我谈话了,说我在这个比赛上面花去了太多精力,劝我不要做这个比赛了。

LOG 23. 六月底,挣扎了很久,放弃了。还是很心痛的放弃,不过确实之前花掉了太多的时间摸索下载的问题,就算最后数据都到手了也最多蛇尾一下下。毕竟后面还要找工作呢,书一点都没看。放弃应该是个明智的选择吧。

总结帖:

TREC的历程让我接触到了很多东西,从AWS到Linux系统到Shell脚本到Proxy,虽然每次都失败了可是每次都收获了很多解决实际问题的经验,当然也让我看到了自己的一些弱点。一点点的在成长吧。以前的自己做的东西基本上都是编点程序来解决一些问题,可是TREC给我的经历确是如何去使用其他的工具来解决自己的问题,真的很不一样也是非常好的一种的解决问题的方法。

因为本来准备开学了就将项目模块交付这样子就可以空下一个学期来做TREC了,可是这个模块老板总觉得精度不够,毕竟纯算法的不可能达到99%的精度吧。后面就自己用数据做测试集用了很久,然后拿weka的通用聚类算法来测,结果当然不好(因为通用接口会有数据稀疏的问题),而后再看一些应用的论文重新写代码。

P.S. 有些同学看到这个帖子问我来要数据,抱歉,数据我没有下下来,不过经验还是可以分享的。^_^~~

转载于:https://www.cnblogs.com/xiaoka/archive/2012/02/22/2363806.html

【TREC】TREC LOG相关推荐

  1. 【kafka】kafka log 存储时间 小于 offset 存储时间 offset存在但是消费不到

    文章目录 1.概述 1.概述 在文章 [kafka]kafka 消费速度 小于 日志清理速度 (kafka数据被清理了)会发生什么 auto.offset.reset 参数 中我们知道了,数据消费慢于 ...

  2. 【转】Alert Log Messages: Private Strand Flush Not Complete [ID 372557.1]

    文章转自:oracle 官网 Modified 01-SEP-2010     Type PROBLEM     Status MODERATED In this Document   Symptom ...

  3. 【MySQL】redo log --- 刷入磁盘过程

    1.redo log基本概念 redo log的相关概念这里就不再过多阐述,网上有非常多的好的资料,可以看下缥缈大神的文章:https://www.cnblogs.com/cuisi/p/652507 ...

  4. 【CDH】 kafkaServer-gc.log日志太多

    1. 背景 kafka集群资源不够了,于是查询了一下系统日志的大小,发现很多kafka Gc的日志,于是想设置gc日志变少 [deploy@kylin1 workspace]$ sudo find / ...

  5. 【Caffe】利用log文件绘制loss和accuracy(转载)

    (原文地址:http://blog.csdn.net/liuweizj12/article/details/64920428) 在训练过程中画出accuracy 和loss曲线能够更直观的观察网络训练 ...

  6. 【JS】console.log()打印出五彩斑斓的黑

    逛B站不小心点到了F12,于是乎看到了蓝色的小电视,于是乎了解了一下 先大致说一下语法: console.log('%c巴拉%c巴拉','color:#fff','color:#000'); //上述 ...

  7. 【python】遍历log查找符合关键字的log

    需求 遍历logfile文件夹,除去pass目录下的文件都查一遍 要求:log文件名要求以"log_"开头,类型为txt文件 遍历log文件,key_value_XXX.txt文件 ...

  8. 【Tensorflow】tensorboard log并排显示、同一窗口显示不同loss

      这是两个很简单(超级简单,我都不想写),但是用起来很舒服的技巧: log并排显示   首先是信息并排显示,现在的深度学习通常有很多个信息需要同时展示:以loss为例,如果下面这样写,那么屏幕一次能 ...

  9. 【SDX62】IPA log抓取操作说明

    qxdm 设备启动之后,开启qxdm,然后抓取log IPACM logs 修改selinux配置 vi /etc/selinux/config         change enforcing -- ...

最新文章

  1. (字符串)统计字母和数字个数,打印柱状图
  2. mysql报错3534_win7下安装MYSQL报错:MYSQL 服务无法启动的3534问题
  3. ant如何形成时间轴和图库_高中历史时间轴来了(电子高清版),最新最完整的复习时间线整理,这里都有!...
  4. 关于static方法
  5. StarGAN v2: Diverse Image Synthesis for Multiple Domains (多域多样性图像合成)
  6. 广东计算机学会 信息学省初赛,报名丨2019第36届全国信息学奥林匹克竞赛于广州二中举办!...
  7. Linux 下 Error: Could not find or load main class Hello world
  8. Linux基金会宣布行业进一步支持Akraino Edge Stack
  9. linux磁盘管理——quota磁盘配额GPT分区
  10. char * 与char []区别总结
  11. n9005zhuenb6 Android 5,三星Galaxy Note3(港版N9005)刷机与ROOT教程【详细介绍】
  12. usb xhci babble error问题解决
  13. Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之Gavin大咖免费公益课程Rasa Paper论文解析核心版
  14. Node.js 获取本机Mac地址
  15. Revit出图翻模【局部三维功能】,三维视图从此不卡
  16. Flutter的菜鸟教程
  17. 商场、超市信息发布解决方案
  18. foxmail 发不出邮件,被电脑管家云查杀引擎检测出带有病毒:Win32.Trojan.Agent.hryf ...
  19. java毕业设计-酒店管理系统 酒店预定系统
  20. 硅谷钢铁侠:埃隆马斯克的冒险人生--读书笔记1

热门文章

  1. php5.23升级,5.23 - php中文网作业 - php中文网博客
  2. go 实现抓包 ,盗取浏览器接口信息|反反爬虫
  3. UE4 学习记录八 给场景中添加背景音乐和动画音效,运动加速效果
  4. 计算机网络,ping连接同一个WiFi的电脑,回复无法访问目标主机,但是数据包已接收(防火墙已关)
  5. linux桌面环境日志,小白的Linux桌面环境的配置手记
  6. keil的c语言基础,KeilC单片机C语言应用研究入门基础篇要点S.doc
  7. kali Linux渗透测试黑客专用系统命令
  8. ant-design在 vue 抽屉(drawer)里面嵌套弹出框(modal)出现蒙层遮挡弹框问题
  9. linux下emmc检测工具,eMMC check(eMMC芯片是否新机检测工具)1.3.0 安卓版
  10. MacBook Pro使用初体验之Mac快捷键汇总(持续更新中)