1、在进行关键词搜索的时候,如何分词,我们不可能用语料库进行匹配,已没有语料可以学习。

2、关于转折点的寻找。目前我们使用高级搜索,从当前时间往前推,根据搜索到微博的条数变化,确定时间发生具体时间(天),在二分寻找发展时间的具体小时,对此小时的搜索结果按发布时间进行排序。

3、对于相似结果。新浪会将相似结果进行合并,导致搜索结果信息的丢失,我们还木有具体搞清楚他的合并规则,是否需要将所有信息展开。

4、对于微博事件的关键词的演变该如何处理,现在,如从“青山爆炸”到“青山氯气泄漏”到“武钢爆炸”等等,搜索关键词只能得到一组关键词的结果,如何得到后续的关键词,通过词频统计的话,必然会造成噪声点过多,即使不多,一个噪声点就是致命的。因为这可能导致我们的溯源不知道溯到哪里去了。

5、关于新浪博客的搜索BUG不知如何处理。

5、搜狐、腾讯的微博明显比新浪的搓。都没有高级搜索,只能搜到一天,而且他们的搜索算法也貌似有点小问题,具体真多他们如何做,后面再说。

转载于:https://www.cnblogs.com/Vanior/archive/2012/07/15/2592649.html

关于微博溯源的后续问题相关推荐

  1. 关于微博运营的几点思考

    现在问如何增长粉丝.提高转发的人越来越少了,说明大家对微博的认识已经开始逐步变得理性和成熟.但是,对于微博运营还是有一些误区,就此我谈一些个人看法. 一.微博是万能的? 许多朋友都问,如何通过微博带来 ...

  2. 用八爪鱼获取微博社区管理中心的举报文本

    用八爪鱼获取微博社区管理中心的举报文本 由于想做一些关于虚假新闻检测的工作,希望获得一些时间较新.具有文本内容.时间.评论.图片等多元化数据.       但已开源的数据集,包括politifact. ...

  3. wow怀旧服新开服务器最新消息,魔兽世界怀旧服服务器开放进展3月24日更新

    魔兽世界怀旧服玩家: 我们已于今日(3月24日)新增2组经典怀旧服服务器: 同时,以下服务器的玩家可以通过免费角色转移服务转入巨龙沼泽服务器: 转出服务器 转移方向 转入服务器 光芒.范沃森.无畏.寒 ...

  4. 支付宝账单挖了大坑,公司已道歉!

    点击上方"程序员大咖",选择"置顶公众号" 关键时刻,第一时间送达! 3日晚上 支付宝道歉了 芝麻信用在官方微博回应 承认自己做错了! 图片来源:微博 也许有的 ...

  5. 实战微博互动预测之一_问题分析 以及 分布式下的事件驱动机制(Pub与Sub模式)

    实战微博互动预测之一_问题分析 2017年12月08日 13:21:04 xieyan0811 阅读数:2390 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csd ...

  6. 小程序picker_小程序·云开发实战 - 迷你微博

    0. 前言 本文将手把手教你如何写出迷你版微博的一行行代码,迷你版微博包含以下功能: Feed 流:关注动态.所有动态 发送图文动态 搜索用户 关注系统 点赞动态 个人主页 使用到的云开发能力: 云数 ...

  7. 用python分析了30万条微博评论,毕业生与翟天临的爱恨情仇

    我将带着北京电影学院表演系的精神伴随我一生的演艺事业! --翟天临硕士论文致谢辞 2019年5月27日凌晨,翟天临又上了热搜. 这次的热搜绝对不是买的,因为实时搜索微博"翟天临"广 ...

  8. 万亿级日访问量下,Redis在微博的9年优化历程

    来自:DBAplus社群 讲师介绍 兰将州,新浪微博核心feed流.广告数据库业务线负责人,主要负责MySQL.NoSQL.TiDB相关的自动化开发和运维,参与Redis.counteservice_ ...

  9. 支持百亿请求的微博广告运维技术实践

    来自:DBAplus社群 本文根据朱伟老师在[2019 Gdevops全球敏捷运维峰会-广州站]现场演讲内容整理而成. 讲师介绍 朱伟,微博广告SRE团队负责人,书籍<智能运维:从0搭建大规模分 ...

最新文章

  1. React Native学习(七)—— FlatList实现横向滑动列表效果
  2. 图像凸性检测函数convexityDefects在Python2.7下使用opencv3.0的问题
  3. stream distinct去重_再来看看Java的新特性——Stream流
  4. jdbc_servlet基础增删改分页2(userinfo表的)
  5. 有时候,996确实会让你麻木
  6. 宽字节UTF-8、多字节互转
  7. python第二十二天,configparser模块 subprocess 模块,xlrd 模块(表格处理)
  8. uml中活动图与流程图的区别
  9. Unity DOTS Burst 运行分析
  10. 相机模型--针孔相机投影(pinhole camera model)
  11. 【最终幻想15 国王之剑】制作介绍2:最大限度满足角色,背景和道具的要求
  12. pandas读取excel带汉字的列头,Pandas读取excel与中文文件名
  13. 【微信小程序】Java岗面试12家大厂成功跳槽
  14. 25套五彩缤纷的矢量网页背景图片素材【免费下载】
  15. 软件设计领域没有银弹,但代码大师MaxKanat-Alexander的建议绝对能给你带来启发...
  16. Docker生态不会重蹈Hadoop的覆辙
  17. 解决一个assign问题,assign怎么用,assign有啥物理意义
  18. mac配置iOS开发环境
  19. JavaScript-function函数的arguments对象
  20. android联系人的简易通讯录

热门文章

  1. C# 里怎样得到当前执行的函数名,当前代码行,源代码文件名。
  2. Linux下C语言的fgets与fputs
  3. Cache总义Cache用法之页面声明
  4. Python3中__call__方法介绍
  5. 【GStreamer】在x264enc中设置profile级别
  6. 【C++】Google Protocol Buffer(protobuf)详解(一)
  7. 【python】使用python脚本将CelebA中同一人的图片捡到对应单独的文件夹中
  8. 【音频】Faad源码交叉编译
  9. html表格上下移动,Vue实现table上下移动功能示例
  10. python如何处理异常_python如何进行异常处理