介绍:

搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料

格式说明:

数据格式为

访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL

其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID

相关任务:

相关性排序

用户兴趣挖掘

查询扩展

新词发现

相关资源:

成果列表:

1.Predicting Epidemic Tendency through Search Behavior Analysis.

Danqing Xu, Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma. In Proceedings of the 22nd International Joint Conference on Artificial Intelligence (IJCAI-11) (Barcelona, Spain).

2.How do users describe their information need: Query recommendation based on snippet click model

Yiqun Liu, Junwei Miao, Min Zhang, Shaoping Ma, Liyun Ru. Expert Systems With Applications. 38(11): 13847-13856, 2011.

3.Automatic Search Engine Performance Evaluation with Click-through Data Analysis.

Yiqun Liu, Yupeng Fu, Min Zhang, Shaoping Ma, Liyun Ru, Poster proceedings of the 16th International World Wide Web Conference (WWW07), 2007, Banff, Alberta, Canada.

4.基于用户行为分析的搜索引擎自动性能评价

刘奕群,岑荣伟,张敏,马少平。软件学报,2007

5.Automatic Query Type Identification Based on Click Through Information

Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma, Asia Information Retrieval Symposium(AIRS06), in LNCS Vol. 4182: pp. 593-600, 2006.

6.基于大规模日志分析的网络搜索引擎用户行为研究.

余慧佳,刘奕群,张敏,茹立云,马少平, 第三届学生计算语言学研讨会(SWCL2006).

下载:

下载前请仔细阅读“搜狗实验室数据使用许可协议”,请在使用了本语料库的论文、技术报告等研究成果中添加如下参考文献引用:Yiqun Liu, Junwei Miao, Min Zhang, Shaoping Ma, Liyun Ru. How Do Users Describe Their Information Need: Query Recommendation based on Snippet Click Model. Expert Systems With Applications. 38(11): 13847-13856, 2011.

Please read the "License for Use of Sogou Lab Data" carefully before downloading.

迷你版(样例数据, 376KB):tar.gz格式,zip格式

精简版(一天数据,63MB):tar.gz格式,zip格式

反馈:

在线上反馈留下您的宝贵意见和建议。

在资源下载FAQ中查找您遇到的资源下载问题的答案

搜狗搜索php,搜狗实验室相关推荐

  1. 搜狗搜索曝光“搜狗商店” 人工智能概念产品可提升人类能力

    如果借助人工智能,你在一瞬间就提升自己的沟通或艺术鉴赏等能力,你是否觉得这是异想天开的事情?今天,通过一段视频,搜狗搜索曝光了其在人工智能领域的概念产品,在2047年,将可实现人脑和人工智能结合形成脑 ...

  2. 搜狗搜索事业部总经理:从识图搜索谈未来大势

    经过近半年的独立研发,搜狗搜索推出了识图搜索功能,即可通过上传图片等方式搜索找到相似群组图片和资料.日前,就这一新功能以及搜索领域热点话题,CSDN记者专访了搜狗公司搜索事业部总经理茹立云. 搜狗公司 ...

  3. Hive基于搜狗搜索的用户日志行为分析

    问题导读 1.本文是如何学习大数据的? 2.用户查询中包含的中文.英文字数的平均个数,本文提出哪两个思路? 3.用户访问应用的时间特点如何使用hive实现统计的? 前言 "大数据时代&quo ...

  4. 六十五、Spark-综合案例(搜狗搜索日志分析)

    搜狗实验室:搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合.为进行中文搜索引擎用户行为分析的研究者提供基准研究语料 目录 ...

  5. 搜狗搜索日志分析系统

    实验手册--搜狗搜索日志分析系统 转载:https://www.cnblogs.com/biehongli/p/8074642.html 前奏:请提前搭建好你的集群和必要的软件:hadoop + jd ...

  6. 移动端网页乱象怎么破?搜狗搜索正在为行业建言

    在平日使用手机浏览网页时,相信大家都遇到过这些情况:不少网页字体.字号.排版混乱,看得人头昏眼花;网上转载过好多次的非原创内容,还要你付费才能下载;正看着网页信息,突然跳出不雅图片,点击关闭按钮直接跳 ...

  7. 中国人工智能学会通讯——搜狗搜索:从搜索到问答 1.1 引言

    1.1 引言 互联网搜索引擎为人们获取信息提供了极大帮助,目前仍是网民获取信息和知识的重要工具.通常使用搜索引擎的典型过程包括三个步骤,首先用户将自己的需求以自然语言查询的方式表达,并提交给搜索引擎: ...

  8. php百度收录域名访问次数,PHP获取网站百度搜索和搜狗搜索收录量代码

    PHP获取网站百度搜索和搜狗搜索收录量代码 蓝叶    网站设计    2016-03-20    5427    0评论 获取网站百度搜索和搜狗搜索的收录量代码,可以用于获取网站域名在搜索引擎的收录 ...

  9. 怎么用百度搜索php网站,PHP简单获取网站百度搜索和搜狗搜索收录量的方法

    本文实例讲述了PHP简单获取网站百度搜索和搜狗搜索收录量的方法.分享给大家供大家参考,具体如下: 获取网站百度搜索和搜狗搜索的收录量代码,可以用于获取网站域名在搜索引擎的收录数量,一直想找这个API但 ...

最新文章

  1. 【c++】iostreeam中的类为何不可以直接定义一个无参对象呢
  2. Texmaker使用方法、Latex的优缺点
  3. 用matlab绘制升余弦函数
  4. 国自然申请初审中的注意事项
  5. Spring事务管理TransactionManager
  6. 51CTO下载专题有奖征集建议:您的期待,我们的方向!
  7. 原生App切图的那些事儿
  8. 简单的动态网站java,Java实践:一个简单的动态数组实现
  9. Hyper-V 3中虚拟机CPU竞争机制
  10. VS2015搭建汇编语言环境和代码高亮插件AsmDude
  11. android 收货地址功能,22、【收货地址管理模块】——收货地址增、删、改、查、分页列表、地址详情的功能开发...
  12. pdf转word思路和方法
  13. linux 系统频率,[求助]Linux中的“超出显示频率范围”问题
  14. shel文件生成和执行
  15. 目标规划运筹学例题doc_运筹学之目标规划(胡运权版).doc
  16. webpack 打包报错:Can't resolve '.\dist\bundle.js' in 'E:\vivian....'
  17. php是什么症状脾虚什么症状怎么治,脾虚的症状及治疗方法是什么
  18. win10系统上安装awvs漏洞扫描器
  19. Java岗大厂面试百日冲刺【Day54】— Redis4 (日积月累,每日三题)
  20. 国内外常用公共NTP网络时间同步服务器地址

热门文章

  1. ABAP READ TABLE
  2. 从小学习编程的路线与编程进阶
  3. 浅谈图像处理方向的就业前景
  4. 【无标题】Python学习中的小问题1<built-in method lower of str object at 0x0000026B858CF8F0
  5. PX Deq: Signal ACK
  6. thinkphp5第三方合同在线签署接口(放心签)demo
  7. 产品规划之PPT设计 一
  8. 首届API安全管理论坛成功举办,聚焦API安全分享落地实践
  9. OP-TEE内核学习笔记(一)(安全存储)—— 安全存储 GP API
  10. 【Redis】——滴滴滴滴滴滴滴