在之前的闲聊对话语料中提到,爬取了400w+新闻语料训练word2vec,考虑到这个平台数据质量比较高,但是爬取的时候又有频率限制、网页打开慢、甚至有时候需要多次访问才能打开网页,经过几个月断断续续地爬取,在此把这部分数据公布给大家学习使用。这部分数据不仅可用来训练word2vec,还能进行做简单的新闻分类任务(可以通过url确定新闻的类别)。
数据特点:
  • 时间跨度:2009-10-19至2016-10-31,2534天的新闻
  • 同一天的数据保存在以日期“20xxxxxx”格式命名的文件中,一则新闻一行
  • 非节假日,一天有1400+篇新闻
  • 爬取的新闻已进行抽取正文,每则新闻包含的字段有url、title、content(部分新闻可能没有content)
  • 已通过url进行去重
  • 数据量400w+,大小12G+
下载链接:链接: https://pan.baidu.com/s/1eTZ8XQa 密码: haup
本文转自 https://weibo.com/p/23041816d74e01f0102x1js

搜狐新闻数据400w+相关推荐

  1. 【数据挖掘实验】利用朴素贝叶斯方法对百万搜狐新闻文本数据进行分类

    一.概述 本实验做的是一个很常见的数据挖掘任务:新闻文本分类. 语料库来自于搜狗实验室2008年和2012年的搜狐新闻数据, 下载地址:https://www.sogou.com/labs/resou ...

  2. 搜狐新闻文本分类:机器学习大乱斗

    目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差别 工具 深度学习:keras 传统机器学习:sklear ...

  3. 【NLP】3000篇搜狐新闻语料数据预处理器的python实现

    3000篇搜狐新闻语料数据预处理器的python实现 白宁超 2017年5月5日17:20:04 摘要: 关于自然语言处理模型训练亦或是数据挖掘.文本处理等等,均离不开数据清洗,数据预处理的工作.这里 ...

  4. python新闻爬虫教程_python简易爬虫教程--(一)批量获取搜狐新闻

    我们先从简单的抓取文本信息开始,来写我们的第一个爬虫程序,获取搜狐新闻的内容. 我们首先来介绍一下我们需要用到的库. 爬虫程序的步骤,一般可以分为三步: 1.获取网页源码(html源码): 2.从代码 ...

  5. AI赋能新闻播报 搜狐新闻客户端联合搜狗打造首个明星“数字人”主播

    5月17日,在北京举行的"搜狐科技5G&AI峰会"上,搜狐新闻客户端联合搜狗推出首个明星"数字人"主播,以高度逼真的明星形象.多种方言实时播报新闻,让用 ...

  6. 在线产品经理实习 任务三:给搜狐新闻24小时热点做一份产品说明文档

    任务三:给搜狐新闻24小时热点做一份产品说明文档 一.任务简介及要求 出题人:苏伟 搜狐新闻高级产品经理 自从搜狐新闻APP推出了24小时热点后,反响还不错,数据也增长挺快的.市场部和销售部跟我们产品 ...

  7. sohu_news搜狐新闻类型分类

    sohu_news搜狐新闻类型分类 数据获取 数据是从搜狐新闻开放的新闻xml数据,经过一系列的处理之后,生成的一个excel文件 该xml文件的处理有单独的处理过程,就是用pandas处理,该过程在 ...

  8. 利用朴素贝叶斯分类算法对搜狐新闻进行分类(python)

    数据来源  https://www.sogou.com/labs/resource/cs.php 介绍:来自搜狐新闻2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供UR ...

  9. 搜狐新闻客户端Android端侧双擎Hybrid AI框架探索

    本文字数:2917字 预计阅读时间:24分钟 前言 人工智能,深度学习,机器学习,当今已经很广泛的应用到了手机端APP.无论是各类修图软件上的各种抠图美化,实时变装.还是社交软件的图片自动匹配文案.抑 ...

  10. Python学习笔记(11) 如何用爬虫完整抓取搜狐新闻文章?

    一.操作步骤 今天教大家抓取搜狐的新闻文章,重点讲解怎么抓取到完整的正文内容,怎么批量抓取到更多新闻,方法是通用的,大家可以应用到其他新闻网站的抓取,总体操作步骤如下: 二.案例+操作步骤 采集规则: ...

最新文章

  1. 区块链BaaS云服务(20)百度可信跨链BCP
  2. OpenGL相机控制之一
  3. ttc error oracle,ORA-03137: TTC protocol internal error : [12333]错误一例
  4. BIO ,NIO,AIO的区别
  5. HDU2066 一个人的旅行【最短路径+Floyd算法】
  6. 点击量作弊真的可以检测吗_作弊道德可以使自动驾驶汽车可行吗?
  7. 【Codeforces 1051D】Bicolorings
  8. mysql sql语句 参数化_参数化SQL语句
  9. ZEGO 自研客户端配置管理系统 —— 云控
  10. 学生每日计划表_小学生每日学习计划安排表
  11. HDOJ1233 还是畅通工程(kru)
  12. Forth 语言学习
  13. CH6202·黑暗城堡
  14. latex_子图标题带括号
  15. 市场复苏下:报复性消费,了解一下~
  16. SwiftUI mutating 是什么怎么用 (2020年教程)
  17. 【原创】Syncthing搭建自己的中继服务和发现服务
  18. 英语总结系列:每天怀揣一点激情
  19. runtime-compiler 与 runtime-only区别
  20. 资本家:你别坏了规矩!

热门文章

  1. 供应链金融业务信息化平台搭建要点分享
  2. 四核64位处理器,MIMX8MQ5DVAJZAB 满足智能设备应用
  3. 如何在D盘以管理员身份,运行cmd
  4. 配置服务器获取信息失败,获取配置服务器失败
  5. Camera 360应用隐私数据泄露的分析
  6. 什么是Hash(哈希)?
  7. DayDayUp:20190908易建联27分中国男篮负无缘直通奥运—回顾2008年奥运中国男篮— 易建联加油!中国男篮加油!
  8. android 删除指定短信,Android拦截短信并删除该条短信
  9. enfuzion与lsf构建渲染集群_集群渲染系统构建及优化
  10. VMware安装Centos8(Centos8与Centos7的区别)