# -*- coding: utf-8 -*-
'''
@author: Yalei Meng    E-mail: yaleimeng@sina.com
@license: (C) Copyright 2017, HUST Corporation Limited.
@desc:获取新浪热门微博内容。保存为txt文件
@DateTime: Created on 2017/10/3,at 15:48   '''
from bs4 import BeautifulSoup as bs
import requests as rq
import  time
import random
import json
import csv
cookie = ?
def request_page(Page):head = {'Accept': 'application / json, text / plain, * / *','Cookie':cookie,   #将登陆后自己的cookie粘贴在这里即可。'Referer':'https://m.weibo.cn/p/index?containerid=102803','User-Agent':'Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) ''Version/9.0 Mobile/13B143 Safari/601.1','X-Requested-With':'XMLHttpRequest'                     }r = rq.get(Page,headers = head,timeout = 5)return r.json()
#11353296
def get_text_from(page):js = request_page(page)cards = js.get('data').get('cards')print(len(cards))t_list = []if not cards:return t_listfor a in range(len(js['data']['cards'])):try:a_txt = js['data']['cards'][a]['mblog']['text'].split('<')[0]# pub_time = js['cards'][a]['mblog']['created_at']# a_pic = js['cards'][a]['mblog'].get('original_pic')t_list.append(a_txt)except Exception as ex:print(ex)return t_list#延迟刷新访问,可能存在微博内容重复的问题。需要注意去重。
url_list = ['https://m.weibo.cn/api/container/getIndex?containerid=102803&since_id={}'.format(str(i))for i in range(0,1000)]
#url_list=['https://weibo.cn/search/mblog?hideSearchFrame=&keyword=%E5%8F%B0%E9%A3%8E%E5%B1%B1%E7%AB%B9&page={}'.format(str(i))
#          for i in range(0,100)]
url="https://weibo.cn/search/?tf=5_012"
#如果要批量访问,循环访问列表的url即可。注意访问间隔不能太短。小心被封号
for i, url in enumerate(url_list,1):mylist = get_text_from(url)print('当前第%d页'%i,mylist)with open('E:/weibo1010.txt', 'a',encoding= 'utf-8')as f:for my in mylist:f.write(my)f.write('\n')time.sleep(random.uniform(1.2,3.0))
print('恭喜,程序运行完毕!')

引用了github 某位程序员的代码,等修改完成后(抓取某热点的话题)再整理上传。

微博带cookie访问抓取热搜相关推荐

  1. Python爬取热搜数据之炫酷可视化

    可视化展示 看完记得点个赞哟 炫酷可视化音乐组合版来了! 项目介绍 背景 现阶段.抖音.快手.哗哩哗哩.微信公众号已经成为不少年轻人必备的"生活神器".在21世纪的今天,你又是如何 ...

  2. 粉丝让我爬取热搜话题,结果做成了实时热搜『跑马灯』可视化

    大家好,我是阿辰. PS:(这里跟读者说一下,以后本公众号推文更新时间段是13:00~14:00,默认是13:00) 之前有粉丝让我爬取网上热搜话题,根据粉丝的这个提议,我想到了爬取不同平台的热搜话题 ...

  3. 关于Python爬取热搜的另一种方法

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.BeautifulSoup是什么? 二.使用步骤 1.引入库 2.读入数据 总结 前言 本文主要介绍使用Beaut ...

  4. 用selenium实现对微博搜索数据的抓取

     http://computational-communication.com/post/bian-cheng-gong-ju/2014-06-25-searching-weibo-with-se ...

  5. python爬取热搜神器

    代码部分 编辑于2020/3/29 步骤是:从热搜神器上获取数据,此时数据是有很多无用信息的(比如一些超链接),对数据进行处理,导出到excel. ** 获取数据** 使用的是requests包,先定 ...

  6. 利用cookies+requests包登陆微博,使用xpath抓取目标用户的用户信息、微博以及对应评论...

    本文目的:介绍如何抓取微博内容,利用requests包+cookies实现登陆微博,lxml包的xpath语法解析网页,抓取目标内容. 所需python包:requests.lxml 皆使用pip安装 ...

  7. C# HttpHelper帮助类,真正的Httprequest请求时无视编码,无视证书,无视Cookie,网页抓取...

    //取当前webBrowser登录后的Cookie值         [DllImport("wininet.dll", CharSet = CharSet.Auto, SetLa ...

  8. Python3 学习过程-爬虫示例-抓取热榜

    实现一个简单的爬虫,此处以抓取头条热榜为例,记录学习过程. 一.使用浏览器打开头条热榜页面 二.打开开发者工具,找到请求内容url 三.在页面,右键查看源码,找到要获取的内容标签 四.编写抓取代码 # ...

  9. 十七、爬虫实战,多线程抓取大搜网新车的数据

    上次爬取毛豆新车的数据 十六.爬虫实战,多线程抓取毛豆新车的数据 这次爬取大搜车卖车 爬虫实战 对于之前学的知识,作一个整合,爬取大搜车卖车信息 目标:爬取大搜车卖车信息,并写入mongodb数据库 ...

最新文章

  1. 拿大厂机器学习岗 offer,吐血整理的面试秘籍!
  2. php星期_高手指点PHP星期几获取方法
  3. F5与Ctrl+F5及地址栏输入地址回车
  4. php行列,【后端开辟】php 怎样完成行列
  5. 【独家:震惊!——西城区所有学区优质度透解与大排名,泄密了!】
  6. 【动态规划BFS】相遇
  7. python 字符串
  8. 【Hive】Hive的三种交互方式
  9. Linux下make -j加快编译速度
  10. php 中文地址伪静态,.htaccess实现含中文的url伪静态跳转
  11. 二维码扫一扫java开发
  12. 【知乎答案】2018校招,笔试应该怎么准备?|牛客网回答
  13. 进击ReactNative-徐如林-React源码解析
  14. Base64编码理解
  15. 【计算机体系结构实验】指令调度和延迟分支
  16. 《简洁记账》产品浅析
  17. 2021-5月13日-今日收获
  18. 【Java】 买卖股票的最佳时机含手续费
  19. onlyoffice 安装、测试、打包、部署
  20. 华兴数控g71外圆循环编程_数控G71内外圆粗车循环指令教案

热门文章

  1. 篇2:基于windows10专业版搭建ftp服务器
  2. 什么是操作系统?操作系统介绍
  3. CornerNet论文详解CornerNet: Detecting Objects as Paired Keypoints
  4. 牛客练习赛50 F.tokitsukaze and Another Protoss and Zerg(分治+NTT)(模板题)
  5. 2015年12月学习计划
  6. pp模块常用表 sap_SAP 常用表 MM PP SD FICO PM PS QM WM 等
  7. numpy数据升维与降维
  8. Rock Paper将为圣地亚哥教士棒球队开发AR游戏
  9. 视频网站存储在服务器,网络视频存储服务器
  10. SylixOS学习二—— SylixOS认识和使用_SylixOS虚拟机使用