怎样用python爬新浪微博大V所有数据

先上结论,通过公开的api如爬到某大v的所有数据,需足以下两个条件:

1、在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000,twitter是3200。

2、爬虫程序必须不间断运行。

新浪微博的api基本完全照搬twitter,其中接口的参数特性与底层的NoSQL密不可分,建议先看点Nosql数据库的设计理念有助于更好的理解api设计。

一般来说,如果决定爬某个大v,第一步先试获取该用户的基本信息,中间会包含一条最新的status,记下其中的id号作为基准,命名为baseId。

接口中最重要的两个参数:

since_id:返回ID比since_id大的微博(即比since_id时间晚的微博),默认为0。

max_id:返回ID小于或等于max_id的微博,默认为0。

出于各种原因,获取statuses的接口,固定为按id降序排列(scan_index_forward=false),即最新的statuses返回在前。假设该微博第一天上线,就一个用户,发了一百条,id是1到100。而你在该用户发了第50条的时候开始运行的爬虫,即baseId=50。

如何使用python爬取到高清原图

# -*- coding:utf8 -*-

# 2013.12.36 19:41 wnlo-c209

# 抓取dbmei.com的图片

from bs4 import BeautifulSoup

import os, sys, urllib2

# 创建文件夹,昨天刚学会

path = os.getcwd()        # 获取此脚本所在目

new_path = os.path.join(path,u'豆瓣妹子')

if not os.path.isdir(new_path):

os.mkdir(new_path)

def page_loop(page=0):

url = 'http://www.dbmeizi.com/?p=%s' % page

content = urllib2.urlopen(url)

soup = BeautifulSoup(content)

my_girl = soup.find_all('img')

# 加入结束检测,写的不好....

if my_girl ==[]:

print u'已经全部抓取完毕'

sys.exit(0)

print u'开始抓取'

for girl in my_girl:

link = girl.get('src')

flink = 'http://www.dbmeizi.com/'   link

print flink

content2 = urllib2.urlopen(flink).read()

with open(u'豆瓣妹子' '/' flink[-11:],'wb') as code:#在OSC上现学的

code.write(content2)

page = int(page)   1

print u'开始抓取下一页'

print 'the %s page' % page

page_loop(page)

page_loop()

print "~~~~~~~~~~~~~~~~~~~~~~~~~~END~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~"

#为了避免双击的时候直接一闪退出,在最后面加了这么一句

raw_input("Press To Quit!")

如何使用python爬取豆瓣个人相册里的高清原图?

给你个链接看看,改下正则表达式就可以了

python爬虫

用python 爬取微博评论,怎么打开微博评论下的查看更多

基本的套路就是利博账号模拟登陆,这个过程复杂,因为微博有处理,去github下载一个python模拟登陆新浪的源码。

当你通过模拟登陆进入微博界面的时候,尝试如何用python的模块去提交query,然后通过beautifulsoup或者是httpparse来获取内容信息。当然,自己学习正则表达式来获取也是可以的。

版权声明:本站所有文章皆为原创,欢迎转载或转发,请保留网站地址和作者信息。

python3爬取微博评论教程_用python 爬取微博评论,怎么打开微博评论下的查看更多|...相关推荐

  1. python的歌曲评论数据分析_用Python爬取陈奕迅歌曲10万条评论的新发现

    一.抓数据 要想做成词云图表,首先得有数据才行.于是需要一点点的爬虫技巧. 基本思路为:抓包分析.加密信息处理.抓取热门评论信息 1.抓包分析 我们首先用浏览器打开网易云音乐的网页版,进入陈奕迅< ...

  2. python制作pdf教程_学以致用:Python爬取廖大Python教程制作pdf!

    学以致用:Python爬取廖大Python教程制作pdf! python-tutorial-pdf 当我学了廖大的Python教程后,感觉总得做点什么,正好自己想随时查阅,于是就开始有了制作PDF这个 ...

  3. python爬取国家男女比例_用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?...

    用python爬取3万多条评论,看韩国人如何评价韩国电影<寄生虫>? 朱小五 凹凸数据 大家好,我是朱小五 今天给大家带来一个关于电影的数据分析文章. 别走啊,这次不是豆瓣,也不是猫眼 真 ...

  4. python爬取b站用户_用Python爬取bilibili全站用户信息

    教你用Python爬取哔哩哔哩全站用户信息 运行 下载 git clone https://github.com/cexll/bili_user_Spider.git 复制代码 运行环境 Window ...

  5. python爬知识星球付费数据_用python爬取知识星球

    去年我们做过一个叫「学长问答」的社群活动,里面沉淀了大量有价值的互动信息,后来因为各种原因终止了.今天和涂腾聊起来,觉得这些信息就这么沉寂了太浪费.所以就试着用python爬取了知识星球的内容. 这个 ...

  6. python爬取电脑本地数据_利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息...

    原标题:利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息 新型肺炎肆虐全国,可以预知,最近一两年地理学中会有一部分论文研究新型肺炎的空间分布及与其他指标的关联分析.获取其患病人 ...

  7. python新闻评论分析_使用 python 抓取并分析京东商品评论数据

    本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...

  8. python 爬取链家数据_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  9. python爬虫爬取qq空间说说_用python爬取qq空间说说

    环境:PyCharm+Chorme+MongoDB Window10 爬虫爬取数据的过程,也类似于普通用户打开网页的过程.所以当我们想要打开浏览器去获取好友空间的时候必定会要求进行登录,接着再是查看说 ...

最新文章

  1. Apache认证、授权和访问控制
  2. Kubernetes之yaml文件详解(汇总-详细)
  3. SAP Spartacus 的页面设计思路
  4. 计算机游戏高少手电影,支持switch,还有电影特技!上手简评骨伽IMMERSA Ti游戏耳机...
  5. 也来学学插件式开发续-利用MEF
  6. Python-在线文本情感分析实验
  7. csu 1812: 三角形和矩形 凸包
  8. 如何让一个层关闭之后,就算刷新页面了也不显示。除非关闭页面再次打开
  9. css盒模型(附图解)
  10. 三角网导线平差实例_三角网间接平差示例
  11. 米思齐Mixly图形化编程---呼吸灯与可调档位灯
  12. 家里计算机网络布局图,图解八种家庭网络常规布局优缺点
  13. Python随记(27)bs4爬取豆瓣250
  14. 雷达一维距离像怎么用matlab仿真出来,雷达目标识别之一维距离像的学习
  15. windows下VS中各种C++库的集成
  16. ESLint配置详解
  17. 中科燕园GIS外包--移动GIS
  18. FT2000+ PBF编译手册
  19. 汽车之家搜索算法工程师招聘
  20. 部署报错$notify

热门文章

  1. 联想g400从u盘启动计算机,联想g400笔记本设置U盘启动的图文步骤
  2. 用科学计算机求arctan,计算器arctan怎么按
  3. 换挡周期下,谁将成为厨电品牌的进取者?
  4. Cisco路由器重置enable密码步骤
  5. UR机器人返回信息格式解析
  6. FFmpeg 工具:音视频开发都用它,快@你兄弟来看丨音视频工具
  7. S7200SMART 软件在虚拟机中连接PLC笔记
  8. SpringBoot中重试框架——Spring-retry与Guava-Retry
  9. 中国帆船行业现状分析及发展前景展望报告2022-2028年
  10. Linux系统日志管理