模拟登录,抓取改版之后的新浪微博粉丝:昵称,头像,ID,评论。初次利用了pandas写入文件。/20171218

# 新浪微博的反扒措施:ajax加载,携带root,时间戳等参数“过于真实”的url将不显示全部信息,

# 所以从xhr中找到要请求的url后,还要将不需要的参数从url中删去,否则就中计啦啦啦

# 记得睡眠啊,而且设置成随机睡眠,不然被封号就是永久的!/20171218

# coding: utf-8from fake_useragent import UserAgent
import re
import requests
import pandas   # 没接触pandas之前,一条一条的往csv里写……
import time
import randomdef get_one_page(url):html = requests.get(url,headers = headers,cookies = cookies)html_return = html.json()['data']['html']  # html.text无返回,说明不是text格式的#print(html_return)return html_returndef parse_one_page(html_return):pattern = re.compile(r'com.(\d+)"><img alt="(.+?)" src="(.+?)" usercard="(.+?)"></a>.*?</a>:(.+?)</div>',re.S)data = re.findall(pattern,html_return)#print(data)return datadef write_to_file(data):data_to_write = pandas.DataFrame(data)data_to_write.to_csv('test.csv',header = False,index = False,mode = 'a+') # 去掉表头行和索引列def main(i):url = 'https://weibo.com/aj/v6/comment/big?ajwvr=6&id=4185536291212647&page='+str(i)+'&filter=hot&filter_tips_before=0&from=singleWeiBo' html_return = get_one_page(url)                                           # 去掉了不必要的参数后的urldata = parse_one_page(html_return)write_to_file(data)headers = {'User-Agent': UserAgent().random}cookies = {'Cookie':'balabala'}if __name__=='__main__':for i in range(1,10):main(i)time.sleep(random.uniform(2,6))

爬取改版后的新浪微博粉丝评论,利用pandas存储。相关推荐

  1. 利用scrapy爬取文件后并基于管道化的持久化存储

    我们在pycharm上爬取 首先我们可以在本文件打开命令框或在Terminal下创建 scrapy startproject xiaohuaPro   ------------创建文件 scrapy ...

  2. 利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中

    我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中 下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息 那么我们需要将 ...

  3. 爬取网易云某歌曲所有评论,并输出词云图

    声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 项目场景: 我上一篇文章写了网易云参数的解密,这次我们来爬取画画的baby的全部评论. 解决方案: 1.先来看看评 ...

  4. 【python】爬虫入门:爬取网易云音乐的歌曲评论、用户歌单、用户听歌记录等

    目录 一.概述 二.爬取流程 1.爬取评论 1.1.资源定位 1.2.爬取准备 1.3.代码实现 2.爬取听歌记录 2.1.资源定位 2.2.爬取准备 2.3.js劫持 三.总结 一.概述 第一次学爬 ...

  5. 爬取《水门桥》电影评论生成可视化数据及词云

    一.爬取电影评论 壬寅年春节贺岁电影<长津湖-水门桥>,为了分析这部剧的各项数据,用爬虫的方法从猫眼上爬取了4万多条电影评论. 1.为了防止地址被禁,使用了代理地址池进行爬取: 设置代理地 ...

  6. Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特

    代码地址如下: http://www.demodashi.com/demo/13257.html 1. 需求说明 本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件 ...

  7. Python爬虫爬取猫眼电影风语咒影评评论信息

    风语咒作为扛起国漫崛起的又一国漫之作,爬取风语咒猫眼的电影评论数据,以便对其评论做之后的数据分析. 此次demo的流程图如下: 一.找到猫眼电影中风语咒影评得json数据: l 找出url后,往下滚动 ...

  8. 爬取去哪儿酒店信息及评论

    爬取去哪儿酒店信息及评论 第一步,获取城市列表 import requests import json import codecs# 去哪儿城市列表 url = "https://touch ...

  9. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——学霸君

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...

最新文章

  1. 视频关键帧提取 java_JavaCV实现将视频以帧方式抽取
  2. 14年阿里巴巴管理经验总监:教你管理7步心法(演讲全文)
  3. 20180513模拟赛
  4. Matlab中的图形句柄(转载)
  5. 在GridView中如何格式化Money型字段?
  6. 07-阻塞赋值与非阻塞赋值原理分析——小梅哥FPGA设计思想与验证方法视频教程配套文档...
  7. 壊小子的学习【程序开发学习篇】(一)培训时期的学习
  8. html如何设置字符类型,html 空格字符类型
  9. Java中关于String类型的10个问题
  10. MacOS 的 Automator 实用案例详解
  11. linux下mysql 有双机_在Linux环境下配置mysql cluster双机集群
  12. python对比不同大小的图片_使用Python 制作对比图片相似度的程序怎么比较?
  13. ORM数据库框架 LitePal SQLite MD
  14. paip.PHP实现跨平台跨语言加解密方法
  15. windows 8 Skydrive
  16. 人脸识别 java_基于Java实现人脸识别功能(附源码)
  17. java 生成32位字符串
  18. 软考程序员Java答题速成_软考程序员考试下午考题解答技巧方法
  19. 华为 emui 刷机解锁及回锁教程
  20. 大数据杀熟已被明令禁止!

热门文章

  1. Apache Mina
  2. Android开发宇视监控播放,宇视科技视频监控(EZPlayer)
  3. 将两张(多张图片)合成一张图片
  4. 简单理解正态分布(概率密度函数)和68-95-99.7法则
  5. 大数据权限管理利器 - Ranger
  6. 前端开发与构建工具Vite
  7. java并发编程实战wwj----------------------第一阶段--------------31-32-33-34
  8. Python:实现寻峰算法(附完整源码)
  9. 练手小项目,爬取3DM图片
  10. 电子白板在教学应用中的特点