爬取改版后的新浪微博粉丝评论,利用pandas存储。
模拟登录,抓取改版之后的新浪微博粉丝:昵称,头像,ID,评论。初次利用了pandas写入文件。/20171218
# 新浪微博的反扒措施:ajax加载,携带root,时间戳等参数“过于真实”的url将不显示全部信息,
# 所以从xhr中找到要请求的url后,还要将不需要的参数从url中删去,否则就中计啦啦啦
# 记得睡眠啊,而且设置成随机睡眠,不然被封号就是永久的!/20171218
# coding: utf-8from fake_useragent import UserAgent
import re
import requests
import pandas # 没接触pandas之前,一条一条的往csv里写……
import time
import randomdef get_one_page(url):html = requests.get(url,headers = headers,cookies = cookies)html_return = html.json()['data']['html'] # html.text无返回,说明不是text格式的#print(html_return)return html_returndef parse_one_page(html_return):pattern = re.compile(r'com.(\d+)"><img alt="(.+?)" src="(.+?)" usercard="(.+?)"></a>.*?</a>:(.+?)</div>',re.S)data = re.findall(pattern,html_return)#print(data)return datadef write_to_file(data):data_to_write = pandas.DataFrame(data)data_to_write.to_csv('test.csv',header = False,index = False,mode = 'a+') # 去掉表头行和索引列def main(i):url = 'https://weibo.com/aj/v6/comment/big?ajwvr=6&id=4185536291212647&page='+str(i)+'&filter=hot&filter_tips_before=0&from=singleWeiBo' html_return = get_one_page(url) # 去掉了不必要的参数后的urldata = parse_one_page(html_return)write_to_file(data)headers = {'User-Agent': UserAgent().random}cookies = {'Cookie':'balabala'}if __name__=='__main__':for i in range(1,10):main(i)time.sleep(random.uniform(2,6))
爬取改版后的新浪微博粉丝评论,利用pandas存储。相关推荐
- 利用scrapy爬取文件后并基于管道化的持久化存储
我们在pycharm上爬取 首先我们可以在本文件打开命令框或在Terminal下创建 scrapy startproject xiaohuaPro ------------创建文件 scrapy ...
- 利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中
我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中 下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息 那么我们需要将 ...
- 爬取网易云某歌曲所有评论,并输出词云图
声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 项目场景: 我上一篇文章写了网易云参数的解密,这次我们来爬取画画的baby的全部评论. 解决方案: 1.先来看看评 ...
- 【python】爬虫入门:爬取网易云音乐的歌曲评论、用户歌单、用户听歌记录等
目录 一.概述 二.爬取流程 1.爬取评论 1.1.资源定位 1.2.爬取准备 1.3.代码实现 2.爬取听歌记录 2.1.资源定位 2.2.爬取准备 2.3.js劫持 三.总结 一.概述 第一次学爬 ...
- 爬取《水门桥》电影评论生成可视化数据及词云
一.爬取电影评论 壬寅年春节贺岁电影<长津湖-水门桥>,为了分析这部剧的各项数据,用爬虫的方法从猫眼上爬取了4万多条电影评论. 1.为了防止地址被禁,使用了代理地址池进行爬取: 设置代理地 ...
- Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下: http://www.demodashi.com/demo/13257.html 1. 需求说明 本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件 ...
- Python爬虫爬取猫眼电影风语咒影评评论信息
风语咒作为扛起国漫崛起的又一国漫之作,爬取风语咒猫眼的电影评论数据,以便对其评论做之后的数据分析. 此次demo的流程图如下: 一.找到猫眼电影中风语咒影评得json数据: l 找出url后,往下滚动 ...
- 爬取去哪儿酒店信息及评论
爬取去哪儿酒店信息及评论 第一步,获取城市列表 import requests import json import codecs# 去哪儿城市列表 url = "https://touch ...
- python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——学霸君
python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...
最新文章
- 视频关键帧提取 java_JavaCV实现将视频以帧方式抽取
- 14年阿里巴巴管理经验总监:教你管理7步心法(演讲全文)
- 20180513模拟赛
- Matlab中的图形句柄(转载)
- 在GridView中如何格式化Money型字段?
- 07-阻塞赋值与非阻塞赋值原理分析——小梅哥FPGA设计思想与验证方法视频教程配套文档...
- 壊小子的学习【程序开发学习篇】(一)培训时期的学习
- html如何设置字符类型,html 空格字符类型
- Java中关于String类型的10个问题
- MacOS 的 Automator 实用案例详解
- linux下mysql 有双机_在Linux环境下配置mysql cluster双机集群
- python对比不同大小的图片_使用Python 制作对比图片相似度的程序怎么比较?
- ORM数据库框架 LitePal SQLite MD
- paip.PHP实现跨平台跨语言加解密方法
- windows 8 Skydrive
- 人脸识别 java_基于Java实现人脸识别功能(附源码)
- java 生成32位字符串
- 软考程序员Java答题速成_软考程序员考试下午考题解答技巧方法
- 华为 emui 刷机解锁及回锁教程
- 大数据杀熟已被明令禁止!