爬取改版后的新浪微博粉丝评论，利用pandas存储。

模拟登录，抓取改版之后的新浪微博粉丝：昵称，头像，ID，评论。初次利用了pandas写入文件。/20171218

# 新浪微博的反扒措施：ajax加载，携带root，时间戳等参数“过于真实”的url将不显示全部信息，

# 所以从xhr中找到要请求的url后，还要将不需要的参数从url中删去，否则就中计啦啦啦

# 记得睡眠啊，而且设置成随机睡眠，不然被封号就是永久的！/20171218

# coding: utf-8from fake_useragent import UserAgent
import re
import requests
import pandas   # 没接触pandas之前，一条一条的往csv里写……
import time
import randomdef get_one_page(url):html = requests.get(url,headers = headers,cookies = cookies)html_return = html.json()['data']['html']  # html.text无返回，说明不是text格式的#print(html_return)return html_returndef parse_one_page(html_return):pattern = re.compile(r'com.(\d+)"><img alt="(.+?)" src="(.+?)" usercard="(.+?)"></a>.*?</a>：(.+?)</div>',re.S)data = re.findall(pattern,html_return)#print(data)return datadef write_to_file(data):data_to_write = pandas.DataFrame(data)data_to_write.to_csv('test.csv',header = False,index = False,mode = 'a+') # 去掉表头行和索引列def main(i):url = 'https://weibo.com/aj/v6/comment/big?ajwvr=6&id=4185536291212647&page='+str(i)+'&filter=hot&filter_tips_before=0&from=singleWeiBo' html_return = get_one_page(url)                                           # 去掉了不必要的参数后的urldata = parse_one_page(html_return)write_to_file(data)headers = {'User-Agent': UserAgent().random}cookies = {'Cookie':'balabala'}if __name__=='__main__':for i in range(1,10):main(i)time.sleep(random.uniform(2,6))

爬取改版后的新浪微博粉丝评论，利用pandas存储。相关推荐

利用scrapy爬取文件后并基于管道化的持久化存储
我们在pycharm上爬取首先我们可以在本文件打开命令框或在Terminal下创建 scrapy startproject xiaohuaPro ------------创建文件 scrapy ...
利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中
我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息那么我们需要将 ...
爬取网易云某歌曲所有评论，并输出词云图
声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! 项目场景: 我上一篇文章写了网易云参数的解密,这次我们来爬取画画的baby的全部评论. 解决方案: 1.先来看看评 ...
【python】爬虫入门：爬取网易云音乐的歌曲评论、用户歌单、用户听歌记录等
目录一.概述二.爬取流程 1.爬取评论 1.1.资源定位 1.2.爬取准备 1.3.代码实现 2.爬取听歌记录 2.1.资源定位 2.2.爬取准备 2.3.js劫持三.总结一.概述第一次学爬 ...
爬取《水门桥》电影评论生成可视化数据及词云
一.爬取电影评论壬寅年春节贺岁电影<长津湖-水门桥>,为了分析这部剧的各项数据,用爬虫的方法从猫眼上爬取了4万多条电影评论. 1.为了防止地址被禁,使用了代理地址池进行爬取: 设置代理地 ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下: http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件 ...
Python爬虫爬取猫眼电影风语咒影评评论信息
风语咒作为扛起国漫崛起的又一国漫之作,爬取风语咒猫眼的电影评论数据,以便对其评论做之后的数据分析. 此次demo的流程图如下: 一.找到猫眼电影中风语咒影评得json数据: l 找出url后,往下滚动 ...
爬取去哪儿酒店信息及评论
爬取去哪儿酒店信息及评论第一步,获取城市列表 import requests import json import codecs# 去哪儿城市列表 url = "https://touch ...
python3 爬虫爬取华为应用市场 APP应用评论（一）爬取全部评论——学霸君
python3 爬虫爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...

爬取改版后的新浪微博粉丝评论，利用pandas存储。

爬取改版后的新浪微博粉丝评论，利用pandas存储。相关推荐

最新文章

热门文章