python人人语音爬虫(登陆尚未完成,需要使用先登录在查cookie中的t)
2019独角兽企业重金招聘Python工程师标准>>>
import urllib, urllib2, cookielib,re,jsondef LoginRenren(url,t_cookie):cookie = {"t": t_cookie}#cookie中的t需要到浏览器中去查cookie = "".join(x + "=" + cookie[x] + ";" for x in cookie)opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookielib.CookieJar()))urllib2.install_opener(opener)req = urllib2.Request(url) req.add_header('Cookie', cookie)content = urllib2.urlopen(req).read()return contentdef searchMp3(content): reMp3 = r'http://fmn.rrimg.com/fmn\d{3}/audio/\d{8}/\d{4}/\w+.mp3'mp3Url = re.findall(reMp3,content)return mp3Urldef downloadMp3(mp3Url,num):localPath = r"C:\Users\john\Desktop\renrenMp3\%d.mp3"%numurllib.urlretrieve(mp3Url,localPath)def main(albumUrl,t_cookie):#firstpagenum = 0pageNum = 0mp3Url= []while True:pageUrl = albumUrl+'/bypage/ajax?curPage=%d&pagenum=40'%pageNumjsonContent = LoginRenren(pageUrl,t_cookie)content = json.loads(jsonContent)if content["photoList"]:tempList = searchMp3(jsonContent)mp3Url = mp3Url+tempListelse:breakpageNum +=1print mp3Urlfor eachMp3 in mp3Url:num+=1downloadMp3(eachMp3,num)if __name__=='__main__':#albumUrl = raw_input("albumUrl=")#http://photo.renren.com/photo/465457202/album-868663788#t_cookie = raw_input("t_cookie=")#134cc936f2785fa03902fe3185e517f64albumUrl = 'http://photo.renren.com/photo/465457202/album-868663788't_cookie = '134cc936f2785fa03902fe3185e517f64'main(albumUrl,t_cookie)
转载于:https://my.oschina.net/u/1159199/blog/226584
python人人语音爬虫(登陆尚未完成,需要使用先登录在查cookie中的t)相关推荐
- 【python爬虫实战】python3.7+selenium3.7 登录天眼查网站查询企业的公开信息
[xpath使用详解] http://www.cnblogs.com/VseYoung/p/8686383.html 通过xpath 父子节点.兄弟节点反查目标节点的方式来定位标签,使得python代 ...
- python人人贷爬虫_爬取人人贷网上部分借贷信息以及数据可视化
一.主题式网络爬虫设计方案:爬取人人贷网上部分借贷信息 1.主题式网络爬虫名称:爬取人人贷网上部分信息 2.主题式网络爬虫的内容与数据特征分析:爬取人人贷部分信息数据,借贷信息 3.主题式网络爬虫设计 ...
- python淘宝爬虫登陆功能和下单功能_Python 爬虫实战5 模拟登录淘宝并获取所有订单...
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 本篇内容 python模拟登录淘宝网页 获取登录用户的所有订单详情 ...
- python淘宝爬虫登陆功能和下单功能_Python爬虫实战五之模拟登录淘宝并获取所有订单 | 静觅...
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示 更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
- python构造referer_Python爬虫小偏方:修改referer绕开登录和访问频率限制
看官们在写爬虫程序时应该都会遇到如下问题: 你的爬虫程序开发时能正常抓取网页,但是正式大量抓取时,抓取的网站总是返回403或者500等: 你抓取的网站需要登录,要花大量时间去研究网站登录流程. 遇到问 ...
- python基础与爬虫笔记
做java项目毕设前想通过爬虫爬取些数据存入数据库,从而在毕设中使用到,所以大致学习了一下python和爬虫做了下笔记. 大致过了一遍视频:https://www.bilibili.com/video ...
- python爬虫小说代码示例-Python从零开始写爬虫-4 解析HTML获取小说正文
Python从零开始写爬虫-4 解析HTML获取小说正文 在上一节中, 我们已经学会如何获取小说的目录, 这一节我们将学习如何通过正则表达式(在第二节学习过)来获取小说正文. 首先, 先随便选择一个章 ...
- python爬虫设计在哪里_《python 爬虫教程 知乎》 怎样用Python设计一个爬虫模拟登陆知乎...
<python 爬虫教程 知乎> 怎样用Python设计一个爬虫模拟登陆知乎 python 爬虫教程 知乎2020-09-23 01:45:13人已围观 怎样用Python设计一个爬虫模拟 ...
- python爬虫登陆教程_(python模拟登陆教程)python爬虫模拟登录是什么意思
python爬虫模拟登录是什么意思 网站需要登录后才能所需要的信息,此时可以设计爬虫进拟登录,原理是利用浏cookie. 一.浏览器访问服务器的过程: (1)浏览器(客户端)向Web服务器发出一个HT ...
最新文章
- CDQ 分治算法模板
- python中判断字符串的常用操作
- MySQL常用函数 一
- 漫步最优化十七——点对点映射
- java 运行500错误_MyEclipse运行JAVA Web时出现HTTP Status 500错误
- VS Code 轻量级插件推荐
- 软件设计原则(二) 接口隔离原则
- ABAP学习笔记之五-报表的事件 [翱翔云天 ]
- Java利用MessageDigest获取字符串或文件MD5详解
- 本文来自合作伙伴“阿里聚安全”.
- 前端三件套系例之JS——JavaScript内置方法
- 2048游戏DQN实验
- WTL 自绘控件库 (CQsRadioBox)
- 在NS2(2.35版本)中添加 Ping协议
- DEFCON GROUP 010上竟玩了这些好玩的东西!
- Open Infrastructure丹佛峰会即将召开,这些边缘计算议题等你来听
- 《分析服务从入门到精通读书笔记》第一章、维度数据仓库(4)
- 基于SpringBoot的淘宝商城系统
- 如何使用万能地图下载器下载矢量路网
- html点击图标出现日历,日历图标的纯CSS实现