分享一个小技巧,对于一些有反爬机制网站的爬取,可以从wap端入手。比如百度云的资料。

具体代码如下:

#coding:utf-8
'''
Created on 2016年2月27日
@author: Jay
'''
import urllib
import urllib2
import re
import timeuk=2214641459
url0='http://yun.baidu.com/share'
url1='http://yun.baidu.com/wap/share/home?third=0&uk='+str(uk)+'&start='
'''
proxy = {'http':'27.24.158.155:84'}
proxy_support = urllib2.ProxyHandler(proxy)
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)exemples:
pages:
url='http://yun.baidu.com/wap/share/home?third=0&uk=2214641459&start='
links:
url='http://yun.baidu.com/wap/link?uk=2214641459&shareid=640316896&third=0'
'''
def getResponse(url):headers = {"User-Agent":"Mozilla/5.0 (Linux; Android 4.4.2; Nexus 4 Build/KOT49H)"}request=urllib2.Request(url,headers=headers)res=urllib2.urlopen(request).read()return resdef getNames(response):pattern = re.compile('<h3>(.+?)</h3>')names=re.findall(pattern, response)return namesdef getLinks(response):response=re.sub('amp;','',response)pattern = re.compile('"list-item"\shref="/wap(.+?)"')links=re.findall(pattern, response)return [url0+i for i in links]def getTitle(response):pattern = re.compile('<title>(.+?)</title>')title=re.search(pattern, response)return titledef getTotalNum(response):pattern = re.compile('totalCount:"(\d+)"')num=re.search(pattern, response)return num.group(1)res=getResponse(url1)
#print res
f=open(r'/Volumes/File/Baidu_Share.txt','w')
num=getTotalNum(res)
#print num
MAX=(int(num)/20+1)*20
urls=[url1+str(i) for i in range(0,MAX,20)]for url in urls:#time.sleep(2)res=getResponse(url)names=getNames(res)print nameslinks=getLinks(res)com=zip(names,links)for c in com:f.write(c[0]+':'+'\n')f.write(c[1]+'\n'+'\n')
f.close()

百度云爬虫_python相关推荐

  1. 爬虫系列之百度云爬虫

    项目地址:GitHub - gudegg/yunSpider: 百度云网盘爬虫 百度云爬虫 安装使用 安装go与设置gopath clone项目到gopath目录 安装依赖 go get github ...

  2. python 百度百科 爬虫_python简单爬虫

    爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习 ...

  3. python百度翻译爬虫_Python爬虫教程-05-python爬虫实现百度翻译

    使用python爬虫实现百度翻译功能 python爬虫实现百度翻译: python解释器[模拟浏览器],发送[post请求],传入待[翻译的内容]作为参数,获取[百度翻译的结果] 通过开发者工具,获取 ...

  4. python百度翻译爬虫_Python的学习价值,python,爬,取,百度,翻译

    # 功能: 进行爬虫项目编写 # 开发时间: 2020/10/26 10:12 import requests import json if __name__ == '__main__': #进行UA ...

  5. python从入门到精通视频百度云资源_python从入门到精通视频(全60集)声音修复版...

    教程目录: 01Python编程语言历史及特性.mp4 02Python编程语言初接触.mp4 03Python程序文件结构.mp4 04准备Python编程环境.mp4 05Python编程语言基础 ...

  6. opencvpython教程百度云资源_Python+OpenCV图像处理入门,视频教程下载

    课程介绍: 李老师讲课生动.深入浅出,出版OpenCV编程案例详解.Python-OpenCV图穷录.MATLAB图像处理.MATLAB图像案例教程等在线课程. 本课程系统概括了Python-Open ...

  7. python计算机视觉pdf百度云下载_Python计算机视觉编程pdf

    Python计算机视觉编程 内容简介 <Python计算机视觉编程>是计算机视觉编程的实践指南,依赖Python语言讲解了基础理论与算法,并通过大量示例细致分析了对象识别.基于内容的图像搜 ...

  8. python爬虫百度云资源分享吧_python爬虫入门 实战(七)---爬取并闪存微信群里的百度云资源...

    (声明:本篇文章以交流技术为目的,希望大家支持正版,支持院线~) 需求背景: 最近误入一个免费(daoban)资源的分享群(正经脸),群里每天都在刷资源链接.但是大家都知道,百度云的分享链接是很容易被 ...

  9. 尹成python爬虫百度云_Python爬虫实战:抓取并保存百度云资源

    寻找并分析百度云的转存api 首先你得有一个百度云盘的账号,然后登录,用浏览器(这里用火狐浏览器做示范)打开一个分享链接.F12打开控制台进行抓包.手动进行转存操作:全选文件->保存到网盘-&g ...

最新文章

  1. org.apache.ibatis.binding.BindingException: Parameter 'username' not found. Available parameters
  2. 2018.10.17考试
  3. Java虚拟机调用jni_JNI攻略之十一――启动虚拟机调用java类
  4. 优秀的Android资源
  5. cat3 utp是不是网线_小科普 | 网线也有高低?聊聊网线的差别
  6. golang python扩展_Python: C扩展初体验
  7. 【CCS】CCS全局搜索
  8. TypeScript 3.7 发布,带来 Optional Chaining 等特性
  9. python百题百练 二级题目_计算机二级选择题(公共基础新大纲)
  10. Mirantis决定采用Kubernetes作为 Openstack的生命周期管理工具
  11. 如何解决Backup Exec Remote Agent推送安装失败的问题
  12. jquery的基本使用-入口函数
  13. 新手学三菱PLC编程的常见错误总结
  14. Access数据库—第一章 数据库和表
  15. 映美精IC Imageing Control .net控件调试问题
  16. 一文看懂互联网支付系统整体架构
  17. android外设键盘按键映射表
  18. CentOS7 开启路由转发
  19. JPEG图像存储格式
  20. 深度学习实例——Flappy Bird

热门文章

  1. python怎么表示循环小数_循环小数表示法
  2. 《算法图解》——第五章 散列表(服务器大姨妈来了?第四第五内容传不上去= =!)
  3. 【七夕如何根据情侣倾听的音乐进行薅羊毛】背景音乐是否会影响情侣对酒的选择
  4. Java并发编程学习笔记——volatile与synchronized关键字原理及使用
  5. 《国资报告》专访高煜光 | 国企数字化转型如何拥抱超自动化?
  6. CentOS 7 下安装 Nginx
  7. 360浏览器等被金山毒霸网强制霸占问题解决
  8. linux下和嵌入式linux下通过udp接收来自vlc播放器的视频并转发播放
  9. I-NUIST南京信息工程大学Android设备校园网自动登录
  10. ipados 文件 连接服务器,如何管理iPad文件 iPadOS14使用教程