python爬虫实战案例-Python爬虫实战案例：手机APP抓包爬虫

1. items.pyclass DouyuspiderItem(scrapy.Item):

name = scrapy.Field()# 存储照⽚的名字

imagesUrls = scrapy.Field()# 照⽚的 url 路径

imagesPath = scrapy.Field()# 照⽚保存在本地的路径

2. spiders/douyu.pyimport scrapy

import json

from douyuSpider.items import DouyuspiderItem

class DouyuSpider(scrapy.Spider):

name = "douyu"

allowd_domains = ["http://capi.douyucdn.cn"]

offset = 0

url = "http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&

offset="

start_urls = [url + str(offset)]

def parse(self, response): # 返回从 json⾥获取 data 段数据集合

data = json.loads(response.text)["data"] # 如果 data⾥⾯没有值，那么就直接退出函数

#if not data:

# return

for each in data:

item = DouyuspiderItem()

item["name"] = each["nickname"]

item["imagesUrls"] = each["vertical_src"]

yield item

self.offset += 20

yield scrapy.Request(self.url + str(self.offset), callback =

self.parse)

3. 设置 setting.pyITEM_PIPELINES = {'douyuSpider.pipelines.ImagesPipeline': 1} # Images 的存放位置，之后会在 pipelines.py⾥调⽤

IMAGES_STORE = "/Users/Power/lesson_python/douyuSpider/Images"

# user-agent

USER_AGENT = 'DYZB/2.290 (iPhone; iOS 9.3.4; Scale/2.00)'

4. pipelines.pyimport scrapy

import os

from scrapy.pipelines.images import ImagesPipeline

from scrapy.utils.project import get_project_settings

class ImagesPipeline(ImagesPipeline):

IMAGES_STORE = get_project_settings().get("IMAGES_STORE")

def get_media_requests(self, item, info):

image_url = item["imagesUrls"]

yield scrapy.Request(image_url)

def item_completed(self, results, item, info): # 固定写法，获取图⽚路径，同时判断这个路径是否正确，如果正确，就放到 image_path⾥，ImagesPipeline 源码剖析可⻅

image_path = [x["path"] for ok, x in results if ok]

os.rename(self.IMAGES_STORE + "/" + image_path[0], self.IMA

GES_STORE + "/" + item["name"] + ".jpg")

item["imagesPath"] = self.IMAGES_STORE + "/" + item["name"]

return item

#get_media_requests 的作⽤就是为每⼀个图⽚链接⽣成⼀个 Request 对象，这

个

⽅法的输出将作为 item_completed 的输⼊中的 results，results 是⼀个元组，

每个元组包括 (success, imageinfoorfailure) 。如果 success=true ，

imageinfo or_failure 是⼀个字典，包括 url/path/checksum 三个 key。

在项⽬根⽬录下新建 main.py⽂件,⽤于调试from scrapy import cmdline

cmdline.execute('scrapy crawl douyu'.split())

执⾏程序py2 main.py

获取完整Python爬虫视频教程请点：python网络爬虫课程。

python爬虫实战案例-Python爬虫实战案例：手机APP抓包爬虫相关推荐

（实战项目一）手机App抓包爬虫
手机App抓包爬虫 1. items.py class DouyuspiderItem(scrapy.Item):name = scrapy.Field()# 存储照片的名字imagesUrls = ...
Spider爬虫--手机App抓包爬虫
需求:手机抓包和下载图片(图片重命名) 1. 抓包工具准备 1.1 Fiddler 该软件端口默认是8888 1.2 猎豹免费WiFi: 1.3 手机设置代理服务器使用命令ipconfig在wind ...
Python:Scrapy实战项目手机App抓包爬虫
1. items.py class DouyuspiderItem(scrapy.Item):name = scrapy.Field()# 存储照片的名字imagesUrls = scrapy.Fie ...
爬虫之手机APP抓包教程-亲测HTTP和HTTPS均可实现
当下很多网站都有做自己的APP端产品,一个优秀的爬虫工程师,必须能够绕过难爬取点而取捷径,这是皆大欢喜的.但是在网上收罗和查阅了无数文档和资料,本人亲测无数次,均不能正常获取HTTPS数据,究其原因是 ...
爬虫——Scrapy框架案例一：手机APP抓包
以爬取斗鱼直播上的信息为例: URL地址:http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&offset=0 爬取字段:房间ID. ...
android 动态数据抓取,mitmproxy抓取Keep热门动态-安卓APP抓包爬虫案例
使用mitmproxy来抓取Keep首页热门动态.鳄鱼君也是费了一天的时间去测试,在这里需要提醒大家抓包不要使用Android系统超过7.0的手机,Android系统越高手机越安全,而我们的抓包很显然 ...
使用Fiddler对手机APP抓包渗透测试实战
朋友让帮忙投票,想着随手一测,没想到真有洞还 web端点击就提示下载手机app,不知道他是咋检测的,就下了某日报app 既然是app,首先使用 fiddler 抓取手机流量,用电脑模拟器或者手机设置代 ...
猫眼APP抓包——爬虫
我们打开猫眼电影PC端官网,发现只有十几条评论,而绝大多数评论都是在App上,因此我们需要从App上获取评论数据. 一般地,我们要获取App数据就必须通过抓包软件进行分析,找到对应的接口,我们找到借口 ...
《Python爬虫100例》复盘⑦，解决手机APP爬虫环境问题
文章目录案例 41:Fiddler+夜神模拟器案例 42:爬取儿歌多多APP数据案例 43:百思不得姐APP数据案例 44:Charles安装与使用案例 45:Charles抓取兔儿故事案 ...

python爬虫实战案例-Python爬虫实战案例：手机APP抓包爬虫

python爬虫实战案例-Python爬虫实战案例：手机APP抓包爬虫相关推荐

最新文章

热门文章