python爬虫抓取app列表的图标

爬虫简介

所谓的爬虫简单来说,就是通过不断的变化http请求的url,向服务器进行请求,从而获得服务器返回的相关数据,在这些数据中提取对自己有用的信息。

爬虫的步骤

构造url。根据自己想要抓取的信息,构造出相应的url。

请求url。根据上面构造的url,向服务器发起请求。(在python中可以用urllib、request库等)

提取数据。向服务器发起请求后,服务器会返回相关的数据(如:html、json、xml),在这些数据中提取对自己有用的信息(可以用正则表达式、BeautifulSoup、json、lxml等)。

保存数据。已特定的格式(csv文件)保存上面提取的数据,以便于后面进行数据分析。

例子

使用爬虫抓取app列表的图标,如微信、QQ、今日头条等。

构造url

打开豌豆荚首页,在搜索框中输入微信,进行搜索。豌豆荚服务器返回下图的页面,有搜索到app列表的信息和图标。

weixin.png

从上面的3个不同的app的http请求,我们可以发现,只是搜索的key值有所不同,比如微信的key为%E5%BE%AE%E4%BF%A1,QQ的key为QQ,今日头条的key为%E5%BE%AE%E4%BF%A1。这些值对应字符的utf-8编码 + url编码。也是说微信的utf-8为E5 BE AE E4 BF A1,格式化为url编码就是:%E5%BE%AE%E4%BF%A1。

所以对于不同的app应用要构造出不同请求的url,我们只需要改变上面http请求的key值,再向豌豆荚的服务器发送请求即可。

请求url

在python中可以使用urllib、request库等。

提取数据

发送http请求后,豌豆荚服务器会返回搜索的app列表。可以看到是一个html文档。用Chrome浏览器,查看返回的html文档,定位到相关的信息。如下图,可以看到,微信的图标的链接地址。这就是我们需要提取的数据。

img_link.png

在python中我们可以使用正则表达式来提取图标的链接地址,或者对于html可以使用BeautifulSoup来提取。

保存数据

上面提取的是图标的链接地址,我们可以再次用这个链接地址发起http请求,就可以得到相应图标的数据,然后把数据保存到磁盘中即可。

代码如下:

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

"""从豌豆荚应用市场抓取app列表的图标"""

from urllib.parse import quote

from urllib import request

from functools import wraps

import re

__author__ = 'heql'

def url_decorate(func):

@wraps(func)

def wrapper(*args, **kwargs):

print(*args)

if args:

return func(*args)

return wrapper

@url_decorate

def request_url(url):

"""请求url"""

cnt = 3

for i in range(cnt):

try:

with request.urlopen(url, timeout=20) as f:

return f.read()

except Exception as e:

if(i < cnt - 1):

print('request again')

else:

print('except:', e)

def save_icon(file_name, data):

with open(file_name, 'wb') as f:

f.write(data)

def get_icon_links(data, app_name, compare=None):

"""提取图标的链接"""

items = re.findall(r'(

(?:.|\n)*?)', data)

for item in items:

icon_link = re.search(r'

icon_app_name = re.search(r'class="name">(.*?)', item).group(1)

result = True if compare is None else compare(icon_app_name, app_name)

if result:

yield icon_app_name, icon_link

def read_app_list(file_name):

"""读取app列表"""

with open(file_name, encoding='utf-8') as f:

return [line.strip() for line in f if line.strip()]

def main():

app_name_list = read_app_list('app_list.txt')

url = 'http://www.wandoujia.com/search?key={0}&source=index'

for app_name in app_name_list:

data = request_url(url.format(quote(app_name, encoding='utf-8')))

if not data:

continue

for index, (icon_app_name, icon_link) in enumerate(get_icon_links(data.decode('utf-8'), app_name, lambda left, right: left == right)):

icon_data = request_url(icon_link)

if not icon_data:

continue

file_name = '{0}_{1}.png'.format(icon_app_name, index)

save_icon(file_name, icon_data)

if __name__ == '__main__':

main()

代码分析:

read_app_list函数: 从文件中读出app列表的名称,每一行对应一个app名称。

request_url函数: 使用urllib发送http请求。如果请求时发生异常(如:网络超时、url请求错误等),则再次发送请求,如果同一个url超过三次请求有误,则返回None。它有一个装饰器url_decorate,用于输出发送请求时的url。

get_icon_links函数: 用于提取服务器返回的数据。使用正则表达式findall匹配所有符合以

开始,以/h2>结束的选项。findall会返回一个list。然后对每个选项用整个表达式提取图标的链接和图标的名称。compare 是一个回调函数,当为None时表示要提取所有的图标信息,代码传入一个lambda表达式,lambda left, right: left==right表示只有提取的图标名称和搜索的图标的名称相同时,才返回其对应的图标链接。

save_icon函数: 写入图标的数据到指定的文件中。图标保存的名称是以名字_下标形式保存的,因为有可能会出现两个以上名字相同的数据,比如说:搜索可可英语。会有两个相同的app名称的应用。

使用BeautifulSoup提取html数据

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。

使用BeautifulSoup后能让代码更加简洁,对于上面的程序,我们只需修改get_icon_links即可。代码如下:

# 提取图标的链接

def get_icon_links(data, app_name, compare=None):

soup = BeautifulSoup(data, 'lxml')

for tag in soup.find_all('img'):

icon_link = tag['src']

icon_app_name = tag['alt']

result = True if compare is None else compare(icon_app_name, app_name)

if result:

yield icon_app_name, icon_link

pythonapp爬虫库_python爬虫抓取app列表的图标相关推荐

  1. python123 app下载_Python 逆向抓取 APP 数据

    今天继续给大伙分享一下 Python 爬虫的教程,这次主要涉及到的是关于某 APP 的逆向分析并抓取数据,关于 APP 的反爬会麻烦一些,比如 Android 端的代码写完一般会进行打包并混淆加密加固 ...

  2. python爬取app、返回的是加密数据_Python 逆向抓取 APP 数据

    今天继续给大伙分享一下 Python 爬虫的教程,这次主要涉及到的是关于某 APP 的逆向分析并抓取数据,关于 APP 的反爬会麻烦一些,比如 Android 端的代码写完一般会进行打包并混淆加密加固 ...

  3. python爬虫app步骤_Python爬虫抓取手机APP的传输数据,python爬虫抓取app

    Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...

  4. python获取app信息的库_Python学习教程:另辟蹊径,appium抓取app应用数据了解一下...

    作为爬虫工程师,没有价格不知道selenium的. 什么是selenium? Selenium原本是一个用于Web应用程序自动化测试工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一 ...

  5. [Python爬虫] 三、数据抓取之Requests HTTP 库

    往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式 一.urllib 模块 所谓网页抓取,就是把URL ...

  6. python爬虫beautifulsoup爬当当网_Python爬虫包 BeautifulSoup 递归抓取实例详解_python_脚本之家...

    Python爬虫包 BeautifulSoup  递归抓取实例详解 概要: 爬虫的主要目的就是为了沿着网络抓取需要的内容.它们的本质是一种递归的过程.它们首先需要获得网页的内容,然后分析页面内容并找到 ...

  7. 手机应用url抓取_Python爬虫入门,快速抓取大规模数据(第六部分)

    在前面的章节中,我们以尽量少的代码演示了爬虫的基本原理.如果只是需要抓取一些简单的数据,那么我们修改一下前面的代码就可以完成任务了.但是当我们需要完成一些复杂的大型抓取任务时,我们就需要考虑更多东西, ...

  8. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  9. python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取

    本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...

最新文章

  1. 中国互联网+固体饮料行业商业模式创新与投资机会深度研究报告
  2. jQuery之Ajax
  3. mysql 51cto 数据类型_Mysql数据类型
  4. mysql锁的一些理解简书_MySQL锁的基本概念
  5. --initialize specified but the data directory has files in it. Aborting.
  6. 使用DaemonSet+Taint/Tolerations+NodeSelector部署Nginx Ingress Controller
  7. 标准工时分析怎么做?精益生产下的VIOOVI 标准工时分析软件
  8. 代码走查,使用插件findbugs(eclipse)
  9. html 字体围绕图片效果
  10. 北京邮电大学计算机考研资料汇总
  11. xul 和xml区别_使用Atom XML和Firefox XUL实施Web剪切和粘贴
  12. 彩色图像色彩空间原理(理论篇—6)
  13. ps4如何设置虚拟服务器,PS5官方使用指南 账号设置/PS4传输数据/调整主机设定
  14. KFC肯德基带给孩子的危害(转)
  15. 科学与社会 ——摘自《爱因斯坦晚年文集》
  16. COVID-19席卷全球,看看GIS建模可视化能做些什么
  17. debian之网易云音乐的安装
  18. Unix时间戳(Unix timestamp)转换工具 - 站长工具
  19. 模拟电路设计中输入电阻、输出电阻的选择
  20. 蚁剑ASP连SQLSERVER执行xp_cmdshell爆 驱动程序不支持所需的属性 解决办法

热门文章

  1. vue首屏加载速度慢_Vue首屏加载速度优化如何提升80%?本文详解
  2. 推荐几款可以直接在手机上编程的app(包含Java、C、Python等)
  3. VMware发布Linux虚拟桌面技术预览版
  4. 默认页面设置html5,PHICOMM默认登录入口管理页面
  5. 2012网站服务器目录磁盘满了,服务器磁盘异常爆满的原因及解决方法
  6. NYOJ-845-无主之地1-2013年11月3日00:08:18
  7. win32 中GetLastError 关于code与信息
  8. 九城加设网游防沉迷 3千名玩家声称罢玩魔兽
  9. oracle查询和编写数据字典
  10. 【python】HTTP压力测试过程中遇到的问题与解决方案