python3 scrapy 爬虫实战之爬取站长之家

爬取目标

站长之家：http://top.chinaz.com/all/

爬取工具

win10 python3 scrapy BeautifulSoup

爬取内容

1 网站缩略图 2 网站名称 3 网址 4 Alexa排名，5 百度权重 6 网站简介 7 网站得分

爬取理由

想着可以通过网站top 来注册一下 .app的域名，同时这也是一个顶级域名。亦或者进行一下数据分析，看下以后做哪种类型的网站会稍微有前途些（异想天开.gif）

爬取代码

因为用scrapy 用得熟练，这里只贴spider代码，其他工程代码，留言索取，即可。

spider代码

# -*- coding: utf-8 -*-
# @Time    : 2018/5/17 19:21
# @Author  : 蛇崽
# @Email   : 643435675@QQ.com
# @File    : chinaztopSpider.py（网站总排名）
import scrapy
from bs4 import BeautifulSoupclass ChinaztopSpider(scrapy.Spider):name = 'chinaztop'allowed_domains = ['top.chinaz.com']start_urls = ['http://top.chinaz.com/all/']count = 0def parse(self, response):soup = BeautifulSoup(response.body,'lxml')li_list = soup.find('ul',class_='listCentent').find_all('li',class_='clearfix')for li in li_list:left_img = li.find('div',class_='leftImg').find('img',class_='')['src']detail_site_info = li.find('div',class_='leftImg').find('a',class_='')['href']site_com = li.find('h3',class_='rightTxtHead').find('span',class_='col-gray').get_text()rtc_data_alexa = li.find('p',class_='RtCData').find('a',class_='').get_text()site_info = li.find('p',class_='RtCInfo').get_text()print(response.urljoin(left_img))print(response.urljoin(detail_site_info))print(site_com)print(rtc_data_alexa)print(site_info)# 查找下一页next_links = soup.find('div',class_='ListPageWrap').find_all('a')for next_link in next_links:text = next_link.get_text()print('next-link   =====  ',text)if '>' in text:nt_link = next_link['href']nt_link =response.urljoin(nt_link)print('nt_link =====  ',nt_link)self.count = self.count +1print('==============   当前抓取页数： ',self.count)yield scrapy.Request(nt_link,callback=self.parse)

这里的数据暂时只做打印，日后进行复盘。

爬取部分截图：

更多原创文章请访问：https://blog.csdn.net/xudailong_blog

python3 scrapy 爬虫实战之爬取站长之家相关推荐

初试python爬虫（简单爬取站长之家第一页图片）
爬取站长之家第一页图片爬虫 ----需要借助第三方库 requests beautifulsoup4 html5lib 1.模拟浏览器发送请求并且接收服务器的响应数据 requests 2.解析并 ...
Python爬虫框架Scrapy入门（三）爬虫实战：爬取长沙链家二手房
Item Pipeline介绍 Item对象是一个简单的容器,用于收集抓取到的数据,其提供了类似于字典(dictionary-like)的API,并具有用于声明可用字段的简单语法. Scrapy的It ...
python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片
随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...
Python 爬虫实战入门——爬取汽车之家网站促销优惠与经销商信息
在4S店实习,市场部经理让我写一个小程序自动爬取汽车之家网站上自家品牌的促销文章,因为区域经理需要各店上报在网站上每一家经销商文章的露出频率,于是就自己尝试写一个爬虫,正好当入门了. 一.自动爬取并输 ...
[python3.6]爬虫实战之爬取淘女郎图片
原博主地址:http://cuiqingcai.com/1001.html 原博是python2.7写的,并且随着淘宝代码的改版,原博爬虫已经不可用. 参考 http://minstrel.top/T ...
scrapy爬虫实战(二)-------------爬取IT招聘信息
主要从智联招聘,51job,周伯通三个网站爬取IT类企业的招聘信息,并按照编程语言和职位数量和平均薪资进行统计,计算. 源代码github地址: https://github.com/happyAng ...
[day4]python网络爬虫实战：爬取美女写真图片(Scrapy版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...
[day2]python网络爬虫实战：爬取美女写真图片(增强版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
使用PyCharm编写Scrapy爬虫程序，爬取古诗词网站
使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站本次测试案例参考厦门大学数据库实验室链接: https://dblab.xmu.edu.cn/blog/3937/ 在PyCharm中新建 ...

python3 scrapy 爬虫实战之爬取站长之家

爬取目标

爬取工具

爬取内容

爬取理由

爬取代码

python3 scrapy 爬虫实战之爬取站长之家相关推荐

最新文章

热门文章