python3 scrapy 爬虫实战之爬取站长之家
爬取目标
站长之家:http://top.chinaz.com/all/
爬取工具
win10 python3 scrapy BeautifulSoup
爬取内容
1 网站缩略图 2 网站名称 3 网址 4 Alexa排名,5 百度权重 6 网站简介 7 网站得分
爬取理由
想着可以通过网站top 来注册一下 .app的域名,同时这也是一个顶级域名。亦或者进行一下数据分析,看下以后做哪种类型的网站会稍微有前途些(异想天开.gif)
爬取代码
因为用scrapy 用得熟练,这里只贴spider代码,其他工程代码,留言索取,即可。
- spider代码
# -*- coding: utf-8 -*-
# @Time : 2018/5/17 19:21
# @Author : 蛇崽
# @Email : 643435675@QQ.com
# @File : chinaztopSpider.py(网站总排名)
import scrapy
from bs4 import BeautifulSoupclass ChinaztopSpider(scrapy.Spider):name = 'chinaztop'allowed_domains = ['top.chinaz.com']start_urls = ['http://top.chinaz.com/all/']count = 0def parse(self, response):soup = BeautifulSoup(response.body,'lxml')li_list = soup.find('ul',class_='listCentent').find_all('li',class_='clearfix')for li in li_list:left_img = li.find('div',class_='leftImg').find('img',class_='')['src']detail_site_info = li.find('div',class_='leftImg').find('a',class_='')['href']site_com = li.find('h3',class_='rightTxtHead').find('span',class_='col-gray').get_text()rtc_data_alexa = li.find('p',class_='RtCData').find('a',class_='').get_text()site_info = li.find('p',class_='RtCInfo').get_text()print(response.urljoin(left_img))print(response.urljoin(detail_site_info))print(site_com)print(rtc_data_alexa)print(site_info)# 查找下一页next_links = soup.find('div',class_='ListPageWrap').find_all('a')for next_link in next_links:text = next_link.get_text()print('next-link ===== ',text)if '>' in text:nt_link = next_link['href']nt_link =response.urljoin(nt_link)print('nt_link ===== ',nt_link)self.count = self.count +1print('============== 当前抓取页数: ',self.count)yield scrapy.Request(nt_link,callback=self.parse)
这里的数据暂时只做打印,日后进行复盘。
爬取部分截图:
更多原创文章请访问:https://blog.csdn.net/xudailong_blog
python3 scrapy 爬虫实战之爬取站长之家相关推荐
- 初试python爬虫(简单爬取站长之家第一页图片)
爬取站长之家第一页图片 爬虫 ----需要借助第三方库 requests beautifulsoup4 html5lib 1.模拟浏览器发送请求 并且接收服务器的响应数据 requests 2.解析并 ...
- Python爬虫框架Scrapy入门(三)爬虫实战:爬取长沙链家二手房
Item Pipeline介绍 Item对象是一个简单的容器,用于收集抓取到的数据,其提供了类似于字典(dictionary-like)的API,并具有用于声明可用字段的简单语法. Scrapy的It ...
- python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片
随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...
- Python 爬虫实战入门——爬取汽车之家网站促销优惠与经销商信息
在4S店实习,市场部经理让我写一个小程序自动爬取汽车之家网站上自家品牌的促销文章,因为区域经理需要各店上报在网站上每一家经销商文章的露出频率,于是就自己尝试写一个爬虫,正好当入门了. 一.自动爬取并输 ...
- [python3.6]爬虫实战之爬取淘女郎图片
原博主地址:http://cuiqingcai.com/1001.html 原博是python2.7写的,并且随着淘宝代码的改版,原博爬虫已经不可用. 参考 http://minstrel.top/T ...
- scrapy爬虫实战(二)-------------爬取IT招聘信息
主要从智联招聘,51job,周伯通三个网站爬取IT类企业的招聘信息,并按照编程语言和职位数量和平均薪资进行统计,计算. 源代码github地址: https://github.com/happyAng ...
- [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...
- [day2]python网络爬虫实战:爬取美女写真图片(增强版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
- 使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站
使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站 本次测试案例参考厦门大学数据库实验室 链接: https://dblab.xmu.edu.cn/blog/3937/ 在PyCharm中新建 ...
最新文章
- 漫画:对象是如何被找到的?句柄 OR 直接指针?
- [恢]hdu 1412
- 尚硅谷-SpringBoot高级-检索-Elasticsearch快速入门
- sql loader 参数详解
- springboot使用mongodb
- mysql 字符设置与修改
- 为什么要使用语义化标签
- NPM酷库:cheerio,服务端jQuery接口实现
- node解决通过npm无法安装forever的方法
- springboot处理静态资源
- 434.字符串中的单词数
- quartus ii IP核的破解
- 专业网速测试软件哪个好,网速测试软件哪个好?6款热门网速测试软件推荐
- 自适应滤波器的设计(终极版)
- 程序员面试HR常问问题(含答案)
- vue实现关键字查询列表数据
- centos7-docker部署私有镜像仓库(docker-registry)
- 毕业论文完成,感谢帮助过我的人
- L1-7 天梯赛的善良 (20 分)
- oracle reco进程停止,ORA-01089 数据库无法正常关闭