Python 话说是一门面向监狱编程的语言,吾等不信,前来尝试。。。。

开玩笑了~

前一段时间刚接触 Python 的时候,觉得有些不适应,特别是语法显得别扭,后来发现它和golang还是挺像的

同样的包管理调用机制:

python:
同样也是包管理机制: import requests
yum install pip
pip install  xxxx

友好一点直接上代码:代码中自带解析

值得一提的是Python的json数组处理真不方便 代码中有处理

import requests    //是不是和 go使用 的import  引用包一样一样的
import datetime
import json
import sys
from bs4 import BeautifulSoup    //爬虫最常用的包def excuteSpider(url,headers,session,):   //封装的函数方式  别扭,特别是以对齐方式的语法req = session.get(url, headers=headers)bsObj = BeautifulSoup(req.text, 'html.parser')rankList = bsObj.findAll("div", {"class": "rank-index"})linkList = bsObj.findAll("span", {"class": "domain-link"})lranksub=[]llinksub=[]for rank in rankList:lranksub.append(rank.string.encode('utf-8').decode())for link in linkList:llinksub.append(link.a['href'].encode('utf-8').decode())return lranksub,llinksubif __name__=='__main__':   //主函数lrank=[]llink=[] session = requests.Session()headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0","Accept": "*/*"}  //构建头部  可以填更多的参数 模拟浏览器访问网址for i in range(1,2):  //想要多少页?if i==1:url = "http://www.alexa.cn/siterank/" else:url = "http://www.alexa.cn/siterank/"+str(i)   //下一页lranksub,llinksub=excuteSpider(url, headers, session)lrank+=lranksubllink+=llinksubjsontext = {"version":"1.0.0","domains":[]}   //创建 json数据for i in range(len(lrank)):jsontext["domains"].append({"id":lrank[i], "domain":llink[i]})  //追加cur_dir = sys.path[0]    //获取当前路径work_dir = cur_dir + '/../db/alexa-cn/'    //到上一级路径  /../now = datetime.datetime.now()name = datetime.datetime.strftime(now,'%Y%m%d%H%M%S.json')  //时间格式化chinazfilepath = work_dir+namewf = open(chinazfilepath, 'w')wf.write(json.dumps(jsontext,indent=4,ensure_ascii=False))  //jso格式化输入文件wf.close()print('ok')

爬取结果:

Alexa网站排名爬取相关推荐

  1. [Python]网站数据爬取任务

    Python爬虫作业:网站数据爬取任务 从以下网址(包括但不限于下列网络或应用)中爬取数据,以核实的形式存储数据,并进行分析(不一定是计算机角度的分析,可写分析报告),或制作词云图. 一.文本数据 酷 ...

  2. Python3--爬取数据之911网站信息爬取

    上代码: #*************************************************** #这份代码用于从911网站上爬取信息 #其中的IP.txt文件为我本地存IP的文件 ...

  3. 实战 | WebMagic 爬取某保险经纪人网站经纪人列表之网站列表爬取

    小小,这次开始使用webmagic爬取相关的网站,这里爬取的网站为 https://member.vobao.com/  将会对该网站进行爬取,并进行实战. 分析网站 打开devtool查看网站相关的 ...

  4. 爬虫实战:链家租房数据爬取,实习僧网站数据爬取

    前面已经进行了爬虫基础部分的学习,于是自己也尝试爬了一些网站数据,用的策略都是比较简单,可能有些因素没有考虑到,但是也爬取到了一定的数据,下面介绍两个爬过的案例. 爬虫实战 链家网站爬取 实习僧网站爬 ...

  5. 基于python的数据爬取与分析_基于Python的网站数据爬取与分析的技术实现策略

    欧阳元东 摘要:Python为网页数据爬取和数据分析提供了很多工具包.基于Python的BeautifulSoup可以快速高效地爬取网站数据,Pandas工具能方便灵活地清洗分析数据,调用Python ...

  6. 请访问豆瓣电影网站,爬取4~10部电影信息(电影名、导 演、演员、海报url链接,预报片视频链接),并结合GUI界面展现电影信息,并可以根据选择的电影名, 下载指定预告片视频到本地并显示预告片。GUI

    请访问豆瓣电影网站,爬取4~10部电影信息(电影名.导 演.演员.海报url链接,预报片视频链接),并结合GUI界面展现电影信息,并可以根据选择的电影名, 下载指定预告片视频到本地并显示预告片.GUI ...

  7. 【EduCoder答案】Scrapy爬虫(二)热门网站数据爬取

    简介 答案查询的入口网页版 并不是所有的关卡都有答案,有些只有部分关卡有 不要直接复制答案哦 Scrapy爬虫(二)热门网站数据爬取 >>>查看 第1关:猫眼电影排行TOP100信息 ...

  8. 任选一小说网站,爬取任意一部小说,以记事本的形式保存。

    1.任选一小说网站,爬取任意一部小说,以记事本的形式保存. 第一种情况(网址可能已失效): import requests from lxml import etree def get_url():u ...

  9. Python爬虫——简单爬取(从网站上爬取一本小说)

    从笔下文学网站爬取一本名为<剑来>的小说,作者为烽火戏诸侯 网站网址如下:https://www.bxwxorg.com/ ①通过查看网页源码找规律(在此之前请弄清楚网站允许爬取的部分,就 ...

最新文章

  1. GB编码与UTF8编码的转换【转载】
  2. 使用dumpsys检测Activity任务栈
  3. CNDO-INTGRL-SS-AINTGS-斯莱特轨道指数
  4. 保姆级解读!CSS属性transform变形+2D转换+3D转换实例+代码+解析——Web前端系列学习笔记
  5. JDBC中事务、批量操作、大数据类型、获取自动生成的主键、等用法
  6. Smart ORM v0.3发布(完全面向对象的轻量级ORM工具)
  7. python画柱状图-python 使用 matplotlib.pyplot来画柱状图和饼图
  8. FAILED Execution Error, return code 2 from org
  9. OpenStack版本发布周期或将延长为1年
  10. 封装判断一个字符的后缀名和前缀的方法
  11. 手机中文c语言编辑器,Turbo C中文(c语言编辑器)v3.7.8.9
  12. 7段均衡器最佳参数_十段均衡器的设置和参数
  13. 我叫mt4公会攻城战服务器维护中,我叫MT4公会攻城战怎么打 我叫MT4公会攻城战打法攻略...
  14. 用大白话谈谈XSS与CSRF
  15. 重磅!75岁柳传志正式退休!卸任联想控股董事长,接班人是谁?一文回顾:柳传志的创业史...
  16. Git私服客户端免密码登录
  17. 如何激活和停用NVivo的许可证
  18. scanf函数中输入格式及输入基本原理讲解
  19. docker 搭建响应式个人博客
  20. latex中输入数学中的“属于” 符号

热门文章

  1. 【Altium designer】走线、线条绘制多边形如何切换直角 / 45度 / 圆弧
  2. [kpw] USBNetwork的网连模式
  3. 基本风速或者震级选取—重现期与超越概率
  4. 干净实用:装机必备绿色软件集锦
  5. 古剑奇谭ol服务器维护,古剑奇谭ol12月13日更新维护公告 网络版更新了什么
  6. AtCoder Beginner Contest 283 E - Don‘t Isolate Elements
  7. ajax提交时页面转圈,jquery的ajax提交时loading提示的处理方法
  8. java实现smtp_使用Java代码发送SMTP邮件
  9. 上古5各技能训练师地点
  10. 如何用matlab画电场强度三维图,浅析matlab模拟静电场三维图与恒定电流场模拟静电场...