1.简单说明

本教程仅用来学习,不用于商业目的。这是第一次写文章,排版可能有点差,希望大家理解,嘻嘻。

不喜欢看分析的同学可以直接跳到最后有源代码

我们要爬的网站为:https://static1.scrape.center/
用到的库有requests、re、pyquery,不多说了直接开整。

2.网站分析

首先进入该网站后,右键-检查-Network,点Network后记得刷新(F5),然后在Name一栏点击第一个,找到User-Agent。
下面我们开始一步步写代码:
首先导入所需的库,没有的先安装;添加头部headers,也就是刚才User-Agent的内容。

import requests
from pyquery import PyQuery as pq
import reurl = 'https://static1.scrape.center/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}

然后get()方法请求网页,text属性得到网页的html代码;pyquery再对它进行初始化准备解析网页:

html = requests.get(url).text
doc = pq(html)

分析网页的html代码:

分析发现el-card比较特殊,没有重复出现的属性,于是就选择它来解析网页了。后面加上了items()方法,以便我们后面进行遍历得到电影的名称、类别、上映时间、评分

items = doc('.el-card').items()

下面以解析电影名称为例:

for item in items:# 名称name = item.find('a > h2').text()

find()方法查找到子孙节点h2,text()方法得到节点里的纯文本,也就是第一个电影名称。

后面方法相似,直接上源代码

import requests
from pyquery import PyQuery as pq
import reurl = 'https://static1.scrape.center/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}
html = requests.get(url).text
doc = pq(html)
items = doc('.el-card').items()
# print(items)
# w以写方式打开一个文件,如果该文件已存在,则将其覆盖,若不存在,则创建新文件。
file = open('movies.txt', 'w', encoding='utf-8')
for item in items:# 名称name = item.find('a > h2').text()file.write(f'名称:{name}\n')# 类别categories = [item.text() for item in item.find('.categories button span').items()]file.write(f'类别:{categories}\n')# 上映时间published_at = item.find('.info:contains(上映)').text()published_at = re.search('(\d{4}-\d{2}-\d{2})', published_at).group(1)\if published_at and re.search('\d{4}-\d{2}-\d{2}', published_at) else Nonefile.write(f'上映时间: {published_at}\n')# 评分score = item.find('p.score').text()file.write(f'评分:{score}\n')# 重复'='50次划线file.write(f'{"=" * 50}\n')
file.close()

最后:我们爬取到的结果如下图

简单爬虫——爬取Scrape|Movie网站电影排行Top10相关推荐

  1. Java爬虫 爬取某招聘网站招聘信息

    Java爬虫 爬取某招聘网站招聘信息 一.系统介绍 二.功能展示 1.需求爬取的网站内容 2.实现流程 2.1数据采集 2.2页面解析 2.3数据存储 三.获取源码 一.系统介绍 系统主要功能:本项目 ...

  2. 爬虫爬取快代理网站动态IP

    爬虫爬取快代理网站动态IP import requests, time from lxml import etree import time import randomcookie = "& ...

  3. 详细实例:用python爬虫爬取幽默笑话网站!(建议收藏)

    前言: 今天为大家带来的内容是详细实例:用python爬虫爬取幽默笑话网站!(建议收藏),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下! 爬取网站为 ...

  4. java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面

    使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...

  5. 简单爬虫,爬取天猫商品信息

    前言 这是我第一次用Java来写爬虫项目,研究的也不是很透彻,所以爬虫技术的理论方面的就不说太多了. 主要还是以如何爬取商品信息为主,爬取最简单的商品信息,给出大概的思路和方法. 对于没有反爬技术的网 ...

  6. java爬虫爬取主流房屋网站

    最近博主要做一些分析课题,所以使用java爬取了主流的房屋网站,搞些事情,下面是我搞事情的思路,在结尾处我会投放我的源码文件,供大家下载: 导航: 设计思路 项目的包与类详解 部分重要代码展示 源码下 ...

  7. Python爬虫爬取伯乐在线网站信息

    一.环境搭建 1.创建环境 执行pip install scrapy安装scrapy 使用scrapy startproject ArticleSpider创建scrapy项目 使用pycharm导入 ...

  8. Jsoup学习 JAVA爬虫爬取美女网站 JAVA爬虫爬取美图网站 爬虫

    最近对爬虫起了兴趣,但是网上都说做爬虫最好得语言是py.但是我只会java,所以就想能不能用java实现一个爬虫,百度搜索发现,其实java也有很多优秀得开源爬虫框架,包括Gecco,webmagic ...

  9. Python爬虫爬取ok资源网电影播放地址

    #爬取ok资源网电影播放地址#www.okzy.co #入口一:http://okzy.co/index.php?m=vod-search&wd={关键字}&submit=search ...

最新文章

  1. Storm 0.9安装指南
  2. 拒绝+启示+TED+被拒的100天+What I learned from 100 days of rejection
  3. c#中byte数组0x_c# byte数组各种操作
  4. 周期方波的傅里叶级数系数
  5. 安装带有调试信息的C库
  6. 输入法智能化发展历程
  7. django,form表单,数据库增删改查
  8. SVD 与 PCA 的直观解释(2): 特征值与特征向量
  9. 对VLAN间路由实验的总结
  10. bzoj 1414 bzoj 3705: [ZJOI2009]对称的正方形(二维Hash)
  11. 前端ajax怎么样遍历list_五大前端小白入门时最容易掉的坑,可得提防点!
  12. 利用python进行数据分析—9.数据规整:连接、联合与重塑
  13. PHP 后台程序配置config文件,及form表单上传文件
  14. 命令端口C++检测本地网络端口占用
  15. 阿里云OS和Android之争100问
  16. Quartus II 软件使用(零)---安装与破解 (9.0版本 亲测有效)
  17. aliez歌词_aLIEz FULL歌词【假名 罗马音】
  18. 我们不应该歧视任何的编程语言,因为他们都是萌娘
  19. linux md5检测工具下载,教你校验 Debian 软件包的MD5
  20. 卢卡斯定理扩展卢卡斯

热门文章

  1. 从500彩票网站下载历史数据
  2. oracle恢复数据库的正确方式,oracle恢复数据库方法详解
  3. CET6-Practice 1
  4. 拆解觅伊、心遇,看看视频社交怎么玩
  5. 每日算法面试题,大厂特训二十八天——第二十四天(运算符)
  6. 支付宝红包php,支付宝红包赏金跳转源码,一键复制红包码,裂变推广
  7. ESP32 单片机学习笔记 - 03 - MCPWM脉冲输出/PCNT脉冲计数
  8. 补如何抓取豆瓣网正在热映电影信息以及海报
  9. linux禁止kdump服务,Centos7 腾讯云禁用kdump节省内存
  10. Stable Duffision