python电影系统管理-Python 爬取电影网站的信息【如有重复请管理删帖】
[Python] 纯文本查看 复制代码#!/usr/bin/env python
# -*- coding: utf-8 -*-
# [url=home.php?mod=space&uid=686237]@date[/url] : 2018-07-30 17:14:11
# [url=home.php?mod=space&uid=686208]@AuThor[/url] : --Eruy-- ([url=mailto:yl8923@qq.com]yl8923@qq.com[/url])
# @Version : $Id$
#请求库
import requests
#解析库 bs4 css pyquery json xpath re
from lxml import etree
# 类
class MiNiMp4(object):
"""docstring for GetMovies"""
def GetMovies(self, page):
url = "http://www.minimp4.com/movie/?page={}".format(page)
html = requests.get(url)
htmll = etree.HTML(html.text) #初始化xml
hrefs = htmll.xpath("//div[@class="meta"]/h1/a/@href")
# print(hrefs)
for url in hrefs:
html = requests.get(url)
dat = etree.HTML(html.text)
movieName = dat.xpath("//div[@class="movie-meta"]/h1/text()")
print(movieName)
self.saveMovies(movieName)
# return url
#
@staticmethod
def saveMovies(data):
with open("movies.txt","a",encoding="utf-8") as fp:
fp.write(data[0]+" ")
if __name__ == "__main__":
minimp4 = MiNiMp4()
for n in range(10):
minimp4.GetMovies(n)
python电影系统管理-Python 爬取电影网站的信息【如有重复请管理删帖】相关推荐
- Python爬虫入门 | 4 爬取豆瓣TOP250图书信息
先来看看页面长啥样的:https://book.douban.com/top250 我们将要爬取哪些信息:书名.链接.评分.一句话评价-- 1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...
- python爬虫——用selenium爬取淘宝商品信息
python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...
- Scrapy :爬取培训网站讲师信息
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...
- 爬取起点网站图书信息(书名、作者、简介、图片url)
# 爬取qidian网站图书信息(书名.作者.简介.图片url) import requests from lxml import etree import jsonclass BookSpider( ...
- Python的Scrapy框架爬取诗词网站爱情诗送给女友
文章目录 前言 效果展示: 一.安装scrapy库 二.创建scrapy项目 三.新建爬虫文件scmg_spider.py 四.配置settings.py文件 五.定义数据容器,修改item.py文件 ...
- html代码大全(很全的)_5行Python代码就能爬取 3000+ 上市公司的信息?
前言 入门爬虫很容易,几行代码就可以,可以说是学习 Python 最简单的途径. 刚开始动手写爬虫,你只需要关注最核心的部分,也就是先成功抓到数据,其他的诸如:下载速度.存储方式.代码条理性等先不管, ...
- 爬取三千条数据需要多久_只需几十行代码,Python就能轻松爬取 3000+ 上市公司的信息...
点击关注"Python学习与数据挖掘" 更多超级干货第一时间推送给你哦!!! 入门爬虫很容易,几行代码就可以,可以说是学习 Python 最简单的途径.刚开始动手写爬虫,你只需要关 ...
- python基金筛选_Python爬取基金的排名信息,写入excel中方便挑选基金
原标题:Python爬取基金的排名信息,写入excel中方便挑选基金 基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式.本文以债券基金(稳定且风险较低) ...
- 爬虫项目 | 爬取XX网站招聘信息
/***本人代码小白 ,第一次做爬虫,代码仅供参考,欢迎大神指点,***/ 项目背景和功能 毕业将近,身为大三的我们,面临找工作的压力,如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题 ...
最新文章
- WCF步步为营(五):数据契约
- vue教程2:vue基础
- BZOJ-1005-明明的烦恼
- XMLHttpRequest对象AJAX技术的基本使用
- Mac和PC在工作中管理的对比(5)
- Python :h5py 如何对dataset进行重新赋值?
- 倒立摆源代码仿真matlab/simulink神经网络PID(模糊)控制校正LQR 神经网络 倒立摆控制 倒立摆LQR控制仿真 单级倒立摆的模糊控制 旋转倒立摆
- 口才训练方法——速读法、背诵法
- Excel VBA 操作 Word(入门篇)
- 如何分析软件安全性需求
- Google I/O 大会强势回归!2021 中文直播全攻略看这里
- 照片生成漫画头像的软件
- java+url+空格转码_Web里URL空格的转换方法
- HTML+CSS+JS
- C#网络爬虫抓取小说
- pytorch中Parameter()介绍
- 【Cocos2d-x 3.x】 动作类Action源码分析
- 大型票务系统性能测试浅析
- 一文读懂大唐杯所有名词解释
- iphone各个型号屏幕分辨率
热门文章
- zlib库介绍一:zlib简介
- 解压jar包修改配置文件,解压、修改、压缩、运行
- 楚留香手游服务器维护,楚留香手游3月1日更新全职业调整一览 6门派职业调整汇总...
- 计算机组成原理笔记|03存储系统
- jboss之启动加载过程详解(-)
- 【玩转微信公众平台之九】 第一个功能:消息自动回复
- Git提交数据失败 error: failed to push some refs to 'https://github.com/XXXXXXX/gif.git'
- .net 如何判断农历节日
- 女生学习软件测试好找工作吗?
- 很强大,并且易于使用,更重要的是免费的一个分区工具:分区助手