1.笔记供学习参考

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# [@Time](https://my.oschina.net/u/126678)    : 2018/8/5 11:46
# [@Author](https://my.oschina.net/arthor)  : Chawn
# [@Site](https://my.oschina.net/u/859132)    :
# [@File](https://my.oschina.net/u/726396)    : pachong0805.py
# [@Software](https://my.oschina.net/u/922589): PyCharm
# 爬取豆瓣评分250强的电影名
import codecs
import requests
import bs4
from bs4 import BeautifulSoupdownload_url = 'https://movie.douban.com/top250'def download_page(url):headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}data=requests.get(url).contentreturn datadef parse_html(html):soup = BeautifulSoup(html,features="html.parser")movie_list_soup = soup.find('ol',attrs={'class':'grid_view'})movie_name_list=[]for movie_li in movie_list_soup.find_all('li'):detail = movie_li.find('div',attrs={'class':'hd'})movie_name = detail.find('span',attrs={'class':'title'}).getText()#top = movie_li.find('div',attrs={'class':'pic'}).find('em')movie_name_list.append(movie_name)next_page = soup.find('span',attrs={'class':'next'}).find('a')if next_page:return movie_name_list,download_url + next_page.get('href')return movie_name_list,Nonedef main():url = download_urlwith codecs.open('movies','wb',encoding='utf=8') as fp:while url:html = download_page(url)#对应上面的return movie_name_list,download_url + next_page['href']movies,url = parse_html(html)# print(#     movies# )#u是防止中文乱码#'分隔符'.join(list) = string ,列表转化字符串# '{}'.format(任何内容),标准输出#本来作者写的是fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))#这样输出写的太复杂,看着乱。下面是简写的,大的框架没变。正常情况下u'{}\n'不需要换行符#但是每一页都是列表,没有换行符的话每页的首位就会相连fp.write(u'{}\n'.format('\n'.join(movies)))if __name__=='__main__':main()

2.脚本结果

肖申克的救赎
霸王别姬
这个杀手不太冷
阿甘正传
美丽人生
泰坦尼克号
千与千寻
辛德勒的名单
盗梦空间
机器人总动员
三傻大闹宝莱坞
忠犬八公的故事
海上钢琴师
放牛班的春天
大话西游之大圣娶亲
楚门的世界
教父
龙猫
星际穿越
熔炉
触不可及
无间道
乱世佳人
当幸福来敲门
怦然心动
天堂电影院
十二怒汉
鬼子来了
蝙蝠侠:黑暗骑士
疯狂动物城
少年派的奇幻漂流
活着
搏击俱乐部
指环王3:王者无敌
天空之城
大话西游之月光宝盒
飞屋环游记
罗马假日
控方证人
窃听风暴
两杆大烟枪
飞越疯人院
闻香识女人
哈尔的移动城堡
辩护人
海豚湾
V字仇杀队
死亡诗社
摔跤吧!爸爸
教父2
指环王2:双塔奇兵
美丽心灵
指环王1:魔戒再现
饮食男女
情书
美国往事
狮子王
素媛
钢琴家
小鞋子
七宗罪
天使爱美丽
被嫌弃的松子的一生
致命魔术
本杰明·巴顿奇事
音乐之声
西西里的美丽传说
勇敢的心
拯救大兵瑞恩
黑客帝国
低俗小说
剪刀手爱德华
让子弹飞
看不见的客人
沉默的羔羊
蝴蝶效应
入殓师
大闹天宫
春光乍泄
末代皇帝
心灵捕手
玛丽和马克思
阳光灿烂的日子
哈利·波特与魔法石
布达佩斯大饭店
幽灵公主
第六感
禁闭岛
重庆森林
猫鼠游戏
狩猎
致命ID
大鱼
断背山
甜蜜蜜
射雕英雄传之东成西就
告白
一一
加勒比海盗
穿条纹睡衣的男孩
阳光姐妹淘
摩登时代
阿凡达
上帝之城
爱在黎明破晓前
消失的爱人
风之谷
爱在日落黄昏时
侧耳倾听
超脱
倩女幽魂
恐怖直播
红辣椒
小森林 夏秋篇
喜剧之王
菊次郎的夏天
驯龙高手
幸福终点站
萤火虫之墓
借东西的小人阿莉埃蒂
岁月神偷
神偷奶爸
七武士
杀人回忆
贫民窟的百万富翁
电锯惊魂
喜宴
谍影重重3
真爱至上
怪兽电力公司
东邪西毒
记忆碎片
海洋
黑天鹅
雨人
疯狂原始人
卢旺达饭店
小森林 冬春篇
英雄本色
哈利·波特与死亡圣器(下)
燃情岁月
7号房的礼物
虎口脱险
心迷宫
萤火之森
傲慢与偏见
荒蛮故事
海边的曼彻斯特
请以你的名字呼唤我
教父3
恋恋笔记本
完美的世界
纵横四海
花样年华
唐伯虎点秋香
超能陆战队
玩具总动员3
蝙蝠侠:黑暗骑士崛起
时空恋旅人
魂断蓝桥
猜火车
穿越时空的少女
雨中曲
二十二
达拉斯买家俱乐部
我是山姆
人工智能
冰川时代
浪潮
朗读者
爆裂鼓手
香水
罗生门
未麻的部屋
阿飞正传
血战钢锯岭
一次别离
被解救的姜戈
可可西里
追随
恐怖游轮
撞车
战争之王
头脑特工队
地球上的星星
房间
无人知晓
梦之安魂曲
牯岭街少年杀人事件
魔女宅急便
谍影重重
谍影重重2
忠犬八公物语
模仿游戏
你的名字。
惊魂记
青蛇
一个叫欧维的男人决定去死
再次出发之纽约遇见你
哪吒闹海
完美陌生人
东京物语
小萝莉的猴神大叔
黑客帝国3:矩阵革命
源代码
新龙门客栈
终结者2:审判日
末路狂花
碧海蓝天
秒速5厘米
绿里奇迹
这个男人来自地球
海盗电台
勇闯夺命岛
城市之光
初恋这件小事
无耻混蛋
卡萨布兰卡
变脸
E.T. 外星人
爱在午夜降临前
发条橙
步履不停
黄金三镖客
无敌破坏王
疯狂的石头
美国丽人
荒野生存
迁徙的鸟
英国病人
海街日记
彗星来的那一夜
国王的演讲
非常嫌疑犯
血钻
燕尾蝶
聚焦
勇士
叫我第一名
穆赫兰道
遗愿清单
枪火
上帝也疯狂
我爱你
黑鹰坠落
荒岛余生
大卫·戈尔的一生
千钧一发
蓝色大门
2001太空漫游

3.movies的列表结果

D:\untitled\venv\Scripts\python.exe C:/Users/Administrator/.PyCharm2017.3/config/scratches/douban_movies.py
['肖申克的救赎', '霸王别姬', '这个杀手不太冷', '阿甘正传', '美丽人生', '泰坦尼克号', '千与千寻', '辛德勒的名单', '盗梦空间', '机器人总动员', '三傻大闹宝莱坞', '忠犬八公的故事', '海上钢琴师', '放牛班的春天', '大话西游之大圣娶亲', '楚门的世界', '教父', '龙猫', '星际穿越', '熔炉', '触不可及', '无间道', '乱世佳人', '当幸福来敲门', '怦然心动']
['天堂电影院', '十二怒汉', '鬼子来了', '蝙蝠侠:黑暗骑士', '疯狂动物城', '少年派的奇幻漂流', '活着', '搏击俱乐部', '指环王3:王者无敌', '天空之城', '大话西游之月光宝盒', '飞屋环游记', '罗马假日', '控方证人', '窃听风暴', '两杆大烟枪', '飞越疯人院', '闻香识女人', '哈尔的移动城堡', '辩护人', '海豚湾', 'V字仇杀队', '死亡诗社', '摔跤吧!爸爸', '教父2']
['指环王2:双塔奇兵', '美丽心灵', '指环王1:魔戒再现', '饮食男女', '情书', '美国往事', '狮子王', '素媛', '钢琴家', '小鞋子', '七宗罪', '天使爱美丽', '被嫌弃的松子的一生', '致命魔术', '本杰明·巴顿奇事', '音乐之声', '西西里的美丽传说', '勇敢的心', '拯救大兵瑞恩', '黑客帝国', '低俗小说', '剪刀手爱德华', '让子弹飞', '看不见的客人', '沉默的羔羊']
['蝴蝶效应', '入殓师', '大闹天宫', '春光乍泄', '末代皇帝', '心灵捕手', '玛丽和马克思', '阳光灿烂的日子', '哈利·波特与魔法石', '布达佩斯大饭店', '幽灵公主', '第六感', '禁闭岛', '重庆森林', '猫鼠游戏', '狩猎', '致命ID', '大鱼', '断背山', '甜蜜蜜', '射雕英雄传之东成西就', '告白', '一一', '加勒比海盗', '穿条纹睡衣的男孩']
['阳光姐妹淘', '摩登时代', '阿凡达', '上帝之城', '爱在黎明破晓前', '消失的爱人', '风之谷', '爱在日落黄昏时', '侧耳倾听', '超脱', '倩女幽魂', '恐怖直播', '红辣椒', '小森林 夏秋篇', '喜剧之王', '菊次郎的夏天', '驯龙高手', '幸福终点站', '萤火虫之墓', '借东西的小人阿莉埃蒂', '岁月神偷', '神偷奶爸', '七武士', '杀人回忆', '贫民窟的百万富翁']
['电锯惊魂', '喜宴', '谍影重重3', '真爱至上', '怪兽电力公司', '东邪西毒', '记忆碎片', '海洋', '黑天鹅', '雨人', '疯狂原始人', '卢旺达饭店', '小森林 冬春篇', '英雄本色', '哈利·波特与死亡圣器(下)', '燃情岁月', '7号房的礼物', '虎口脱险', '心迷宫', '萤火之森', '傲慢与偏见', '荒蛮故事', '海边的曼彻斯特', '请以你的名字呼唤我', '教父3']
['恋恋笔记本', '完美的世界', '纵横四海', '花样年华', '唐伯虎点秋香', '超能陆战队', '玩具总动员3', '蝙蝠侠:黑暗骑士崛起', '时空恋旅人', '魂断蓝桥', '猜火车', '穿越时空的少女', '雨中曲', '二十二', '达拉斯买家俱乐部', '我是山姆', '人工智能', '冰川时代', '浪潮', '朗读者', '爆裂鼓手', '香水', '罗生门', '未麻的部屋', '阿飞正传']
['血战钢锯岭', '一次别离', '被解救的姜戈', '可可西里', '追随', '恐怖游轮', '撞车', '战争之王', '头脑特工队', '地球上的星星', '房间', '无人知晓', '梦之安魂曲', '牯岭街少年杀人事件', '魔女宅急便', '谍影重重', '谍影重重2', '忠犬八公物语', '模仿游戏', '你的名字。', '惊魂记', '青蛇', '一个叫欧维的男人决定去死', '再次出发之纽约遇见你', '哪吒闹海']
['完美陌生人', '东京物语', '小萝莉的猴神大叔', '黑客帝国3:矩阵革命', '源代码', '新龙门客栈', '终结者2:审判日', '末路狂花', '碧海蓝天', '秒速5厘米', '绿里奇迹', '这个男人来自地球', '海盗电台', '勇闯夺命岛', '城市之光', '初恋这件小事', '无耻混蛋', '卡萨布兰卡', '变脸', 'E.T. 外星人', '爱在午夜降临前', '发条橙', '步履不停', '黄金三镖客', '无敌破坏王']
['疯狂的石头', '美国丽人', '荒野生存', '迁徙的鸟', '英国病人', '海街日记', '彗星来的那一夜', '国王的演讲', '非常嫌疑犯', '血钻', '燕尾蝶', '聚焦', '勇士', '叫我第一名', '穆赫兰道', '遗愿清单', '枪火', '上帝也疯狂', '我爱你', '黑鹰坠落', '荒岛余生', '大卫·戈尔的一生', '千钧一发', '蓝色大门', '2001太空漫游']进程已结束,退出代码0

转载于:https://my.oschina.net/u/3746745/blog/1923484

douban movie top of Web Crawler相关推荐

  1. A Web Crawler With asyncio Coroutines

    注:本文网上有翻译,参见 ? 一个使用 asyncio 协程的网络爬虫(一) ? 一个使用 asyncio 协程的网络爬虫(二) ? 一个使用 asyncio 协程的网络爬虫(三)? Overview ...

  2. LeetCode 1242. Web Crawler Multithreaded--Java 解法--网路爬虫并发系列--ConcurrentHashMap/Collections.synchroni

    题目地址:Web Crawler Multithreaded - LeetCode Given a url startUrl and an interface HtmlParser, implemen ...

  3. 网络爬虫(Web crawler)|| 爬虫入门程序

    网络爬虫 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 爬虫入门程序 环境准备 JDK1.8 IntelliJ IDEA IDEA自带的Maven 环境 ...

  4. 基础网络爬虫(Web crawler)相关技术浅析

    文章目录 前言 基本概念 Robots协议 基本原理 现状概况 爬虫软件 跨语言 Selenium Python urllib requests Scrapy Pyspider Java WebMag ...

  5. Exercise: Web Crawler

    Exercise: Web Crawler In this exercise you'll use Go's concurrency features to parallelize a web cra ...

  6. Enterprise:Web Crawler 基础 (一)

    在 Elastic Enterprise Search 7.11 中,Elastic 宣布推出 Elastic App Search 网络爬虫,这是一种简单而强大的方式来提取公开可用的网络内容,以便在 ...

  7. 【Web crawler】simulated DFS web crawler

    Finish crawl web learned from udacity 提示:在某些时候,你必须在page上调用get_page.这似乎违反直觉,但是我们用 page 这个词时,指的网页的网址 ( ...

  8. Web Crawler与Scrap技术分析

    Scrapy与无头浏览器 Scrapy Middleware Case zhihu demo js selenium Scrapy Middleare Case2 Scrapy Middleware ...

  9. 两种web crawler方案

    重发一下,之前的地址被限制了. 注意一下这篇方案不是逆向的参数,是另外两种方案,sign+xb不会发这里的. 文章内容仅供参考学习,如有侵权请联系作者进行删除 声明一下,付费订阅的是整个<签名逆 ...

  10. web crawler 抓某前程的小小tips(低调发育)

最新文章

  1. 把自己朝九晚五的工作自动化了,有错吗?
  2. PLL_BASE——Basic Phase Locked Loop Clock Circuit(Virtex-5, Spartan-6)
  3. 大众26亿美元投资自动驾驶公司,可这行人才还在继续流失
  4. 东北大学 计算机调剂,2018年东北大学信息科学与工程学院考研调剂信息
  5. mybatis-plus根据多个字段排序_Mybatis Plus学习笔记(逻辑删除/动态填充/常用插件)...
  6. java streams_使用JShell的Java 9 Streams API
  7. Linux 会成为主流桌面操作系统吗?
  8. c语言的point函数,C语言中friend友元函数详细解析
  9. 高评分防火墙GlassWire:帮你监控、追踪和提升电脑安全
  10. 如果不交社保,每月都存500元,存15年够自己养老用吗?
  11. python语法(一)——判断字符串是否包含某子字符串
  12. 推荐系统组队学习——矩阵分解和FM
  13. codeblocks 终端设置
  14. 三角形外接球万能公式_宏程序不是万能的,没有宏程序是不能的,一款通用宏分享给大家!...
  15. DateUtils(一个日期工具类)
  16. MES系统软件如何在数控加工车间应用?
  17. php日历表代码,PHP实现的简单日历代码_php
  18. 计算机网络笔记(一):网络基本构成
  19. 0X0000007B蓝屏
  20. Ubuntu出现System policy prevents modification of network settings for all users该怎么解决

热门文章

  1. AtCoder题解 —— AtCoder Beginner Contest 184 —— E - Third Avenue - BFS
  2. 如何改善移动端表现效果-谷歌 AMP 页面
  3. 《Person Re-identification:Past, Present and Future》论文笔记
  4. 如何理解图片RGB通道在python(numpy)中的数据构成
  5. 计算机工程中级职称怎么考,以前中级职称是要考什么计算机-计算机软考中级职称哪个好考...
  6. 使用rename命令批量修改后缀名
  7. 操作系统4————进程同步
  8. 属性加密技术及基于属性的访问控制技术
  9. 拍照的时候怎么让表情自然?
  10. 抖音康辉机器人_新闻联播主持康辉玩抖音,卖萌耍宝样样精通,观众为其点赞...