1. 豆瓣抓站流程

  1. 分析url特征(菜鸟阶段)
  2. 对需要抓取的数据设计正则表达式
  3. 处理HTML中一些特征字符,换行符等

注意异常的处理和字符编码的处理

2. 实现的功能

简单的实现了抓取豆瓣电影Top100的电影名称

3. 后期工作展望

  • 抓取更多的有用数据(如:准确抓取导演, 抓取一个电影评论)
  • 使用多线程爬虫
  • 学习第三方的爬虫框架(Scrapy)
  • 深入理解HTML编码和文本处理

4. 输出结果

Top1 肖申克的救赎
Top2 这个杀手不太冷
Top3 阿甘正传
Top4 霸王别姬
Top5 美丽人生
Top6 海上钢琴师
Top7 辛德勒的名单
Top8 千与千寻
Top9 机器人总动员
Top10 三傻大闹宝莱坞
Top11 泰坦尼克号
Top12 盗梦空间
Top13 放牛班的春天
Top14 龙猫
Top15 忠犬八公的故事
Top16 教父
Top17 大话西游之大圣娶亲
Top18 乱世佳人
Top19 天堂电影院
Top20 搏击俱乐部
Top21 当幸福来敲门
Top22 罗马假日
Top23 楚门的世界
Top24 海豚湾
Top25 指环王3:王者无敌
Top26 两杆大烟枪
Top27 天空之城
Top28 飞越疯人院
Top29 触不可及
Top30 飞屋环游记
Top31 十二怒汉
Top32 鬼子来了
Top33 天使爱美丽
Top34 大话西游之月光宝盒
Top35 窃听风暴
Top36 V字仇杀队
Top37 怦然心动
Top38 无间道
Top39 闻香识女人
Top40 蝙蝠侠:黑暗骑士
Top41 美丽心灵
Top42 指环王2:双塔奇兵
Top43 指环王1:魔戒再现
Top44 剪刀手爱德华
Top45 活着
Top46 教父2
Top47 七宗罪
Top48 勇敢的心
Top49 情书
Top50 哈尔的移动城堡
Top51 熔炉
Top52 美国往事
Top53 死亡诗社
Top54 音乐之声
Top55 钢琴家
Top56 小鞋子
Top57 被嫌弃的松子的一生
Top58 狮子王
Top59 致命魔术
Top60 玛丽和马克思
Top61 低俗小说
Top62 入殓师
Top63 蝴蝶效应
Top64 少年派的奇幻漂流
Top65 沉默的羔羊
Top66 大鱼
Top67 射雕英雄传之东成西就
Top68 阳光灿烂的日子
Top69 本杰明·巴顿奇事
Top70 幽灵公主
Top71 第六感
Top72 让子弹飞
Top73 黑客帝国
Top74 拯救大兵瑞恩
Top75 上帝之城
Top76 萤火虫之墓
Top77 阳光姐妹淘
Top78 心灵捕手
Top79 饮食男女
Top80 大闹天宫
Top81 西西里的美丽传说
Top82 海洋
Top83 一一
Top84 重庆森林
Top85 燃情岁月
Top86 爱在黎明破晓前
Top87 爱在日落黄昏时
Top88 风之谷
Top89 春光乍泄
Top90 虎口脱险
Top91 加勒比海盗
Top92 告白
Top93 侧耳倾听
Top94 甜蜜蜜
Top95 阿凡达
Top96 菊次郎的夏天
Top97 驯龙高手
Top98 真爱至上
Top99 致命ID
Top100 超脱

5. 豆瓣抓站源代码

抓站源代码链接
个人使用的Python编码规范
python正则表达式小计

现在还有大礼包免费赠送
推荐一下我建的python学习交流扣扣qun:850973621,群里有免费的视频教程,开发工具、
电子书籍、项目源码分享。学习python web、python爬虫、数据分析、大数据,人工智能等
技术有不懂的可以加入一起交流学习,一起进步!

作者:Andrew_liu
链接:https://www.jianshu.com/p/f76bd2164856
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

python,抓取豆瓣电影,再也不用担心没有看不了的电影了相关推荐

  1. 数据分析与挖掘案例之使用python抓取豆瓣top250电影数据进行分析

    使用python抓取豆瓣top250电影数据进行分析 抓取豆瓣Top250电影数据的链接和电影名称 代码如下: import urllib.request as urlrequest from bs4 ...

  2. python豆瓣影评_使用Python抓取豆瓣影评数据的方法

    抓取豆瓣影评评分 正常的抓取 分析请求的url https://movie.douban.com/subject/26322642/comments?start=20&limit=20& ...

  3. python绘制横向柱状图 妈妈再也不用担心我不会画图了

    python绘制横向柱状图 妈妈再也不用担心我不会画图了 前言 实现代码 成果 前言 事情要从一次画图开始说起 当我开开心心搞到一堆数据,以为能够休息的时候,这时候我突然想起来,是不是绘制成柱状图更直 ...

  4. python爬取豆瓣电影评论_使用Python抓取豆瓣影评数据的方法

    抓取豆瓣影评评分 正常的抓取 分析请求的url 里面有用的也就是start和limit参数,我尝试过修改limit参数,但是没有效果,可以认为是默认的 start参数是用来设置从第几条数据开始查询的 ...

  5. python 豆瓣评论分析方法_使用python抓取豆瓣top250电影数据进行分析

    抓取豆瓣Top250电影数据的链接和电影名称 代码如下: import urllib.request as urlrequest from bs4 import BeautifulSoup impor ...

  6. 小白用Python抓取豆瓣高评分喜剧电影

    目的:抓取豆瓣高评分喜剧电影 导入所需的库 import requests#进行模拟浏览器进行发送请求 import json#导入JSON类型的库 不会导入库的话,请参考我的上一篇文章,上面有提及. ...

  7. Python抓取豆瓣电影详情并提取信息

    最近公司有个需求,需要爬取豆瓣上所有电影的名称.写了个脚本,爬取了豆瓣上近10000部电影的详情,包括电影的名称.导演.主演.豆瓣评分.时长.类别.简介等内容. 脚本写的简陋,还有一个比较大的问题是如 ...

  8. 网络爬虫--python抓取豆瓣同城北京地区活动信息

    感谢主赐予我们时光. 本内容只涉及技术探讨,不作为商业用途. 背景 作为入门级的爬虫,其实不需要了解复杂的正则表达式匹配,高深的网络协议.只需要了解一些基本的python语法和html请求/响应原理就 ...

  9. 七十行代码教你使用 python ffmpeg 压缩视频,再也不用担心视频过大了

    前期准备 最近要压缩视频,然后发现一些压缩视频的工具要是收费,要么有水印,完全不符合要求啊.正当我发愁的时候突然想到,去年的时候接触过 ffmpeg ,可以用python ffmpeg 来压缩视频啊, ...

最新文章

  1. java.net.SocketException: 断开的管道 (Write failed) 错误,数据库隔一段时间就断开的问题...
  2. Keil C51软件的使用教程
  3. Xmanager企业版激活成功全过程
  4. pb预览状态下的pagecount_我为什么喜欢用Mac【预览】阅读文献?
  5. IntelliJ IDEA 2017新工具
  6. vue监听路由的变化,跳转到同一个页面时,Url改变但视图未重新加载问题
  7. 后面冒号_Python 数组中的冒号使用
  8. 基于内容的视频标注——关键帧图象层标注
  9. 最大公约数(欧几里得算法)
  10. 产品经理的职责和分类
  11. 余淼杰老师 经济学原理复习笔记(宏观3) 2020-12-14
  12. python中 a or b 的值为_详解python中and和or的返回值
  13. r语言软件GDINA_认知诊断分析系统(flexCDMs)设计及其实现
  14. 大学生成人插画培训机构盘点
  15. 解决小米远程管理下电脑出现ftp文件错误提示
  16. 山东大学密码学引论复习重点总结与期末试题
  17. ContentProvider--stable参数
  18. python学习笔记 第五章(科赫雪花与科赫曲线)
  19. Q4营收远超市场预期,唯品会回归“百亿美元大户”躲过倒春寒?
  20. Centos修改IP

热门文章

  1. 易语言64位端游内存封包逆向教程介绍---传奇4实战(易全网首套)
  2. 前端学习CSS篇(三)
  3. loopback口建立IBGP邻居关系
  4. 网站域名到底加不加 WWW
  5. 一次真实的入侵-------记对一足球推荐站点的渗透
  6. 单片机 stm32 差分升级 增量升级算法源码,提供移植 纯c编写跨平因为是程序源码
  7. 新西兰FSP牌照申请流程?
  8. Base64 和 MD5 加密
  9. 如何在CSDN博客左侧添加微博关注
  10. ElasticSearch 6.3版本(ES)查询人名关键字不拆词查询