在网上看到有人利用python+beautifulsoup爬取豆瓣Top250

试着自己模仿这个做了个爬取IMDB的,

可惜只能爬取到11个。

后来检查了超久,

才发现,

soup=BeautifulSoup(contents)这里,内容不完整,只能到11个电影为止。

代码如下:

import urllib2
from bs4 import BeautifulSoup
mylist=[]def crawl(url):headers={'User-Agent':'Mozilla/5.0(Windows;U;Windows NT 6.1;en-US;rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}req=urllib2.Request(url,headers=headers)page=urllib2.urlopen(req,timeout=200)contents=page.read()soup=BeautifulSoup(contents)for tag in soup.find_all('tr',class_={'odd','even'}):m_order=tag.find('td',class_='titleColumn').span.get_text()m_name=tag.find('td',class_='titleColumn').a.get_text()m_rating_score=float(tag.find('td',class_='ratingColumn imdbRating').strong.get_text())print("%s %s %s" % (m_order,m_name,m_rating_score))mylist.append((m_order,m_name,m_rating_score))crawl('http://www.imdb.com/chart/top?ref_=nv_ch_250_4')

后来,好像需使用正则表达式,把爬取来的网页进行处理后才好弄。

但是正则表达式未操作过,

如果有人看到,想问下是否可以不通过正则表达式来解决这个问题呢?

转载于:https://www.cnblogs.com/jawiezhu/p/4251265.html

爬取IMDBTOP250相关推荐

  1. python爬取豆瓣电影top250_用Python爬取豆瓣电影TOP250分析

    / 01 / Scrapy 之前了解了pyspider框架的使用,但是就它而言,只能应用于一些简单的爬取. 对于反爬程度高的网站,它就显得力不从心. 那么就轮到Scrapy上场了,目前Python中使 ...

  2. 如何利用python的newspaper包快速爬取网页数据

    文章目录 前言 一个爬取新闻网页数据的神器 小试牛刀 如何快速安装 windows安装 Debian / Ubuntu安装 OSX安装 体验更多的功能 前言 随着越来的进行自然语言处理相关方面的研究, ...

  3. python 爬取手机app的信息

    我们在爬取手机APP上面的数据的时候,都会借助Fidder来爬取.今天就教大家如何爬取手机APP上面的数据. Python学习资料或者需要代码.视频加Python学习群:516107834 环境配置 ...

  4. Python爬取4399好wan的小游戏!

    #coding=utf-8 #爬取4399所有好玩的游戏 import re import os import requests# 基础url host_url = 'http://www.4399. ...

  5. R 语言爬虫 之 cnblog博文爬取

    Cnbolg Crawl a). 加载用到的R包 ##library packages needed in this case library(proto) library(gsubfn) ## Wa ...

  6. mysql 去重con_python 爬虫 实现增量去重和定时爬取实例

    前言: 在爬虫过程中,我们可能需要重复的爬取同一个网站,为了避免重复的数据存入我们的数据库中 通过实现增量去重 去解决这一问题 本文还针对了那些需要实时更新的网站 增加了一个定时爬取的功能: 本文作者 ...

  7. java selenium_java+selenium,40行代码完成支付宝账单爬取

    java+selenium,40行代码完成支付宝账单爬取 需要jar selenium-server-4.0.0-alpha-5.jar 需要驱动 chromedriver.exe 驱动需要和浏览器版 ...

  8. python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库

    我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...

  9. 加载多瓦片地图_手把手教 | 网络时空大数据爬取与分析DAS系统(瓦片地图获取)...

    地理计算语言,为大众赋能地理智慧. --DAS Team 爬取分析DAS系统下载 地址:https://pan.baidu.com/s/1NkoyFhzMtm13ivlOOzukow 提取码:6ky8 ...

最新文章

  1. oracle触发器初始化,oracle – 触发器无法初始化变量
  2. 博士生4篇高分论文参加答辩,却遭评委批评:你写的太多了
  3. VUE -- Mac上解决Chrome浏览器跨域问题
  4. gradle 构建完成自动删除_Gradle 6.6 RC6 发布,引入配置缓存特性,大幅提升构建性能
  5. stl中copy()函数_std :: rotate_copy()函数以及C ++ STL中的示例
  6. HTML DOM文档对象查找元素的方法
  7. 展示一个基本的正则用例
  8. ComfortTypingPro快速录入工具
  9. vue路由1:基本使用
  10. 24个能给你的博客带来流量的网站
  11. GRE阅读-GRE佛脚备考系列之阅读分册volume 2-机经练习(1)
  12. 不容错过!Greenplum的又一本好书
  13. ftp 创建工具下载,三款ftp 创建工具下载-免安装版(亲测)
  14. ICCV2019论文题目中文列表
  15. 如何理解“修身齐家治国平天下”这句儒家经典
  16. 帝国php改密码后登录不进去,帝国CMS安装,后台,登陆,密码常见问题汇总
  17. iOS-事件响应链、单例模式、工厂模式、观察者模式
  18. c语言编程大体思路,C语言:程序的设计思路跟特点
  19. 天影字幕_天影字幕(GeniusCG) V 12.50 官方版
  20. XILINX FPGA时钟资源

热门文章

  1. 一种父线程阻塞等待子线程的有效方法
  2. OpenStack 之Nova添加扩展API流程,附带资源的查找功能
  3. eclipse 插件打包发布
  4. 阿里云天池 Python训练营Task4: Python数据分析:从0完成一个数据分析实战 学习笔记
  5. [poj 1364]King[差分约束详解(续篇)][超级源点][SPFA][Bellman-Ford]
  6. 用 Go 编写一个简单的 WebSocket 推送服务
  7. 企业高可用切换的说明
  8. JS实现在输入框内输入@时,邮箱账号自动补全
  9. 仿美团实现地域选择和城市列表
  10. C++程序设计(第2版)课后习题答案--第11章