爬取IMDBTOP250

在网上看到有人利用python+beautifulsoup爬取豆瓣Top250

试着自己模仿这个做了个爬取IMDB的，

可惜只能爬取到11个。

后来检查了超久，

才发现，

soup=BeautifulSoup(contents)这里，内容不完整，只能到11个电影为止。

代码如下：

import urllib2
from bs4 import BeautifulSoup
mylist=[]def crawl(url):headers={'User-Agent':'Mozilla/5.0(Windows;U;Windows NT 6.1;en-US;rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}req=urllib2.Request(url,headers=headers)page=urllib2.urlopen(req,timeout=200)contents=page.read()soup=BeautifulSoup(contents)for tag in soup.find_all('tr',class_={'odd','even'}):m_order=tag.find('td',class_='titleColumn').span.get_text()m_name=tag.find('td',class_='titleColumn').a.get_text()m_rating_score=float(tag.find('td',class_='ratingColumn imdbRating').strong.get_text())print("%s %s %s" % (m_order,m_name,m_rating_score))mylist.append((m_order,m_name,m_rating_score))crawl('http://www.imdb.com/chart/top?ref_=nv_ch_250_4')

后来，好像需使用正则表达式，把爬取来的网页进行处理后才好弄。

但是正则表达式未操作过，

如果有人看到，想问下是否可以不通过正则表达式来解决这个问题呢？

转载于:https://www.cnblogs.com/jawiezhu/p/4251265.html

爬取IMDBTOP250相关推荐

python爬取豆瓣电影top250_用Python爬取豆瓣电影TOP250分析
/ 01 / Scrapy 之前了解了pyspider框架的使用,但是就它而言,只能应用于一些简单的爬取. 对于反爬程度高的网站,它就显得力不从心. 那么就轮到Scrapy上场了,目前Python中使 ...
如何利用python的newspaper包快速爬取网页数据
文章目录前言一个爬取新闻网页数据的神器小试牛刀如何快速安装 windows安装 Debian / Ubuntu安装 OSX安装体验更多的功能前言随着越来的进行自然语言处理相关方面的研究, ...
python 爬取手机app的信息
我们在爬取手机APP上面的数据的时候,都会借助Fidder来爬取.今天就教大家如何爬取手机APP上面的数据. Python学习资料或者需要代码.视频加Python学习群:516107834 环境配置 ...
Python爬取4399好wan的小游戏！
#coding=utf-8 #爬取4399所有好玩的游戏 import re import os import requests# 基础url host_url = 'http://www.4399. ...
R 语言爬虫之 cnblog博文爬取
Cnbolg Crawl a). 加载用到的R包 ##library packages needed in this case library(proto) library(gsubfn) ## Wa ...
mysql 去重con_python 爬虫实现增量去重和定时爬取实例
前言: 在爬虫过程中,我们可能需要重复的爬取同一个网站,为了避免重复的数据存入我们的数据库中通过实现增量去重去解决这一问题本文还针对了那些需要实时更新的网站增加了一个定时爬取的功能: 本文作者 ...
java selenium_java+selenium，40行代码完成支付宝账单爬取
java+selenium,40行代码完成支付宝账单爬取需要jar selenium-server-4.0.0-alpha-5.jar 需要驱动 chromedriver.exe 驱动需要和浏览器版 ...
python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库
我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...
加载多瓦片地图_手把手教 | 网络时空大数据爬取与分析DAS系统（瓦片地图获取）...
地理计算语言,为大众赋能地理智慧. --DAS Team 爬取分析DAS系统下载地址:https://pan.baidu.com/s/1NkoyFhzMtm13ivlOOzukow 提取码:6ky8 ...

爬取IMDBTOP250

爬取IMDBTOP250相关推荐

最新文章

热门文章