爬虫实例：每日一文和豆瓣电影

这篇博客主要是写两个爬虫，一个抓取静态网站的文字和图片，一个抓取动态网站的电影及相关消息。

1.每日一文（http://voice.meiriyiwen.com/）

#coding=utf-8
#爬取每日一文前10页内容
from lxml import etree
import requests
import urllib2,urllib
import sys
import os
import timetmpt_url = 'http://voice.meiriyiwen.com/voice/past?page=%d'
urllist = [tmpt_url%i for i in range(1,11)]def get_url():for url in urllist:try:headers = {'Host':'voice.meiriyiwen.com','Upgrade-Insecure-Requests':'1','User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36' ,'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding':'gzip, deflate, sdch, br','Accept-Language':'zh-CN,zh;q=0.8','Cache-Control':'max-age=0','Connection':'keep-alive'}#proxies = { "http": "dev-proxy.oa.com:8080","https": "dev-proxy.oa.com:8080",}time.sleep(0.5)response = requests.get(url,headers = headers)print response.status_codeget_info(response)except urllib2.URLError, e:print e.reasondef get_info(response):global counthtml = response.content#print htmltree = etree.HTML(html)rez = tree.xpath('//*[@class="img_list"]')for i in rez:title = i.xpath('//*[@class="list_author"]/a/text()')author = i.xpath('//*[@class="author_name"]/text()')for x,y in zip(title,author):count += 1print count,'|',x.replace(u'\xa0','').strip(),'|',y.replace(u'\xa0','').strip()if __name__ == '__main__':count = 0get_url()

View Code

运行结果：

2.豆瓣电影（https://movie.douban.com）

# coding=utf-8
import json
import os
import sys
import time
import urllib
import urllib2
import pymongo
import requests
import re
from lxml import etree# reload(sys)
# sys.setdefaultencoding('utf-8')
tmpt_url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%s&sort=recommend&page_limit=500&page_start=0'
tags = ('热门', '最新', '经典', '豆瓣高分', '冷门佳片', '华语', '欧美', '韩国','日本', '动作', '喜剧', '爱情', '科幻', '悬疑', '恐怖', '文艺')
urllist = [tmpt_url % i for i in tags]
#print urllistdef get_url():for url in urllist:try:headers = {#'Host':'www.douban.com','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, sdch, br','Accept-Language': 'zh-CN,zh;q=0.8','Cache-Control': 'max-age=0','Connection': 'keep-alive'}# proxies = { "http": "dev-proxy.oa.com:8080","https":# "dev-proxy.oa.com:8080",}time.sleep(0.5)response = requests.get(url, headers=headers)tag = re.findall('tag=(.*?)&',url)print u"电影类型：",tagget_info(response)except Exception,e:print edef get_info(response):global counthtml = response.contentdictt = json.loads(html, encoding='utf-8')dd = dictt['subjects']for item in dd:count += 1print count,u'电影链接：', item['url'], u'电影名：', item['title'], u'评分：', item['rate']if __name__ == '__main__':count = 0get_url()

View Code

运行结果：

转载于:https://www.cnblogs.com/Ryana/p/6147771.html

爬虫实例：每日一文和豆瓣电影相关推荐

Python爬虫入门（爬取豆瓣电影信息小结）
Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...
JAVA爬虫（一）：豆瓣电影排行榜爬取
JAVA爬虫(一):豆瓣电影排行榜爬取前言流程图步骤一.爬取豆瓣电影榜单网页源代码二.网页源码解析三.爬取单个电影网页源码四.源代码解析及关键信息获取前言最近和大创队友一起给大创做的 ...
Python学习笔记第二部分 - 正则表达式与爬虫小实例（抓取豆瓣电影中评分大于等于8分的影片）...
一.正则表达式 python正则常用的函数和方法 compile(pattern,flags=0) 对正则表达式pattern进行编译,flags是可选标识符,并返回一个regex对象 ...
python爬虫爬取豆瓣电影信息城市_Python爬虫入门 | 2 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
Python爬虫实战（爬取豆瓣电影）
首先介绍一下python的几个库,python之所以在实现爬虫方面有独特的优势,在于其类库非常的丰富,基本涵盖了所有的需求,只要找到对应的库进行import,这就类似于Java中导入类库或者jar包那 ...
Python爬虫实战 | (3) 爬取豆瓣电影Top250
在本篇博客中,我们将使用requests+正则表达式来爬取豆瓣电影TOP250电影榜单,获取每部电影的序号.片名.导演.编剧.主演.类型.制作国家/地区.语言.上映日期.片长.又名.豆瓣评分和剧情简介 ...
python爬虫，Scrapy爬取豆瓣电影《芳华》电影短评，分词生成词云图。
项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...
Python爬虫示例1：获取豆瓣电影正在热播的电影信息
个人的第一个python爬虫程序,如果错误,请指正. 程序用于抓取豆瓣电影正在热播的电影信息,详细代码如下所示: #!/usr/bin/python # -*- coding: UTF-8 -*- i ...
爬虫实战：爬取豆瓣电影 Top-250 到 Excel 表格中
最近在家无聊自学了python的一些基础知识.后来看到许多朋友都在写爬虫,自己感觉很有意思,也想试一下 >____< 其实本来我是想将数据爬取到excel之后再增加一些数据库操作,然后用f ...

爬虫实例：每日一文和豆瓣电影

爬虫实例：每日一文和豆瓣电影相关推荐

最新文章

热门文章