这篇博客主要是写两个爬虫,一个抓取静态网站的文字和图片,一个抓取动态网站的电影及相关消息。

1.每日一文(http://voice.meiriyiwen.com/)

#coding=utf-8
#爬取每日一文前10页内容
from lxml import etree
import requests
import urllib2,urllib
import sys
import os
import timetmpt_url = 'http://voice.meiriyiwen.com/voice/past?page=%d'
urllist = [tmpt_url%i for i in range(1,11)]def get_url():for url in urllist:try:headers = {'Host':'voice.meiriyiwen.com','Upgrade-Insecure-Requests':'1','User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36' ,'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding':'gzip, deflate, sdch, br','Accept-Language':'zh-CN,zh;q=0.8','Cache-Control':'max-age=0','Connection':'keep-alive'}#proxies = { "http": "dev-proxy.oa.com:8080","https": "dev-proxy.oa.com:8080",}time.sleep(0.5)response = requests.get(url,headers = headers)print response.status_codeget_info(response)except urllib2.URLError, e:print e.reasondef get_info(response):global counthtml = response.content#print htmltree = etree.HTML(html)rez = tree.xpath('//*[@class="img_list"]')for i in rez:title = i.xpath('//*[@class="list_author"]/a/text()')author = i.xpath('//*[@class="author_name"]/text()')for x,y in zip(title,author):count += 1print count,'|',x.replace(u'\xa0','').strip(),'|',y.replace(u'\xa0','').strip()if __name__ == '__main__':count = 0get_url()

View Code

运行结果:

2.豆瓣电影(https://movie.douban.com)

# coding=utf-8
import json
import os
import sys
import time
import urllib
import urllib2
import pymongo
import requests
import re
from lxml import etree# reload(sys)
# sys.setdefaultencoding('utf-8')
tmpt_url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%s&sort=recommend&page_limit=500&page_start=0'
tags = ('热门', '最新', '经典', '豆瓣高分', '冷门佳片', '华语', '欧美', '韩国','日本', '动作', '喜剧', '爱情', '科幻', '悬疑', '恐怖', '文艺')
urllist = [tmpt_url % i for i in tags]
#print urllistdef get_url():for url in urllist:try:headers = {#'Host':'www.douban.com','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, sdch, br','Accept-Language': 'zh-CN,zh;q=0.8','Cache-Control': 'max-age=0','Connection': 'keep-alive'}# proxies = { "http": "dev-proxy.oa.com:8080","https":# "dev-proxy.oa.com:8080",}time.sleep(0.5)response = requests.get(url, headers=headers)tag = re.findall('tag=(.*?)&',url)print u"电影类型:",tagget_info(response)except Exception,e:print edef get_info(response):global counthtml = response.contentdictt = json.loads(html, encoding='utf-8')dd = dictt['subjects']for item in dd:count += 1print count,u'电影链接:', item['url'], u'电影名:', item['title'], u'评分:', item['rate']if __name__ == '__main__':count = 0get_url()

View Code

运行结果:

转载于:https://www.cnblogs.com/Ryana/p/6147771.html

爬虫实例:每日一文和豆瓣电影相关推荐

  1. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

  2. JAVA爬虫(一):豆瓣电影排行榜爬取

    JAVA爬虫(一):豆瓣电影排行榜爬取 前言 流程图 步骤 一.爬取豆瓣电影榜单网页源代码 二.网页源码解析 三.爬取单个电影网页源码 四.源代码解析及关键信息获取 前言 最近和大创队友一起给大创做的 ...

  3. Python学习笔记 第二部分 - 正则表达式 与 爬虫小实例(抓取豆瓣电影中评分大于等于8分的影片)...

    一.正则表达式 python正则常用的函数和方法 compile(pattern,flags=0)        对正则表达式pattern进行编译,flags是可选标识符,并返回一个regex对象 ...

  4. python爬虫爬取豆瓣电影信息城市_Python爬虫入门 | 2 爬取豆瓣电影信息

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  5. Python爬虫实战(爬取豆瓣电影)

    首先介绍一下python的几个库,python之所以在实现爬虫方面有独特的优势,在于其类库非常的丰富,基本涵盖了所有的需求,只要找到对应的库进行import,这就类似于Java中导入类库或者jar包那 ...

  6. Python爬虫实战 | (3) 爬取豆瓣电影Top250

    在本篇博客中,我们将使用requests+正则表达式来爬取豆瓣电影TOP250电影榜单,获取每部电影的序号.片名.导演.编剧.主演.类型.制作国家/地区.语言.上映日期.片长.又名.豆瓣评分和剧情简介 ...

  7. python爬虫,Scrapy爬取豆瓣电影《芳华》电影短评,分词生成词云图。

    项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...

  8. Python爬虫示例1:获取豆瓣电影正在热播的电影信息

    个人的第一个python爬虫程序,如果错误,请指正. 程序用于抓取豆瓣电影正在热播的电影信息,详细代码如下所示: #!/usr/bin/python # -*- coding: UTF-8 -*- i ...

  9. 爬虫实战:爬取豆瓣电影 Top-250 到 Excel 表格中

    最近在家无聊自学了python的一些基础知识.后来看到许多朋友都在写爬虫,自己感觉很有意思,也想试一下 >____< 其实本来我是想将数据爬取到excel之后再增加一些数据库操作,然后用f ...

最新文章

  1. java6集合编程题
  2. 深入理解RCU | RCU源码剖析
  3. 位地址和字节地址换算_面试常考,项目易错,长文详解C/C++中的字节对齐
  4. java 文件写_java写入文件的几种方法分享
  5. PowerPC VxWorks BSP分析(2)--PowerPC汇编
  6. 丹琦女神新作:对比学习,简单到只需要Dropout两下
  7. Java--线程同步
  8. Linux系统编程35:多线程之如何理解Linux中的线程以及轻量级进程LWP
  9. DNS服务系列之二:DNS区域传送漏洞的安全案例
  10. css工程师技巧,web前端工程师必须掌握的技巧–CSS Sprites技术(附基础操作教程)...
  11. servlet 技术详解
  12. 推荐《与孩子一起学编程》,与孩子一起开启pathon编程之路吧
  13. 阿里矢量图标库彩色图标(Symbol 引用)
  14. 华为手机从浏览器安装第三方软件签名不一致如何强制安装
  15. 8926音频录音流程
  16. 老虎淘客系统淘宝平台无法生成淘口令问题如何解决?
  17. 单片机8位数码管时钟c语言汇编,单片机用8位数码管-显示时钟Proteus仿真+代码
  18. 231 订单支付 苹果内购
  19. verilog从txt中读取_将Verilog中的二进制文件数据读入2D数组
  20. 删掉wps后台烂进程

热门文章

  1. 研究生开学第一周Week01
  2. 【编程开发】MD5算法原理
  3. python如何下载安装spacy_使用 spacy 进行自然语言处理(一)
  4. 暑假阅读的正确打开方式原来这么简单!
  5. 电脑开机启动错误oxcoooo428
  6. Vondrak滤波及测试(python)
  7. 把国外软件替换出去!Notepad--
  8. 王了个王(羊了个羊)H5游戏源码下载
  9. STM32F1外部8M晶振不起振的奇葩原因
  10. 国产化7K325T板卡学习资料: 基于国产化Ch-7K325T 的 FMC接口PCIe卡 国产化板卡