用BeautifulSoup处理html文件

#!/usr/bin/env python
# coding=utf-8
import urllib2
import urllib
from bs4 import BeautifulSoup
import re
def getContent(url):content = urllib2.urlopen(url).read()soup=BeautifulSoup(content)global siteUrlssiteUrls = soup.findAll('li',attrs={'class':'span3'})for i in siteUrls:file=i.findAll('img')   for t in file:id=t.get('data-id')name=t.get('data-src')imgpath='H:\python_learn\photo/%s.jpg' % idurllib.urlretrieve(name,imgpath)
for i in xrange(1,7):url='http://www.dbmeizi.com/?p=%s' % igetContent(url)

用BeautifulSoup爬取豆瓣妹子的图片相关推荐

  1. python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格

    豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...

  2. 爬虫beautifulsoup爬取豆瓣读书数据

    爬虫beautifulsoup爬取豆瓣读书数据:主要是爬取收集书的名字.类别.简介,用于接下来的聚类学习. 豆瓣链接:https://book.douban.com/tag/?view=type&am ...

  3. BeautifulSoup爬取豆瓣电影数据

    BeautifulSoup爬取豆瓣TOP250 豆瓣爬取地址 https://movie.douban.com/top250?format=text BeautifulSoup官网地址 https:/ ...

  4. python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评

    目的:爬取豆瓣[红海行动]电影的首页短评 步骤: 1.使用BeautifulSoup解析网页 soup = BeautifulSoup(r, 'lxml') // lxml 库解析速度快,也能解析复杂 ...

  5. requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250

    上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...

  6. 利用BeautifulSoup爬取豆瓣top250排行榜标题

    利用BeautifulSoup爬取标题 整体思想: 首先导入所需要的库 声明一个方法 ,将过程包裹起来 获取网页 解析网页,找到我们所需要的东西 保存内容 1.获取随机头部的库方法 from fake ...

  7. BeautifulSoup爬取豆瓣电影排名

    豆瓣电影排名网址:https://movie.douban.com/top250?start=0&filter= 在进去豆瓣电影排名后,打开浏览器的检查功能分析爬取页面源代码,在写请求代码之前 ...

  8. requests库和beautifulsoup爬取豆瓣书本数据并存入excel

    以下是所有的代码,如果想要改变爬取的书本类型可以在测试函数当中修改 # -*-coding:utf-8 -*-# 豆瓣网爬书参考代码 日期:2018-08-19 参考代码 import sys imp ...

  9. Python-urllib、BeautifulSoup爬取豆瓣数据

    b站学习地址:urllib获取网页数据 https://www.bilibili.com/video/BV12E411A7ZQ?p=18 1.get请求 import urllib.request # ...

  10. python爬虫爬取豆瓣top排行图片

    爬虫是什么? "网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁 ...

最新文章

  1. XP与Windows 7(Win7)等操作系统Ghost备份
  2. ReactNative学习笔记(一)环境搭建
  3. 适合0基础的web开发系列教程-换行和水平线
  4. linux lpte_linux常用命令
  5. 中的实践 中兴_中兴通讯王卫斌:一步到位 构建5G 2B新商业
  6. 传统socket的编程实现
  7. Android 蓝牙音箱开发
  8. 6 月编程语言排行榜:Python 飙升,有望挑战 Java 和 C?
  9. 6.Entity FrameWork Core 5.0 删除、修改数据
  10. c语言中cmp的用法,cMP+cplay值得一试!(附下载地址和简要使用说明)
  11. WPS文字2013利用绘图工具中的形状裁剪出各式各样的图片
  12. outlook qr码在哪里_聚合码微信支付宝申请开通,商家融合收款码实现一码支付,如何申请微信和支付宝合并收款码?聚合码支持信用卡、花呗、微信和支付宝收款...
  13. Volatile能不能保证线程安全?
  14. 一篇文章 Redis 从 0 到 1
  15. docker 常用命令合集
  16. android beam小米,小米手机自定义空白卡模拟加密卡门禁卡教程
  17. 验证输入是否为正确的组织机构代码
  18. 安卓逆向—霸哥磁力搜索apk过签名校验
  19. ROS中的imu_transformer包是什么,在哪里可以下载啊
  20. 辰迈智慧完美收官防灾减灾与应急救援展

热门文章

  1. 基于SpringBoot的酒店管理系统
  2. 东北大学数理统计 2019-2020 年试题答案
  3. sklearn实现lda主题模型LatentDirichletAllocation
  4. 高交会|华创芯光邀您一起畅游可见光通信的世界
  5. 乾颐堂现任明教教主(2014年课程)TCPIP协议详解卷一 第八节课笔记
  6. ACM新手入门之杭电150题使用指南及C语言学习推荐
  7. limesurvey php5.2,如何在Limesurvey Docker映像上安装php composer
  8. 基于微信小程序的疫情防控平台设计与实现-计算机毕业设计源码+LW文档
  9. 网络规划设计师水平考试备考资料(6.光纤相关)
  10. 摘自韩寒博客《砰然心动》