学习内容:

1、简单爬取代码的运用
2、文章和照片的保存


学习产出:

1、爬取代码

import requests #导入requests库
import bs4 #导入bs4库
from bs4 import BeautifulSoup #导入BeautifulSoup库
import urllib.request
import os
import sys
import  random
url='http://www.sdpei.edu.cn/news-show-13417.html'
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
html =r.text
list=[]
soup =BeautifulSoup(html,"html.parser")
div =soup.find(name = "div",attrs = "neir")
for p in soup.find(name = "div",attrs = "neir").children:spans=p('span')imgs =p('img')for img in imgs:t = random.randint(1,10)imgpath =str(t)+ ".jpg"src = img.get('src')imgurl ='http://www.sdpei.edu.cn/'+src #要拼出照片的urlurllib.request.urlretrieve(imgurl,imgpath)#保存照片 (照片的url加照片名字)for span in  spans :if isinstance(span, bs4.element.Tag):#除去空白list.append(span.string)

2、保存文章 照片保存之间放在上边了

fileHandle = open ( 'test.txt', 'w+' ,encoding='utf-8')
for line in list:fileHandle.write(str(line)+'\n')

学习总结

1、对于网页爬取格式的简单了解
2、复习了文本的存储,和学习了一下照片的爬取和存储

美好的周末 啥都没干 美滋滋 拜拜

爬虫爬虫 day2 爬取校网文章相关推荐

  1. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  2. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  3. python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息

    原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...

  4. Scrapy框架+Gerapy分布式爬取海外网文章

    Scrapy框架+Gerapy分布式爬取海外网文章 前言 一.Scrapy和Gerapy是什么? 1.Scrapy概述 2.Scrapy五大基本构成: 3.建立爬虫项目整体架构图 4.Gerapy概述 ...

  5. Python爬取书包网文章实战总结

    python爬取书包网文章总结 今天闲来无事去看小说,但是发现没办法直接下载,所以呢就用python爬虫来下载一波了,哈哈- 爬取的是这篇小说:剑破九天(是不是很霸气,话不多说,开始-) 总体思路步骤 ...

  6. Python爬虫:正则表达式爬取校花网

    #正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...

  7. python 爬取贝壳网小区名称_Python爬虫实战:爬取贝壳网二手房40000条数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于啤酒就辣条 ,作者啤酒就辣条 一.网页分析 爬取贝壳网石家庄二 ...

  8. Python爬虫实战:爬取贝壳网二手房40000条数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于啤酒就辣条 ,作者啤酒就辣条 一.网页分析 爬取贝壳网石家庄二 ...

  9. 在当当买了python怎么下载源代码-爬虫实战:爬取当当网所有 Python 书籍

    来源:公众号-极客猴 出处: 本文主要讲解如何利用urllib.re.BeautifulSoup 这几个库去实战,爬取当当网所有 Python 书籍. 1 确定爬取目标 任何网站皆可爬取,就看你要不要 ...

最新文章

  1. 安卓的两种界面编写方式对比
  2. Windows 10累积更新发布:RS3正式版前最后一更
  3. HBase-scan API 通过scan读取表中数据
  4. 再见 Xshell!这个开源的终端工具更酷炫!
  5. 爆破专栏丨Spring Security系列教程之Spring Security的四种权限控制方式
  6. 【Linux】一步一步学Linux——watch命令(135)
  7. 数据库外键约束的几种方法及区别
  8. 文件系统:Ext3和Ext4
  9. python类方法是什么_python中什么是类方法
  10. 智库说 | 徐远:数字时代的城市潜力
  11. 为什么要从 Windows 7 升级到 Windows 10?
  12. springboot自定义ClassLoader实现同一个jar支持多版本的使用场景【附源码】
  13. 【产品人卫朋】2022年产品人必备的13个设计类网站(1.0版)
  14. 火车硬座车厢座位分布表
  15. WebLogic-BEA-000362错误及解决
  16. 520告白日~情人节特献3D玫瑰花源码
  17. 公共WiFi有风险,这些风险你都知道吗
  18. 初入职场|入门互联网产品经理
  19. 加权合并规则与路径压缩
  20. cortana android 地图,地图-系统爱好者

热门文章

  1. 有人说Java是世界上最好的语言,也有人说Java这几年就会没落,你怎么看呢
  2. 深度学习研究及其在生物医药领域的潜在应用
  3. 开关电源次级回路采用LM358恒流恒压电路原理
  4. 使用java swing制作人机五子棋
  5. 北京市长陈吉宁:确保企业社保缴费负担不增加
  6. Oracle计算距离当前时间几天、几年、几个月的方法
  7. 一年不见,基情未减——桂林电子科技大学一日游
  8. Delphi 学习书籍
  9. Ubuntu上查看tomcat进程以及运行状态
  10. 总结:m文件转化为c/c++语言文件,VC编译