学习内容：

1、简单爬取代码的运用
2、文章和照片的保存

学习产出：

1、爬取代码

import requests #导入requests库
import bs4 #导入bs4库
from bs4 import BeautifulSoup #导入BeautifulSoup库
import urllib.request
import os
import sys
import  random
url='http://www.sdpei.edu.cn/news-show-13417.html'
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
html =r.text
list=[]
soup =BeautifulSoup(html,"html.parser")
div =soup.find(name = "div",attrs = "neir")
for p in soup.find(name = "div",attrs = "neir").children:spans=p('span')imgs =p('img')for img in imgs:t = random.randint(1,10)imgpath =str(t)+ ".jpg"src = img.get('src')imgurl ='http://www.sdpei.edu.cn/'+src #要拼出照片的urlurllib.request.urlretrieve(imgurl,imgpath)#保存照片 （照片的url加照片名字）for span in  spans :if isinstance(span, bs4.element.Tag):#除去空白list.append(span.string)

2、保存文章照片保存之间放在上边了

fileHandle = open ( 'test.txt', 'w+' ,encoding='utf-8')
for line in list:fileHandle.write(str(line)+'\n')

学习总结

1、对于网页爬取格式的简单了解
2、复习了文本的存储，和学习了一下照片的爬取和存储

美好的周末啥都没干美滋滋拜拜

爬虫爬虫 day2 爬取校网文章相关推荐

Python爬虫实战(1) | 爬取豆瓣网排名前250的电影（下）
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心所以,今天,用pyth ...
python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器如侵权联系作者删除文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息
原标题:python爬虫框架scrapy爬取梅花网资讯信息一.介绍本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...
Scrapy框架+Gerapy分布式爬取海外网文章
Scrapy框架+Gerapy分布式爬取海外网文章前言一.Scrapy和Gerapy是什么? 1.Scrapy概述 2.Scrapy五大基本构成: 3.建立爬虫项目整体架构图 4.Gerapy概述 ...
Python爬取书包网文章实战总结
python爬取书包网文章总结今天闲来无事去看小说,但是发现没办法直接下载,所以呢就用python爬虫来下载一波了,哈哈- 爬取的是这篇小说:剑破九天(是不是很霸气,话不多说,开始-) 总体思路步骤 ...
Python爬虫：正则表达式爬取校花网
#正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...
python 爬取贝壳网小区名称_Python爬虫实战：爬取贝壳网二手房40000条数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于啤酒就辣条 ,作者啤酒就辣条一.网页分析爬取贝壳网石家庄二 ...
Python爬虫实战：爬取贝壳网二手房40000条数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于啤酒就辣条 ,作者啤酒就辣条一.网页分析爬取贝壳网石家庄二 ...
在当当买了python怎么下载源代码-爬虫实战：爬取当当网所有 Python 书籍
来源:公众号-极客猴出处: 本文主要讲解如何利用urllib.re.BeautifulSoup 这几个库去实战,爬取当当网所有 Python 书籍. 1 确定爬取目标任何网站皆可爬取,就看你要不要 ...

爬虫爬虫 day2 爬取校网文章

学习内容：

学习产出：

学习总结

爬虫爬虫 day2 爬取校网文章相关推荐

最新文章

热门文章