爬虫爬虫 day2 爬取校网文章
学习内容:
1、简单爬取代码的运用
2、文章和照片的保存
学习产出:
1、爬取代码
import requests #导入requests库
import bs4 #导入bs4库
from bs4 import BeautifulSoup #导入BeautifulSoup库
import urllib.request
import os
import sys
import random
url='http://www.sdpei.edu.cn/news-show-13417.html'
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
html =r.text
list=[]
soup =BeautifulSoup(html,"html.parser")
div =soup.find(name = "div",attrs = "neir")
for p in soup.find(name = "div",attrs = "neir").children:spans=p('span')imgs =p('img')for img in imgs:t = random.randint(1,10)imgpath =str(t)+ ".jpg"src = img.get('src')imgurl ='http://www.sdpei.edu.cn/'+src #要拼出照片的urlurllib.request.urlretrieve(imgurl,imgpath)#保存照片 (照片的url加照片名字)for span in spans :if isinstance(span, bs4.element.Tag):#除去空白list.append(span.string)
2、保存文章 照片保存之间放在上边了
fileHandle = open ( 'test.txt', 'w+' ,encoding='utf-8')
for line in list:fileHandle.write(str(line)+'\n')
学习总结
1、对于网页爬取格式的简单了解
2、复习了文本的存储,和学习了一下照片的爬取和存储
美好的周末 啥都没干 美滋滋 拜拜
爬虫爬虫 day2 爬取校网文章相关推荐
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...
- python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
- python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息
原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...
- Scrapy框架+Gerapy分布式爬取海外网文章
Scrapy框架+Gerapy分布式爬取海外网文章 前言 一.Scrapy和Gerapy是什么? 1.Scrapy概述 2.Scrapy五大基本构成: 3.建立爬虫项目整体架构图 4.Gerapy概述 ...
- Python爬取书包网文章实战总结
python爬取书包网文章总结 今天闲来无事去看小说,但是发现没办法直接下载,所以呢就用python爬虫来下载一波了,哈哈- 爬取的是这篇小说:剑破九天(是不是很霸气,话不多说,开始-) 总体思路步骤 ...
- Python爬虫:正则表达式爬取校花网
#正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...
- python 爬取贝壳网小区名称_Python爬虫实战:爬取贝壳网二手房40000条数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于啤酒就辣条 ,作者啤酒就辣条 一.网页分析 爬取贝壳网石家庄二 ...
- Python爬虫实战:爬取贝壳网二手房40000条数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于啤酒就辣条 ,作者啤酒就辣条 一.网页分析 爬取贝壳网石家庄二 ...
- 在当当买了python怎么下载源代码-爬虫实战:爬取当当网所有 Python 书籍
来源:公众号-极客猴 出处: 本文主要讲解如何利用urllib.re.BeautifulSoup 这几个库去实战,爬取当当网所有 Python 书籍. 1 确定爬取目标 任何网站皆可爬取,就看你要不要 ...
最新文章
- 安卓的两种界面编写方式对比
- Windows 10累积更新发布:RS3正式版前最后一更
- HBase-scan API 通过scan读取表中数据
- 再见 Xshell!这个开源的终端工具更酷炫!
- 爆破专栏丨Spring Security系列教程之Spring Security的四种权限控制方式
- 【Linux】一步一步学Linux——watch命令(135)
- 数据库外键约束的几种方法及区别
- 文件系统:Ext3和Ext4
- python类方法是什么_python中什么是类方法
- 智库说 | 徐远:数字时代的城市潜力
- 为什么要从 Windows 7 升级到 Windows 10?
- springboot自定义ClassLoader实现同一个jar支持多版本的使用场景【附源码】
- 【产品人卫朋】2022年产品人必备的13个设计类网站(1.0版)
- 火车硬座车厢座位分布表
- WebLogic-BEA-000362错误及解决
- 520告白日~情人节特献3D玫瑰花源码
- 公共WiFi有风险,这些风险你都知道吗
- 初入职场|入门互联网产品经理
- 加权合并规则与路径压缩
- cortana android 地图,地图-系统爱好者