PYTHON爬虫爬取
1.使用标准库urllib爬取““厚土造物”——第二届平顶山学院陶瓷艺术设计专业师生作品展在上海世纪公园开展-平顶山学院新闻网”平顶山学院新闻网上的图片,要求:保存到F盘pic目录中,文件名称命名规则为“本人姓名”+ “_图片编号”,如姓名为张三的第一张图片命名为“张三_1.jpg”。
参考代码:
from re import findall
from urllib.request import urlopen
url = 'http://news.pdsu.edu.cn/info/1005/31269.htm'
with urlopen(url) as fp:
content=fp.read().decode('utf-8')
pattern = '<img width="500" src="(.+?)"'
#查找所有图片链接地址
result = findall(pattern, content) #捕获分组
#逐个读取图片数据,并写入本地文件
path='f:/pic/'
xh='张三'
for index, item in enumerate(result):
urls='http://news.pdsu.edu.cn/'+item
with urlopen(str(urls)) as fp:
with open(path+xh+'_'+str(index)+'.jpg','wb') as fp1:
fp1.write(fp.read())
2. 采用scrapy爬虫框架,抓取平顶山学院新闻网(平顶山学院新闻网)站上的内容,具体要求:抓取新闻栏目,将结果写入lm.txt。
参考代码:
class MyspyderSpider(scrapy.Spider):
name = 'myspyder'
allowed_domains = ['pdsu.edu.cn']
start_urls = ['http://www.pdsu.edu.cn']
def parse(self, response):
html_doc=response.text
soup= BeautifulSoup(html_doc, 'html.parser')
re=soup.find_all('h2', class_='fl')
content=''
for lm in re:
print(lm.text)
content+=lm.text+'\n'
with open('f:\\lm.txt', 'a+') as fp:
fp.writelines(content)
3. 采用request爬虫模块,抓取平顶山学院网络教学平台上的Python语言及应用课程上的每一章标题(Python语言及应用【网络课程验收合格】)。
import requests
import bs4
import re
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'
}
url='http://mooc1.chaoxing.com/course/206046270.html'
response = requests.get(url,headers=headers).text
soup = bs4.BeautifulSoup(response,'html.parser')
t=soup.findAll('div',class_='f16 chapterText')
for ml in t:
print (ml.text)
PYTHON爬虫爬取相关推荐
- 在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么
在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...
- python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...
- python网易云_用python爬虫爬取网易云音乐
标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...
- 使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...
- python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址
认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...
- 运用Python爬虫爬取一个美女网址,爬取美女图
运用Python爬虫爬取一个美女网址,爬取美女图 要运用到的python技术: 导入库 1.request 发送请求,从服务器获取数据 2.BeautifulSoup 用来解析整个网页的源代码 imp ...
- Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
- Python爬虫 爬取新浪微博热搜
Python爬虫 爬取新浪微博热搜 文章目录 Python爬虫 爬取新浪微博热搜 网页分析 数据爬取 数据存储 全部代码 网页分析 找到热搜的排名,标题和热度,发现它们在同一路径 数据爬取 impor ...
最新文章
- 数组先小于等于再大于等于的调整
- 【整理】MySQL 之 autocommit
- 模拟退火算法从原理到实战【基础篇】
- SAP License:如何导入License
- 管理信息系统第一次作业
- MD5加密----------
- ios睡眠分析 卧床 睡眠_iOS 10 的「就寝」功能如何让我的睡眠变得更有规律
- oracle scan启动,scan listener 重启
- 基于Vue框架开发的页面加载二维地图以及交互
- 软件测试基本方法介绍
- Tibco使用(自用)
- 计算机网络:以太网中的MTU与MSS
- R语言时间序列函数整理[不断更新]
- Java日志框架-SLF4J入门
- 基础运放电路-含波形图分析-运算放大器
- Cesium-源码修改-gltf增加纹理贴图改变3dtiles外观
- 阿里云下如何巧加web防火墙?
- Python自学要多久?
- Python 转义字符
- 9、静态库和动态库构建
热门文章
- 20220316_Scanner、匿名对象、Random、ArrayList
- Flink保证exactly-once机制介绍:checkpoint及TwoPhaseCommitSinkFunction
- DuerOS智能设备激活数破亿!百度补贴上亿造节再添一把火
- 微信android字体颜色,如何用微信打出颜色各异的字
- pdf如何转换为word文档
- MAT之NSL:SOFM神经网络实现预测哪个样本与哪个样本处在同一层,从而科学规避我国煤矿突水灾难
- 柠萌影视终止A股上市计划:黄磊、张嘉译均持股,有股东多次失信
- Android性能优化系列篇(三):崩溃优化+卡顿优化
- 手写Promisify函数
- 记录一次minerd肉鸡木马的排查思路