PYTHON爬虫爬取

1.使用标准库urllib爬取““厚土造物”——第二届平顶山学院陶瓷艺术设计专业师生作品展在上海世纪公园开展-平顶山学院新闻网”平顶山学院新闻网上的图片，要求:保存到F盘pic目录中，文件名称命名规则为“本人姓名”+ “_图片编号”，如姓名为张三的第一张图片命名为“张三_1.jpg”。

参考代码：

from re import findall

from urllib.request import urlopen

url = 'http://news.pdsu.edu.cn/info/1005/31269.htm'

with urlopen(url) as fp:

content=fp.read().decode('utf-8')

pattern = '<img width="500" src="(.+?)"'

#查找所有图片链接地址

result = findall(pattern, content) #捕获分组

#逐个读取图片数据，并写入本地文件

path='f:/pic/'

xh='张三'

for index, item in enumerate(result):

urls='http://news.pdsu.edu.cn/'+item

with urlopen(str(urls)) as fp:

with open(path+xh+'_'+str(index)+'.jpg','wb') as fp1:

fp1.write(fp.read())

2. 采用scrapy爬虫框架，抓取平顶山学院新闻网（平顶山学院新闻网）站上的内容，具体要求：抓取新闻栏目，将结果写入lm.txt。

参考代码：

class MyspyderSpider(scrapy.Spider):

name = 'myspyder'

allowed_domains = ['pdsu.edu.cn']

start_urls = ['http://www.pdsu.edu.cn']

def parse(self, response):

html_doc=response.text

soup= BeautifulSoup(html_doc, 'html.parser')

re=soup.find_all('h2', class_='fl')

content=''

for lm in re:

print(lm.text)

content+=lm.text+'\n'

with open('f:\\lm.txt', 'a+') as fp:

fp.writelines(content)

3. 采用request爬虫模块，抓取平顶山学院网络教学平台上的Python语言及应用课程上的每一章标题（Python语言及应用【网络课程验收合格】）。

import requests

import bs4

import re

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'

}

url='http://mooc1.chaoxing.com/course/206046270.html'

response = requests.get(url,headers=headers).text

soup = bs4.BeautifulSoup(response,'html.parser')

t=soup.findAll('div',class_='f16 chapterText')

for ml in t:

print (ml.text)

PYTHON爬虫爬取相关推荐

在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下搜索引擎用的很频繁,现在利用Python爬 ...
python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么
在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...
python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...
python网易云_用python爬虫爬取网易云音乐
标签: 使用python爬虫爬取网易云音乐需要使用的模块只需要requests模块和os模块即可开始工作先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...
使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip instal ...
python如何爬取网站所有目录_用python爬虫爬取网站的章节目录及其网址
认识爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟 ...
运用Python爬虫爬取一个美女网址，爬取美女图
运用Python爬虫爬取一个美女网址,爬取美女图要运用到的python技术: 导入库 1.request 发送请求,从服务器获取数据 2.BeautifulSoup 用来解析整个网页的源代码 imp ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
Python爬虫爬取新浪微博热搜
Python爬虫爬取新浪微博热搜文章目录 Python爬虫爬取新浪微博热搜网页分析数据爬取数据存储全部代码网页分析找到热搜的排名,标题和热度,发现它们在同一路径数据爬取 impor ...

PYTHON爬虫爬取

PYTHON爬虫爬取相关推荐

最新文章

热门文章