最最简单的一个爬虫代码
第一次写博客的宝宝 献上最简单的一个爬虫代码
mac os操作系统自带的python2.7,实现了一个网页爬虫,把网页html保存为txt文件。然后找到网页里面包含的所有图片,分别保存为png图片。
先上代码(怎样漂亮的显示代码呀????)
python小白一枚 每一行都是边查边用哟
import urllib2
import urllib
import re
response = urllib2.urlopen(“https://www.cnblogs.com/zyb993963526/p/8724621.html”)
html = response.read()
f = open(‘web_page.txt’,‘w’)
f.write(‘This is my web_crawler result.\n’)
f.write(html)
f.close
address = re.compile(r’<img src="([^"]+.png)"’)
imglist = re.findall(address,html)
x=0
for imgurl in imglist:
urllib.urlretrieve(imgurl,‘image_in_this_web_%s.png’%x)
x += 1
把代码保存在一个名为web_crawler.py的文件里面
打开Terminal,运行python web_crawler.py
就在对应文件夹里面生成了一个web_page.txt的文件,文件里面写着
This is my web_crawler result.
然后就是这个网页https://www.cnblogs.com/zyb993963526/p/8724621.html里面的全部东东了 呀,呀,一大堆东东,哈哈哈
然后找到所有图片哦,用imglist这个list存储
最后一个循环把每个图片的网址保存成png图片了啦。
生成的txt
生成的图片
哇 是不是超简单!!
关键是你想从网页里面爬什么内容,就看看下面这一句话怎么改一改就行了
address = re.compile(r’<img src="([^"]+.png)"’)
因为这个html里面所有的图片都包含<img src=这句话哦
最最简单的一个爬虫代码相关推荐
- 一个爬虫代码价值 7000 万
一个爬虫代码价值 7000 亿,这样的代码你听说过吗? 这是一个爬取比特币密钥的代码. 比特币相信大家都有听说过,尤其最近比特币价格还突破了 5 万美元大关. 现在1 枚比特币就价值 35 万人民币. ...
- 一个爬虫代码价值 7000 万!
这是「进击的Coder」的第 136 篇热点新闻 作者:痴海 来源:痴海 " 阅读本文大概需要 4 分钟. " 一个爬虫代码价值 7000 亿,这样的代码你听说过吗? 这是一个爬取 ...
- 学习之路(三):分享一下最近的一个爬虫代码
快速浏览目录 一.爬虫使用的库 二.爬取数据的网站的详细说明以及操作 1.打开网页 2.爬取的网页详细说明 三.爬虫代码 1.解析HTML 2.获取新页面的链接 3.下载 第一种情况:下载图片 第二种 ...
- 网页设计基础教程最最简单的一个ppt
呵,马上要给一位朋友讲一下网页设计基础了,就简单地做了个ppt.内容如下: 1.html基础 2.asp基础 3.小事例 4.真实案例完善 ppt中写的非常概括,或者叫做对非常简单也行.我觉得只要能够 ...
- 【python】一个简单的贪婪爬虫
这个爬虫的作用是,对于一个给定的url,查找页面里面所有的url连接并依次贪婪爬取 主要需要注意的地方: 1.lxml.html.iterlinks() 可以实现对页面所有url的查找 2.获取页面 ...
- 花三分钟给女票写一个爬虫,做一回模范男友!
烦恼波及 女票是做运营的,一直苦恼于起推文标题.领导还会频繁突袭:"XX,给这次活动拟一个标题." tmd,自己分内的活都干不完,却要为活动策划起标题流汗,不是自己的活,还得笑着干 ...
- 简单的python装b代码_一秒学会,小白也能上手,最简单的装逼代码
前言 啦啦啦我又来了,懒惰的小编很久没更新文章啦.我有罪我忏悔......今天给大家带来的教程是所有代码中最最简单的一个装逼代码.可谓是居家旅行必会之教程~ 相信大家看到各种IT大佬们打开电脑,看着大 ...
- python爬虫设计在哪里_《python 爬虫教程 知乎》 怎样用Python设计一个爬虫模拟登陆知乎...
<python 爬虫教程 知乎> 怎样用Python设计一个爬虫模拟登陆知乎 python 爬虫教程 知乎2020-09-23 01:45:13人已围观 怎样用Python设计一个爬虫模拟 ...
- 请用Python写一个爬虫程序,爬取当当网图书畅销榜数据
好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...
- 爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫
跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫 以抓取简书首页文章标题和链接为例 简书首页 就是以上红色框内文章的标签,和这个标题对应的url链接 ...
最新文章
- sql注入攻击与防御第二版读书笔记二——SQL盲注利用
- ubuntu php 树莓派,树莓派3 安装ROS环境(ubuntu mate 16.04+kinetic)
- 无法打开文件“libboost_python-vc120-mt-sgd-1_59.lib”
- python多线程守护线程_Python守护程序线程
- 主题图标_【主题爱好者】简约全局主题【归途】
- 《遥感原理与应用》总结—遥感图像几何处理
- 【OpenCV】特征检测器 FeatureDetector
- 从亏损19亿到盈利6亿,恺英网络做对了什么?
- 2016百度之星 - 初赛(Astar Round2A)题解
- 手机快播安卓版 Qvod player V1.0.19
- 微信企业号上传图片 php,C#开发微信门户及应用微信企业号的消息发送(文本、图片、文件、语音、视频、图文消息等)...
- mysql assertion_Mysql异常崩溃,提示 Failing assertion: extern_len = part_len
- php集成Stripe支付,海外支付stripe对接支付
- cywdhd在RK平台的适配
- 侠客行:一技压身,天下行走
- 前端 报错! 总结:
- 用正交变换将二次型化为标准形
- 国家级城市群规划的八大变化
- 智能交通大数据分析系统-实现功能
- 外汇天眼:投资200美元起 每天收益7%!千万别被蒙蔽双眼!