from bs4 import BeautifulSoup
import urllib.requestprint ('Hello world')header='http://www.w3school.com.cn'
follower='/sql/index.asp'
url=header+follower
end='http://www.w3school.com.cn/sql/sql_summary.asp'
title='教程'#while url!=end :
print(url)
response = urllib.request.urlopen(url)
html=response.read()
soup=BeautifulSoup(html,'lxml')
fileHandle=open((title+'.html'),'w')
fileHandle.write(soup.prettify())
fileHandle.close()
#print(soup.prettify())
for link in soup.find_all('a'):follower = link.get('href')if follower.startswith('/sql'):print(follower)title=link.get('title')url=header+followerresponse = urllib.request.urlopen(url)html=response.read()fileHandle=open((title+'.html'),'wb')fileHandle.write(html)fileHandle.close()#提取下一页的后缀,更新url,更新title#fileHandle=open('sql_update.html','w')
#fileHandle.write(soup.prettify())
#fileHandle.close()
#html=html.decode('UTF-8')
#print(html)#html=html.decode('UTF-8')#print(soup.prettify())
'''print(soup.title)
for x in soup.find_all('a'):if x.get('title')!= None:print (x.get('title'))
'''#if x.get('class')==
#print(soup.get_text())
#print(response)
#print(html)

自己写来抓所有的SQL相关内容的东西,用了beautifulSoup,感觉不错。确实可以开始学Python了,好玩=。=

应该再把html文件前面一段没什么用的东西截掉。然后是想办法把经过JS处理的html网页再扒下来,现在扒下来的都是原始的html网页只是刚好够用。

from bs4 import BeautifulSoup
import urllib.requestprint ('Hello world')header='http://www.w3school.com.cn'
follower='/sql/index.asp'
url=header+follower
end='http://www.w3school.com.cn/sql/sql_summary.asp'
title='教程'print(url)
response = urllib.request.urlopen(url)
html=response.read()
soup=BeautifulSoup(html,'lxml')
#print(soup.prettify())
'''for link in soup.find_all('div'):if link.get('id') =='maincontent':print (link.prettify())str=link.prettify('gbk')fileHandle=open((title+'.html'),'wb')fileHandle.write(str)fileHandle.close()
'''
for link in soup.find_all('a'):follower = link.get('href')if follower.startswith('/sql'):print(follower)title=link.get('title')url=header+followerresponse = urllib.request.urlopen(url)html=response.read()tempSoup=BeautifulSoup(html,'lxml')for tempLink in tempSoup.find_all('div'):if tempLink.get('id')== 'maincontent':str=tempLink.prettify('gbk')#坑在这里fileHandle=open((title+'.html'),'wb')fileHandle.write(str)fileHandle.close()

改了一下内容,获取了所有网址主要的那部分。其中比较坑的是编码方式。BeautifulSoup会自动把html解析成Unicode编码,直接输出到文件里再用浏览器打开就是乱码

用prettify改成原来的编码方式就好了。

一个获取w3school上面SQL教程的Python爬虫相关推荐

  1. Python学习教程:Python爬虫抓取技术的门道

    Python学习教程:Python爬虫抓取技术的门道 web是一个开放的平台,这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展.然而,正所谓成也萧何败也萧何,开放的特性.搜索引擎以及简单 ...

  2. python爬虫教程下载-Python爬虫文件下载图文教程

    而今天我们要说的内容是:如果在网页中存在文件资源,如:图片,电影,文档等.怎样通过Python爬虫把这些资源下载下来. 1.怎样在网上找资源: 就是百度图片为例,当你如下图在百度图片里搜索一个主题时, ...

  3. python爬虫教程视频-python爬虫(入门教程、视频教程)

    python的版本经过了python2.x和python3.x等版本,无论哪种版本,关于python爬虫相关的知识是融会贯通的,脚本之家关于爬虫这个方便整理过很多有价值的教程,小编通过本文章给大家做一 ...

  4. python爬虫教程书籍-python爬虫有哪些书(python爬虫教程知乎)

    python爬虫有哪些书 python有哪?下面给大家介绍6本有关爬书: 更多Python书籍推荐,可以参考这篇文<想学python看哪些书> 1.Python网络爬虫实战 本书从Pyth ...

  5. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

  6. python爬虫教程入门-Python爬虫系列 - 入门教学

    本文来源于公众号[程序猿声],作者周云猛 启 大家好,我是新来的小编小周.今天给大家带来的是python爬虫入门,文章以简为要,引导初学者快速上手爬虫.话不多说,我们开始今天的内容.在初步学习爬虫之前 ...

  7. python爬取换页_一个可识别翻页的简易Python爬虫程序

    同学拿出一个需求:从某课程教学网站上爬取所有课程的主页面,以及课程简介栏目内容. 于是在之前做的那个练手级的Python爬虫程序中进行修改,最终实现了该功能.与之前那个爬虫不同,这里每一个大类的课程下 ...

  8. 实时获取股票数据,免费!——Python爬虫Sina Stock实战

    ​​ 数量技术宅团队在CSDN学院推出了量化投资系列课程 欢迎有兴趣系统学习量化投资的同学,点击下方链接报名: 量化投资速成营(入门课程) Python股票量化投资 Python期货量化投资 Pyth ...

  9. python爬虫教程下载-Python爬虫视频教程全集下载

    原标题:Python爬虫视频教程全集下载 Python作为一门高级编程语言,在编程中应用得非常广泛.随着人工智能的发展,python人才的需求更大.当然,这也吸引了很多同学选择自学Python爬虫.P ...

  10. python爬虫开发环境_python爬虫开发教程下载|Python爬虫开发与项目实战(范传辉 著)pdf 完整版_ - 极光下载站...

    Python爬虫开发与项目实战pdf扫描版下载.Python爬虫开发是一个Pthyon编程语言与HTML基础知识引领读者入门知识,重点讲述了云计算的相关内容及其在爬虫中的应用,进而介绍如何设计自己的爬 ...

最新文章

  1. 三星android pro,够大才能爽 三星Galaxy Note Pro评测
  2. 【攻防演练】蓝方值守阶段经验技巧
  3. centos中如何找出系统中 load 高时处于运行队列的进程
  4. swift 打开第三方应用_iOS卡通人物帧动画入门9(大结局):番外篇-扩展第三方类
  5. CHIL-SQL-服务器 - RDBMS
  6. 示坡线高程判断_一步一步教你识别地形图
  7. .ppt和.pptx有什么区别
  8. MATLAB将MP4转为GIF
  9. Unity初级案例 - 吃豆人(Unity2017.2.0)Day 2
  10. 卡内基梅隆计算机专业,美国卡内基梅隆大学计算机学院有几个分专业?
  11. python 3.7.0 小甲鱼 有道词典翻译 (error:50)问题解决
  12. 【Python+QGIS将地名批量标注于高德地图】
  13. 天云大数据_【案例分享】天云大数据最佳实践系列之——信用评分模型
  14. 【CSS】自定义平台文章封面图
  15. windows系统vmware重装步骤
  16. 拉钩网前端项目实战04
  17. Emoji表情正则匹配
  18. MyBatis中的resultMap两个association
  19. 2018最新北风网人工智能全套分享
  20. 7-2 长度质量计量单位换算 (5 分)

热门文章

  1. 半导体物理实验MatLab,Matlab在固体物理中的应用程序.doc
  2. Icode编程>>>Python编程>>>1级训练场>>>基础训练【1】
  3. 【STC15】使用PCA0和PCA1做的模拟串口
  4. HTML静态网页作业——海贼王主题网页设计制作6个页面(HTML+CSS)
  5. 【web前端特效源码】使用HTML5+CSS3+JavaScript制作一个进度条动画效果~适合初学者~超简单~ |前端开发|IT软件
  6. Kali 2021.3安装RTL8192EU(腾达U6)无线网卡
  7. adb连接Android设备使用screenrecord命令录屏和screencap命令截屏
  8. java 多线程 面试题整理(更新......)
  9. wireshark之npcap-1.50及以上版本在winserver2008-r2-sp1和win7上的问题
  10. 动软代码生成器生成批量代码相关步骤