Python爬虫之40行代码爬取金庸所有武侠小说

　　我们今天来用Python爬虫爬取金庸所有的武侠小说，网址为：http://jinyong.zuopinj.com/，网页如下：

　　Python代码如下：

# -*- coding: utf-8 -*-
import urllib.request
from bs4 import BeautifulSoup#获取每本书的章节内容
def get_chapter(url):# 获取网页的源代码html = urllib.request.urlopen(url)  content = html.read().decode('utf8')html.close()# 将网页源代码解析成HTML格式soup = BeautifulSoup(content, "lxml")title = soup.find('h1').text    #获取章节的标题text = soup.find('div', id='htmlContent')    #获取章节的内容#处理章节的内容，使得格式更加整洁、清晰content = text.get_text('\n','br/').replace('\n', '\n    ')content = content.replace('　　', '\n　　')return title, '    '+contentdef main():# 书本列表books = ['射雕英雄传','天龙八部','鹿鼎记','神雕侠侣','笑傲江湖','碧血剑','倚天屠龙记',\'飞狐外传','书剑恩仇录','连城诀','侠客行','越女剑','鸳鸯刀','白马啸西风',\'雪山飞狐']order = [1,2,3,4,5,6,7,8,10,11,12,14,15,13,9]  #order of books to scrapy#list to store each book's scrapying rangepage_range = [1,43,94,145,185,225,248,289,309,329,341,362,363,364,375,385]for i,book in enumerate(books):for num in range(page_range[i],page_range[i+1]):url = "http://jinyong.zuopinj.com/%s/%s.html"%(order[i],num)# 错误处理机制try:title, chapter = get_chapter(url)with open('E://%s.txt'%book, 'a', encoding='gb18030') as f:print(book+':'+title+'-->写入成功！')f.write(title+'\n\n\n')f.write(chapter+'\n\n\n')except Exception as e:print(e) print('全部写入完毕!')main()

　　运行结果如下：

上面的运行结果“HTTP Error 404: Not Found”是因为这个网页不存在，并不影响书本内容的完整性。我们可以去E盘查看文件是否下载成功：

·　　15本书都下载完毕了！整个过程才用了不到10分钟！爬虫的力量真是伟大啊~~

Python爬虫之40行代码爬取金庸所有武侠小说相关推荐

Python爬虫利用18行代码爬取虎牙上百张小姐姐图片
Python爬虫利用18行代码爬取虎牙上百张小姐姐图片下面开始上代码需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...
python：利用20行代码爬取网络小说
文章目录前言一.爬虫是什么? 二.实现过程总结提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档前言今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...
不到30行python代码爬取金庸小说
爬取金庸小说代码如下: import requests from bs4 import BeautifulSoupdef get_html(url): html=requests.get(url)h ...
【Python】爬虫初体验，40行代码爬取双色球2003年至今的开奖号码
爬虫爬取的双色球开奖号码按我目前的理解,爬虫的工作原理大致是: 获取目标网页,在网页(html文件)中筛选目标数据,最后把数据导出利用爬虫爬取数据看似很"高深莫测",只需几分钟 ...
python爬虫代码1000行-Python爬虫教程(16行代码爬百度)
最近在学习python,不过有一个正则表达式一直搞不懂,自己直接使用最笨的方法写出了一个百度爬虫,只有短短16行代码. 首先安装必背包: pip3 install bs4 pip3 install r ...
Python爬虫教程(16行代码爬百度)
最近在学习python,不过有一个正则表达式一直搞不懂,自己直接使用最笨的方法写出了一个百度爬虫,只有短短16行代码. 首先安装必背包: pip3 install bs4 pip3 install r ...
教你用python实现34行代码爬取东方财富网信息，爬虫之路，永无止境！！
教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!! 代码展示: 开发环境: windows10 python3.6 开发工具: pycharm weddriver 库: sel ...
python pyquery不规则数据的抓取_爬虫神器之PyQuery实用教程（二），50行代码爬取穷游网...
爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网前言上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析开始之前,按照之前的套路一步 ...
python爬上市公司信息_实战项目 1：5 行代码爬取国内所有上市公司信息
实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...
pyquery获取不到网页完整源代码_爬虫神器之PyQuery实用教程（二），50行代码爬取穷游网...
爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网前言上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析开始之前,按照之前的套路一步 ...

Python爬虫之40行代码爬取金庸所有武侠小说

Python爬虫之40行代码爬取金庸所有武侠小说相关推荐

最新文章

热门文章