呜呼~回到家的感觉真的不一样,下了广州站空气就清新了一番。。回到家就是熟悉而又陌生的感觉。

这次的实例是爬取斗破苍穹小说网的斗破苍穹小说全文。首先要找的是原网站,不是百度到的最前面的。因为正版的蜘蛛协议也写得很清楚了。。而且里面的文本内容被藏起来了。无能为力,只能爬别的网啦哈哈。

思路 通常思路1. requests + Beautiful 2. requests + re

这里我们比较一下这两种方法,首先使用requests + re 路线
如图


要提取的信息都在p标签里面,
所以re.findall用正则表达式去匹配p标签吗?
下图

下面还有一个p标签呢。。所以findall的话会多出一个句子。
同实例2一样,我们使用select就可以了,经过全文的搜索发现<div class=articlecon 》这个标签是唯一存在的,唯一存在那就soup.select()完事了。

from bs4 import BeautifulSoup
import requests
import timekey_value = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}def get_html(url):try:web_data = requests.get(url,headers = key_value)web_data.raise_for_status()web_data.encoding = web_data.apparent_encodingreturn web_data.textexcept:return None
file = open('D:/doupoxiaoshuo.txt','a+',encoding='UTF-8')def write_file(html):soup = BeautifulSoup(html,'lxml')texts = soup.select('div.articlecon > p')for text in texts:real_text = text.get_text()file.write(real_text+'\n')if __name__ == '__main__':part_url = 'https://m.doupocangqiong1.com/1/t'for i in range(20,1677):real_url = part_url + str(i) + '.html'html = get_html(real_url)write_file(html)time.sleep(0.5)file.close()

爬取过程十分之久。。
Result!!!

热爱生活,而爱编程

实例3:爬取斗破苍穹小说全文相关推荐

  1. 使用python爬取斗破苍穹小说网

    使用python爬取斗破苍穹小说网,学会了以后就不用去看付费的小说了不多bb直接上源码 import requests from bs4 import BeautifulSoupdef file(): ...

  2. Python-使用正则表达式爬取斗破苍穹小说文字内容(使用Requests库实现)

    **Python-爬取斗破苍穹小说文字内容(使用Requests库实现) ** 本次爬取的小说网站为:斗破小说网点击直达网站首页,本人爬取的网站里面的天斗破苍穹,你也可以根据文中提供的代码爬取其他的小 ...

  3. pythonrequest爬取小说,pythonrequest爬取小说_python爬取斗破苍穹小说

    通过python批量自动化下载斗破苍穹小说 效果是这样的 效果展示1 效果展示2 我的代码 import re import urllib.request import time url='http: ...

  4. pythonrequest爬取小说_python爬取斗破苍穹小说

    通过python批量自动化下载斗破苍穹小说 效果是这样的 效果展示1 效果展示2 我的代码 import re import urllib.request import time url='http: ...

  5. python爬虫简单实例-爬取17K小说网小说

    什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程 先由urllib的request打开Url得到网页html文档 ...

  6. python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...

    python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...

  7. python爬虫笔记(八) 实例3:用Python批量爬取全站小说【以书趣阁为例】

    1. 用Python批量爬取全站小说 爬取这个网站小说:http://www.shuquge.com/txt/89644/index.html 2. 爬取一本书 # -*- coding: utf-8 ...

  8. python爬虫爬取起点小说_python3爬虫-使用requests爬取起点小说

    import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...

  9. 用python爬取小说的总结_python如何使爬取的小说更利于观看

    python使爬取的小说更利于观看的方法: 1.使用追加模式将文章写入txt文本 关于文件的写入, 'w' 的方式 是覆盖写, 没有就创建, 那么我们写小说就不需要用这个, 使用 'a' 追加写的模式 ...

最新文章

  1. 用了 Elasticsearch 后,查询起飞了!
  2. Java 基础之java运算符
  3. You (root) are not allowed to access to (crontab) because of pam configuration
  4. C-Free注册码,密钥,到期解决办法
  5. LayIM 3.9.1与ASP.NET SignalR实现Web聊天室快速入门(一)之效果展示与关键技术简介
  6. 浪潮服务器支持pcie ssd硬盘吗,PCI-E与SATA SSD如何选?一分钟看懂
  7. Gnutella 及无结构化(非结构化)P2p的一些总结
  8. 移动硬盘linux双系统,安装ubuntu到移动硬盘(UEFI+GPT),实现在别的电脑也可以使用(详细教程),...
  9. android打开sd卡文件,从Android中的SD卡读取特定文件
  10. MQ,究竟如何做到削峰填谷?
  11. 学习挖掘机和程序员哪个好
  12. MyBatis基础学习知识点3
  13. 使用Pandas的read_html方法读取网页Table表格数据
  14. EPICS -- autosave模块使用示例
  15. 洛谷P4711 【化学】 相对分子质量 简单题解
  16. linux u识别,基于uCLinux的纸币识别器底层系统研究和实现
  17. PPT绘论文图之导出分辨率
  18. GoLang 单元测试打桩和 mock
  19. HBuilderX 下载git
  20. mysql count的子查询_使用COUNT进行子查询的慢MYSQL查询

热门文章

  1. CH9121网络模块与阿里云PHP服务器通信,实现HTTP-GET/POST
  2. php 美化json,分享一个 PHP 版的 JSON 数据格式化函数
  3. 真实dom转换为虚拟dom的简单实现
  4. maching learning入门(三)
  5. java如何实排班表时间算法_java如何实排班表时间算法
  6. MOS管认识及选型的一点见解
  7. 隧道施工人员ZigBee精确定位系统
  8. tomcat9使用crt格式证书配置HTTPS
  9. java jdk 7_jdk1.7下载|Java Development Kit (JDK) 下载「64位」-太平洋下载中心
  10. 马尔科夫模型在Gowalla数据集下的简单实践