本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云 作者:py3study

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )

一. 概要

1.通过python爬虫循环爬取古诗词网站古诗名句
2.落地到本地数据库

二. 页面分析

首先通过firedebug进行页面定位:

其次源码定位:

最终生成lxml etree定位div标签源码:

response = etree.HTML(data)
for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'):content = row.xpath('a/text()')[0]origin = row.xpath('a/text()')[-1]self.db.add_new_row('mingJuSpider', {'content': content, 'origin': origin, 'createTime': str(date.today())})

三. 执行结果

四. 脚本源码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
'''
@Date    : 2017/12/21 12:35
@Author  : kaiqing.huang
@File    : mingJuSpider.py
'''
from utils import MySpider, MongoBase
from datetime import date
from lxml import etree
import sysclass mingJuSpider():def __init__(self):self.db = MongoBase()self.spider = MySpider()def download(self):for pageId in range(1,117):url = 'http://so.gushiwen.org/mingju/Default.aspx?p={}&c=&t='.format(pageId)print urldata = self.spider.get(url)if data:self.parse(data)def parse(self, data):response = etree.HTML(data)for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'):content = row.xpath('a/text()')[0]origin = row.xpath('a/text()')[-1]self.db.add_new_row('mingJuSpider', {'content': content, 'origin': origin, 'createTime': str(date.today())})if __name__ == '__main__':sys.setrecursionlimit(100000)do = mingJuSpider()do.download()

python爬虫——带你爬取古诗名句,考试什么的不就是轻轻松松相关推荐

  1. Python爬虫带你爬取美剧网站

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:哲洛不闹 一直有爱看美剧的习惯,一方面锻炼一下英语听力 ...

  2. python爬虫lxml解析爬取诗词名句

    原创:仅用于学习Python爬虫,请勿商业或恶意爬取数据 文件夹和文件都是程序创建,我只爬了这些数据用于测试 仅用了两个for循环,并没有搞的太难(函数),适合新手操练,有大量注释易于理解 from ...

  3. Python爬虫-带你爬取高清美女图片

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:明天依旧可好 ( 想要学习Python?Python学 ...

  4. 【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)

    [Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志 项目简介 步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...

  5. python爬虫,记录爬取全球所有国家-首都的简单爬虫

    python爬虫,记录爬取全球所有国家-首都的简单爬虫 本来以为简单至极,没想到获取数据还是花费了大把功夫.先上图 <table> <tr> <td> <st ...

  6. Python爬虫项目:爬取JSON数据存储Excel表格与存储图片

    随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战.搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Googl ...

  7. python爬虫——使用selenium爬取微博数据(一)

    python爬虫--使用selenium爬取微博数据(二) 写在前面 之前因为在组里做和nlp相关的项目,需要自己构建数据集,采用selenium爬取了几十万条微博数据,学习了很多,想在这里分享一下如 ...

  8. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

  9. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

最新文章

  1. 算法导论——所有点对最短路径:稀疏图Johnson算法
  2. STM32中STD、HAL、LL库比较
  3. 小型车、中型车、大型车、重型车的区分和定义见下表:
  4. python dataframe取一列_python DataFrame列运算
  5. 解决:Error while compiling statement: FAILED: SemanticException [Error 10007]: Ambiguous column refere
  6. 使用JsonConfig控制JSON lib序列化
  7. 中国索马杜林药市场趋势报告、技术动态创新及市场预测
  8. 微服务架构是啥?一个故事告诉你!
  9. 统计软件测试应用,应用统计过程控制监控软件测试过程.PDF
  10. 互联网早报:微信内测深度清理功能内存,可一键清理缓存
  11. 微信小程序与后端Java接口交互-图书搜索实现
  12. 用python识别微信消息界面聊天输入框位置
  13. python字典操作 EasyDict()作用
  14. 使用away3d 精灵表实现材质动画
  15. vue 3D轮播展示 --vue-carousel-3d
  16. AD绘制第一块STM32最小系统板 (二)AD16修改原理图图纸大小
  17. 史密斯热水器 保养灯亮闪烁
  18. Suzy找到实习了吗Day 3 | 链表开始啦 203移除链表元素 707设计链表 206 反转链表
  19. C.Ducky Debugging(简单判断/签到)(2021年度训练联盟热身训练赛第五场 )
  20. 第13章-Swing(2)--BeatBox-总结与实例

热门文章

  1. DCache-CacheServer分析(三)
  2. 产业洞察 |关于数字化拐点,听听CIO怎么说
  3. 【mcuclub】声光报警
  4. 使用电脑自带的建站工具实现手机观看电脑上的电影
  5. 福特无人驾驶自动驾驶战略布局Xmind思维导图(有哪些大公司有无人驾驶?自动驾驶前沿)
  6. Win7 内核重载 1 ——内核版PELoader
  7. 数值分析中的QR分解及其代码实现
  8. 微信小程序 加载图片时,先拉长,再恢复正常
  9. JDK,JRE不同版本区别汇总
  10. linux命令格式化为exfat,如何在 Linux 上将 USB 盘格式化为 exFAT | Linux 中国