python爬虫实战之图灵社区图书信息的爬取

程序的描述

  • 目标

    • 获取图灵社区(https://www.ituring.com.cn/book)中40本图书的书名
    • 将获取的信息以列表的形式输出到屏幕上,并加上相关的序号
  • 描述:
    • 获取翻页接口
    • 获取相关信息的位置
  • 技术路线:requests——BeautifulSoup库

准备工作

  • 获取翻页的关键字

自然而然地就看见关键字是page,修改&page就可以翻页

  • 获取书名和作者地在网页中的信息

    • 自然而然地看见,有四个书名,从形式上来看,三个用字符串保存,一个用标签保存。所以这里采用标签式,而用标签,重点在于分析清楚标签之间地彼此架构关系,通过对比发现< h4 > … < /h4 >,所有地h4标签里面都是书名

程序编写

  • 第一步,确定步骤,并将所有的步骤

    • 提交网页的url,循环获取页面 getHTMLText()
    • 对于每个页面,提取每本图书的名称getNAME()
    • 将信息输出到屏幕上 printBOOKLIST()
    • 采用main函数将所有的函数连接起来
  • 第二步,逐步完善

from bs4 import BeautifulSoup
import requests# 获取相关的网址
def getHTML(url):r = requests.get(url,timeout = 30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.text# 对网页的text内容进行分析
def paesrHTML(text,ilt):soup = BeautifulSoup(text,'html.parser')for i in soup('h4'):ilt.append(i.string)# 将分析的内容进行输出
def printMessage(ilt):text = '{:<10}\t{:<10}'print(text.format("序号","书名"))count = 1for i in ilt:print(text.format(count,i))count += 1def main():url = "https://www.ituring.com.cn/book?tab=book&sort=hot&page="page = 0ilt = list()for i in range(4):text = getHTML(url + str(i))paesrHTML(text,ilt)printMessage(ilt)main()

总结
  • 虽然很简单,而且有点搓,但是毕竟是第一次独立的编写爬虫软件,发现很多东西并没有融会贯通,写的时候还是会看很多的参考信息

python爬虫实战之图灵社区图书信息的爬取(找了久,才找到一个比较好爬取的网站)相关推荐

  1. Python爬虫实战(十一) B站热门信息爬取(窗口版)| Tkinter实现GUI交互式界面

    目录 一.主页面设计 1.1 Tkinter基本介绍 1.2 设计布局 二.查询功能实现 2.1 分区字典构建 2.2 输入日期处理 2.3 书写爬虫函数 三.全部代码 更多信息查询(2021-2-1 ...

  2. 爬虫第三弹:图灵社区书籍信息爬取

    爬虫第三弹:图灵社区书籍信息爬取 一.目的:将图灵社区所有书籍的网址.书籍名称,作者,译者,阅读数,标签,出版日期,定价,页数,印刷方式,出版状态全部爬取下来存入mysql数据库,并导出xml格式,最 ...

  3. Python爬虫实战---抓取图书馆借阅信息

    Python爬虫实战---抓取图书馆借阅信息 原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

  4. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  5. Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息

    Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...

  6. python scrapy 框架的简单使用爬虫苏宁易购图书信息

    python scrapy 框架的简单使用&&爬虫苏宁易购图书信息 前言 第一步: 分析网页 1.1 找到要爬取的数据位置 分类信息 图书信息 价格信息 1.2 分析如何获取数据 正则 ...

  7. Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息,并保存至本地csv文件

    Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...

  8. python爬虫项目-32个Python爬虫实战项目,满足你的项目慌

    原标题:32个Python爬虫实战项目,满足你的项目慌 爬虫项目名称及简介 一些项目名称涉及企业名词,小编用拼写代替 1.[WechatSogou]- weixin公众号爬虫.基于weixin公众号爬 ...

  9. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

最新文章

  1. javascript --- 异步工作流的动态排队技术
  2. 很全的sas基础知识
  3. java web删除文件_Web开发为了java端程序能删除文件的解决办法
  4. Go Web编程--使用bcrpyt哈希用户密码
  5. 大理大学日常作业计算机基础知识,大理学院成人高等教育大学计算机基础课程作业.doc...
  6. sql在select中添加内容为空的字段
  7. 手机版vmlogin怎么下载?VMlogin指纹浏览器适合哪些行业?
  8. 职称计算机考试常用的命令,Visual FoxPro常用命令分类表
  9. 网络抓包学MQTT物联网协议
  10. onblur和onfocus
  11. 【重识云原生】第六章容器基础6.4.10.5节——Statefulset原理剖析
  12. 连载《一个程序猿的生命周期》-《发展篇》- 17.程序猿们,收起玻璃心,给你们的忠告...
  13. 在Unity顶部显示手机状态栏(iOS/Android)
  14. c语言写一元一次函数图像,一次函数与一元一次不等式(洋葱数学)
  15. 将平板电脑作为电脑显示器_平板电脑与智能显示器的比较
  16. 读书笔记之:Linux程序设计(第4版)(ch1-7) [ 学如逆水行舟,不进则退 ]
  17. NewStarCTF 公开赛赛道-WEEK1|REVERSE
  18. python基础“猜单词游戏”代码
  19. 手把手教你实现小程序中的自定义组件
  20. 【动画版】数据结构-B树【宁哥算法课堂】

热门文章

  1. 安卓源码下apk进行platform签名的方法
  2. [转载]逆向工程不是炫耀者用来装B的工具
  3. 2022张宇考研基础30讲 第十二讲 二重积分
  4. 中国图像图形学报参考文献格式书写规范2020
  5. 北邮计算机实习网络爬虫设计报告,北邮计算机实习报告(含代码).doc
  6. 使用MV制作最简单的游戏:我要做游戏(9)
  7. Java源码乱码问题 编码转换器
  8. Apache Pulsar 2.6.1 版本正式发布:2.6.0 功能增强版,新增 OAuth2 支持
  9. 做什么副业比较赚钱,这五个项目现在入行可能比上班挣得还多
  10. vue项目使用yxg-xlsx-style组件将表格数据导出带有样式的excel文件