python爬虫实战之图灵社区图书信息的爬取（找了久，才找到一个比较好爬取的网站）

python爬虫实战之图灵社区图书信息的爬取

程序的描述

目标
- 获取图灵社区（https://www.ituring.com.cn/book）中40本图书的书名
- 将获取的信息以列表的形式输出到屏幕上，并加上相关的序号
描述：
- 获取翻页接口
- 获取相关信息的位置
技术路线：requests——BeautifulSoup库

准备工作

获取翻页的关键字

自然而然地就看见关键字是page，修改&page就可以翻页

获取书名和作者地在网页中的信息
- 自然而然地看见，有四个书名，从形式上来看，三个用字符串保存，一个用标签保存。所以这里采用标签式，而用标签，重点在于分析清楚标签之间地彼此架构关系，通过对比发现< h4 > … < /h4 >，所有地h4标签里面都是书名

程序编写

第一步，确定步骤，并将所有的步骤
- 提交网页的url，循环获取页面 getHTMLText（）
- 对于每个页面，提取每本图书的名称getNAME（）
- 将信息输出到屏幕上 printBOOKLIST（）
- 采用main函数将所有的函数连接起来
第二步，逐步完善

from bs4 import BeautifulSoup
import requests# 获取相关的网址
def getHTML(url):r = requests.get(url,timeout = 30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.text# 对网页的text内容进行分析
def paesrHTML(text,ilt):soup = BeautifulSoup(text,'html.parser')for i in soup('h4'):ilt.append(i.string)# 将分析的内容进行输出
def printMessage(ilt):text = '{:<10}\t{:<10}'print(text.format("序号","书名"))count = 1for i in ilt:print(text.format(count,i))count += 1def main():url = "https://www.ituring.com.cn/book?tab=book&sort=hot&page="page = 0ilt = list()for i in range(4):text = getHTML(url + str(i))paesrHTML(text,ilt)printMessage(ilt)main()

总结

虽然很简单，而且有点搓，但是毕竟是第一次独立的编写爬虫软件，发现很多东西并没有融会贯通，写的时候还是会看很多的参考信息

python爬虫实战之图灵社区图书信息的爬取（找了久，才找到一个比较好爬取的网站）相关推荐

Python爬虫实战(十一) B站热门信息爬取（窗口版）| Tkinter实现GUI交互式界面
目录一.主页面设计 1.1 Tkinter基本介绍 1.2 设计布局二.查询功能实现 2.1 分区字典构建 2.2 输入日期处理 2.3 书写爬虫函数三.全部代码更多信息查询(2021-2-1 ...
爬虫第三弹：图灵社区书籍信息爬取
爬虫第三弹:图灵社区书籍信息爬取一.目的:将图灵社区所有书籍的网址.书籍名称,作者,译者,阅读数,标签,出版日期,定价,页数,印刷方式,出版状态全部爬取下来存入mysql数据库,并导出xml格式,最 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
Python爬虫实战爬取租房网站2w+数据-链家上海区域信息（超详细）
Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦大佬们请见谅后面会贴代码带火们有需求的话就用吧正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...
Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息
Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...
python scrapy 框架的简单使用爬虫苏宁易购图书信息
python scrapy 框架的简单使用&&爬虫苏宁易购图书信息前言第一步: 分析网页 1.1 找到要爬取的数据位置分类信息图书信息价格信息 1.2 分析如何获取数据正则 ...
Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息，并保存至本地csv文件
Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...
python爬虫项目-32个Python爬虫实战项目，满足你的项目慌
原标题:32个Python爬虫实战项目,满足你的项目慌爬虫项目名称及简介一些项目名称涉及企业名词,小编用拼写代替 1.[WechatSogou]- weixin公众号爬虫.基于weixin公众号爬 ...
Python爬虫实战(1) | 爬取豆瓣网排名前250的电影（下）
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心所以,今天,用pyth ...

python爬虫实战之图灵社区图书信息的爬取（找了久，才找到一个比较好爬取的网站）

python爬虫实战之图灵社区图书信息的爬取

程序的描述

准备工作

程序编写

总结

python爬虫实战之图灵社区图书信息的爬取（找了久，才找到一个比较好爬取的网站）相关推荐

最新文章

热门文章