Python3 爬虫爬取中国图书网(淘书团) 记录

本人为一名刚开始学Python爬虫的小白，开贴仅为记录下自己的学习历程，方便做review

要爬取链接：http://tuan.bookschina.com/

要爬取内容：图书名称，图书价格，以及对应预览图的link

本文用到py packages: requests, BeautifulSoup, json, cvs

打开中国图书网团购页面时，发现网站的信息是动态加载的：

Anyways,先不考虑加载更多页的图书信息，我们从尝试着抓取第一页的图书信息开始：

本次爬虫所用的浏览器为chrome

所以我们打开浏览器的开发者模式F12，可以看到页面加载的相应信息

为了实现模拟浏览器登录功能，我们需要查看header的信息：

完成对应的代码：

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36','Host': 'tuan.bookschina.com','Referer': 'http://tuan.bookschina.com/','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9'
}

接下来我们需要做的就是分析整个中国图书网的DOM，去查看我们需要的信息，都封装在哪些tags里面

经过地毯式搜索。。。。我们发现我们所需要的信息，都封装在 <ul id='taoList".....>的子节点li里面

所以，我们打算采取BeautifulSoup的解析抓取功能，来实现拿到li内的我们需要的信息

对应的代码:

url = 'http://tuan.bookschina.com/'
response = requests.get(url, headers = header) #模仿浏览器登录
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text,'html.parser')
for item in soup.select('div .taoListInner ul li'):print(item.select('h2')[0].text) #返回对象为数组print(item.select('.salePrice')[0].text)print(item.select('img')[0].get('src')) #get方法用来取得tab内部的属性值

首先我们需要调用requests的get方法，拿到响应的response，然后通过BS进行解析，我们会发现，在class 名为 taoListInner的div标签中，封装了我们想要的ul下的li

查看了beautifulsoup的文档，对比了find_all 和select，决定调用select方法拿到对应的标签，然后拿到对应h2标签下的书名； salePrice class下的价格；以及img标签

内src的预览图link。这样就可以打印出我们想要的第一页所显示的书籍的信息了。

但是问题就出来了。。。如果我们想拿后续页面的更多书籍信息，该怎么办呢，因为bs的select方法是只能解析静态的Dom的

所以我们怀疑，后续的图书数据是通过Ajax 或者 JS 加载的

我们来到开发者模式的XHR下面，我们会发现，每当我们下拉滚动条，刷新图书信息的时候，会跟随者刷新出一个GroupList?.....的链接

我们打开他

惊喜的发现在Preview里，封装了我们需要的数据，并且是以Json形式予以保存的，这样变能让我们方便的拿到动态生成的图书数据了。

所以我们要拿到这个Json数据，首先需要去拿他的Request URL

当前的URL为：http://tuan.bookschina.com/Home/GroupList?Type=0&Category=0&Price=0&Order=11&Page=2&Tyjson=true

我们会发现一个规律，每当有新的书籍信息刷新一次的时候，生成的GroupList?...URL中的Page=？也会跟随递增

所以问题迎刃而解了。。。。我们只需要去通过遍历URL并拿到返回的JSON进行解析，便可以拿到我们想要的全部数据了

也验证了一个说法，许多动态加载的网站，都会把Json数据封装作为response，这样就给我们的爬虫找到一条捷径

url = 'http://tuan.bookschina.com/Home/GroupList?Type=0&Category=0&Price=0&Order=11&Page=2&Tyjson=true'
response = requests.get(url)
result = json.loads(response.text)
bookinfo = {}
for data in result['Data']:bookinfo['bookName'] = data['book_name']bookinfo['price'] = data['group_price']bookinfo['iconLink'] = data['group_image']
print(url)

这里用里调用了loads()方法，把返回的json数据转换为python的字典，方便拿数据

拿到数据后我们决定把数据存入磁盘，生成cvs的excel文件，相关的写入文件方法，请查阅python3官方文档。

方便做进一步的数据分析。

所以，本次爬虫小实验全部代码如下：

import requests
from bs4 import BeautifulSoup
import json
import csvdef parse_one_page():header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36','Host': 'tuan.bookschina.com','Referer': 'http://tuan.bookschina.com/','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9'}url = 'http://tuan.bookschina.com/'response = requests.get(url, headers = header) #模仿浏览器登录response.encoding = 'utf-8'soup = BeautifulSoup(response.text,'html.parser')for item in soup.select('div .taoListInner ul li'):print(item.select('h2')[0].text) #返回对象为数组print(item.select('.salePrice')[0].text)print(item.select('img')[0].get('src')) #get方法用来取得tab内部的属性值def dynamtic_scraping_data(page, headers, fileName):for i in range(page):url = 'http://tuan.bookschina.com/Home/GroupList?Type=0&Category=0&Price=0&Order=11&Page=' + str(i) + '&Tyjson=true'response = requests.get(url)result = json.loads(response.text)bookinfo = {}for data in result['Data']:bookinfo['bookName'] = data['book_name']bookinfo['price'] = data['group_price']bookinfo['iconLink'] = data['group_image']write_csv_rows(fileName,headers,bookinfo)print(url)def write_csv_headers(path, headers):with open(path, 'a', encoding='gb18030', newline='') as f:f_csv = csv.DictWriter(f, headers)f_csv.writeheader()def write_csv_rows(path, headers, rows):with open(path, 'a', encoding='gb18030', newline='') as f:f_csv = csv.DictWriter(f, headers)# 如果写入数据为字典，则写入一行，否则写入多行if type(rows) == type({}):f_csv.writerow(rows)else:f_csv.writerows(rows)
def main(page):# parse_one_page() #Tip: beautifulSoup testcsv_filename = "bookInfo.csv"headers = ['bookName', 'price', 'iconLink']write_csv_headers(csv_filename,headers)dynamtic_scraping_data(page, headers, csv_filename)if __name__ == '__main__':main(20) #input page num to start

转载于:https://www.cnblogs.com/ChrisInsistPy/p/8981820.html

Python3 爬虫爬取中国图书网(淘书团) 记录相关推荐

Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量
今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. 1 # -*- ...
python爬虫爬取中国天气网_【实战】中国天气网爬虫之华北城市数据爬取
概述: 在人工智能来临的今天,数据显得格外重要.在互联网的浩瀚大海洋中,隐藏着无穷的数据和信息.因此学习网络爬虫是在今天立足的一项必备技能.本路线专门针对想要从事Python网络爬虫的同学而准备的,并 ...
python爬取本地天气信息_用Python写一个爬取中国天气网的终端版天气预报爬虫
导语前几篇文章介绍了爬取静态网站的主要方法.今天写一个小项目实践一下.本项目可以在终端窗口查询全国3400多个区县的当日天气信息和近七天天气信息. 实现效果 [Python爬虫]写一个爬取中国天气网 ...
爬虫爬取中国大学排名top100并简单可视化分析
爬虫爬取中国大学排名top100并简单可视化分析. 目标链接 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 实践环境 pycharm201 ...
Python-Selenium Webdriver+google chrome浏览器爬取中国知网的文献概述
Python-Selenium Webdriver+google chrome浏览器爬取中国知网的文献概述目录 Python-Selenium Webdriver+google chrome浏览器爬 ...
python爬取中国天气网中城市及其对应编号
文章目录一.前言二.思路三.程序四.注意事项一.前言为了实现爬取各地城市天气预报及其可视化的需要,爬取中国天气网中城市及其对应编号 . 天气预报可视化文章如下: <python爬虫, ...
python3 爬虫爬取华为应用市场 APP应用评论（一）爬取全部评论——学霸君
python3 爬虫爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...
python3 爬虫爬取华为应用市场 APP应用评论（一）爬取全部评论——作业帮
python3 爬虫爬取华为应用市场 APP应用评论(一)爬取全部评论--作业帮 import requests import re import requests from bs4 import ...
python爬取中国天气网中国全部城市的天气链接
近期自己尝试用python写一个qqbot实现天气查询功能,现已基本实现已经基本完成爬取中国天气网的所有城市的天气情况链接下附中国天气网所有城市的名称及对应链接 {'朝阳': 'http://ww ...

Python3 爬虫爬取中国图书网(淘书团) 记录

Python3 爬虫爬取中国图书网(淘书团) 记录相关推荐

最新文章

热门文章