本人为一名刚开始学Python爬虫的小白,开贴仅为记录下自己的学习历程,方便做review

要爬取链接:http://tuan.bookschina.com/

要爬取内容: 图书名称, 图书价格, 以及对应预览图的link

本文用到py packages: requests, BeautifulSoup, json, cvs

打开中国图书网团购页面时,发现网站的信息是动态加载的:

Anyways,先不考虑加载更多页的图书信息,我们从尝试着抓取第一页的图书信息开始:

本次爬虫所用的浏览器为chrome

所以我们打开浏览器的开发者模式F12,可以看到页面加载的相应信息

为了实现模拟浏览器登录功能,我们需要查看header的信息:

完成对应的代码:

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36','Host': 'tuan.bookschina.com','Referer': 'http://tuan.bookschina.com/','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9'
}

接下来我们需要做的就是分析整个中国图书网的DOM,去查看我们需要的信息,都封装在哪些tags里面

经过地毯式搜索。。。。我们发现我们所需要的信息,都封装在 <ul id='taoList".....>的子节点li里面

所以,我们打算采取BeautifulSoup的解析抓取功能,来实现拿到li内的我们需要的信息

对应的代码:

url = 'http://tuan.bookschina.com/'
response = requests.get(url, headers = header) #模仿浏览器登录
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text,'html.parser')
for item in soup.select('div .taoListInner ul li'):print(item.select('h2')[0].text) #返回对象为数组print(item.select('.salePrice')[0].text)print(item.select('img')[0].get('src')) #get方法用来取得tab内部的属性值

首先我们需要调用requests的get方法,拿到响应的response,然后通过BS进行解析,我们会发现,在class 名为 taoListInner的div标签中,封装了我们想要的ul下的li

查看了beautifulsoup的文档,对比了find_all 和select,决定调用select方法拿到对应的标签,然后拿到对应h2标签下的书名; salePrice class下的价格; 以及img标签

内src的预览图link。这样就可以打印出我们想要的第一页所显示的书籍的信息了。

但是问题就出来了。。。如果我们想拿后续页面的更多书籍信息,该怎么办呢,因为bs的select方法是只能解析静态的Dom的

所以我们怀疑,后续的图书数据是通过Ajax 或者 JS 加载的

我们来到开发者模式的XHR下面,我们会发现,每当我们下拉滚动条,刷新图书信息的时候,会跟随者刷新出一个GroupList?.....的链接

我们打开他

惊喜的发现在Preview里,封装了我们需要的数据,并且是以Json形式予以保存的,这样变能让我们方便的拿到动态生成的图书数据了。

所以我们要拿到这个Json数据,首先需要去拿他的Request URL

当前的URL为:http://tuan.bookschina.com/Home/GroupList?Type=0&Category=0&Price=0&Order=11&Page=2&Tyjson=true

我们会发现一个规律,每当有新的书籍信息刷新一次的时候,生成的GroupList?...URL中的Page=?也会跟随递增

所以问题迎刃而解了。。。。我们只需要去通过遍历URL并拿到返回的JSON进行解析,便可以拿到我们想要的全部数据了

也验证了一个说法,许多动态加载的网站,都会把Json数据封装作为response,这样就给我们的爬虫找到一条捷径

url = 'http://tuan.bookschina.com/Home/GroupList?Type=0&Category=0&Price=0&Order=11&Page=2&Tyjson=true'
response = requests.get(url)
result = json.loads(response.text)
bookinfo = {}
for data in result['Data']:bookinfo['bookName'] = data['book_name']bookinfo['price'] = data['group_price']bookinfo['iconLink'] = data['group_image']
print(url)

这里用里调用了loads()方法,把返回的json数据转换为python的字典,方便拿数据

拿到数据后我们决定把数据存入磁盘,生成cvs的excel文件,相关的写入文件方法,请查阅python3官方文档。

方便做进一步的数据分析。

所以,本次爬虫小实验全部代码如下:

import requests
from bs4 import BeautifulSoup
import json
import csvdef parse_one_page():header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36','Host': 'tuan.bookschina.com','Referer': 'http://tuan.bookschina.com/','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','Accept-Encoding': 'gzip, deflate','Accept-Language': 'zh-CN,zh;q=0.9'}url = 'http://tuan.bookschina.com/'response = requests.get(url, headers = header) #模仿浏览器登录response.encoding = 'utf-8'soup = BeautifulSoup(response.text,'html.parser')for item in soup.select('div .taoListInner ul li'):print(item.select('h2')[0].text) #返回对象为数组print(item.select('.salePrice')[0].text)print(item.select('img')[0].get('src')) #get方法用来取得tab内部的属性值def dynamtic_scraping_data(page, headers, fileName):for i in range(page):url = 'http://tuan.bookschina.com/Home/GroupList?Type=0&Category=0&Price=0&Order=11&Page=' + str(i) + '&Tyjson=true'response = requests.get(url)result = json.loads(response.text)bookinfo = {}for data in result['Data']:bookinfo['bookName'] = data['book_name']bookinfo['price'] = data['group_price']bookinfo['iconLink'] = data['group_image']write_csv_rows(fileName,headers,bookinfo)print(url)def write_csv_headers(path, headers):with open(path, 'a', encoding='gb18030', newline='') as f:f_csv = csv.DictWriter(f, headers)f_csv.writeheader()def write_csv_rows(path, headers, rows):with open(path, 'a', encoding='gb18030', newline='') as f:f_csv = csv.DictWriter(f, headers)# 如果写入数据为字典,则写入一行,否则写入多行if type(rows) == type({}):f_csv.writerow(rows)else:f_csv.writerows(rows)
def main(page):# parse_one_page() #Tip: beautifulSoup testcsv_filename = "bookInfo.csv"headers = ['bookName', 'price', 'iconLink']write_csv_headers(csv_filename,headers)dynamtic_scraping_data(page, headers, csv_filename)if __name__ == '__main__':main(20) #input page num to start

转载于:https://www.cnblogs.com/ChrisInsistPy/p/8981820.html

Python3 爬虫爬取中国图书网(淘书团) 记录相关推荐

  1. Python项目之我的第一个爬虫----爬取豆瓣图书网,统计图书数量

    今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. 1 # -*- ...

  2. python爬虫爬取中国天气网_【实战】中国天气网爬虫之华北城市数据爬取

    概述: 在人工智能来临的今天,数据显得格外重要.在互联网的浩瀚大海洋中,隐藏着无穷的数据和信息.因此学习网络爬虫是在今天立足的一项必备技能.本路线专门针对想要从事Python网络爬虫的同学而准备的,并 ...

  3. python爬取本地天气信息_用Python写一个爬取中国天气网的终端版天气预报爬虫

    导语 前几篇文章介绍了爬取静态网站的主要方法.今天写一个小项目实践一下.本项目可以在终端窗口查询全国3400多个区县的当日天气信息和近七天天气信息. 实现效果 [Python爬虫]写一个爬取中国天气网 ...

  4. 爬虫爬取中国大学排名top100并简单可视化分析

    爬虫爬取中国大学排名top100并简单可视化分析. 目标链接 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 实践环境 pycharm201 ...

  5. Python-Selenium Webdriver+google chrome浏览器爬取中国知网的文献概述

    Python-Selenium Webdriver+google chrome浏览器爬取中国知网的文献概述 目录 Python-Selenium Webdriver+google chrome浏览器爬 ...

  6. python爬取中国天气网中城市及其对应编号

    文章目录 一.前言 二.思路 三.程序 四.注意事项 一.前言 为了实现爬取各地城市天气预报及其可视化的需要,爬取中国天气网中城市及其对应编号 . 天气预报可视化文章如下: <python爬虫, ...

  7. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——学霸君

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--学霸君 import requests import re import requests from bs4 import ...

  8. python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论——作业帮

    python3 爬虫 爬取华为应用市场 APP应用评论(一)爬取全部评论--作业帮 import requests import re import requests from bs4 import ...

  9. python爬取中国天气网中国全部城市的天气链接

    近期自己尝试用python写一个qqbot实现天气查询功能,现已基本实现 已经基本完成爬取中国天气网的所有城市的天气情况链接 下附中国天气网所有城市的名称及对应链接 {'朝阳': 'http://ww ...

最新文章

  1. Python中有了列表,为什么还有元组?
  2. 合并两个已经排好序的不等长的数组
  3. kettle 资料_Kettle的使用-初级
  4. WPF之Manipulation
  5. as ssd中文版测试软件,AS SSD Benchmark
  6. can 升级软件 上位机 C# 源码 支持STM32升级 提供源码 提供CAN协议
  7. 【年终总结系列 2017】求职之路
  8. android蓝牙软件,Android手机蓝牙助手(Bluetooth File Transfer)
  9. cas session共享
  10. 地下室计算机房冷量,34平米用多大风管机
  11. 在vs2010中运行guge.cpp(SkeletonDepth)的时候程序是网上的,可是总是提示我没有KinectUNI.lib。
  12. unity运行时修改光源的颜色,变成白色
  13. 中文手机评论情感分析系列(二)
  14. 嵌入式系统移植课笔记1(学通)
  15. 5 款常用的 C++ 在线编译器推荐
  16. 微信公众号网页授权40029错误「建议收藏」
  17. Android——TextView指定字符串颜色高亮,实现类似微信、支付宝搜索结果中搜索字段高亮的效果
  18. linux版uTorrent安装手记
  19. 【金融财经】金融市场一周简报(2018-03-16)
  20. 利用Python3四舍五入保留两位小数

热门文章

  1. DedeCMS 提示信息! ----------dede_addonarticle
  2. ylbtech-LanguageSamples-Porperties(属性)
  3. Visual Studio 快捷键汇总
  4. [转]VS2010+MFC解析Excel文件中数据
  5. 一场媲美“超女”海选的招聘狂潮
  6. 安卓开发1-初步了解使用
  7. 收集的安装VS2005 sp1的注意事项
  8. 扩展 CommandField 类别 - Header 加入新增钮
  9. ANTLR和StringTemplate
  10. 使用Docker启动Grafana环境