爬虫小案例-爬取当当网TOP500的图书并将数据存入数据库

在这里分享一个刚刚学习爬虫时自己做的一个小案例，爬取了当当网TOP500的图书信息，包括图书名称、作者名称和出版社的名称。

1.分析网页

url：http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1
首先，我们在浏览器里输入以上这个网址这个网址，进入到我们本次将要爬取的网页，然后鼠标右键点击检查。
使用抓包工具，得到将要爬取的数据所在的位置。
解析图书名称的xpath解析式:

//ul/li/div[@class='name']/a/@title

获取图书作者xpath解析式：

//ul/li/div[@class='publisher_info']/a[1]/@title

获取出版社的xpath解析式：

//ul/li/div[@class='publisher_info'][2]/a/text()

2.具体实现

import requests
from lxml import etree
import pymysql
# 连接数据库所需要的参数
DBHOST = 'localhost'
DBUSER = 'root'
DBPASS = '215413'
DBNAME = 'librarysysterm'
db = pymysql.connect(host=DBHOST, user=DBUSER, password=DBPASS, database=DBNAME)
cur = db.cursor()  # 声明游标print("连接数据成功")
print("正在插入数据========>")
if __name__ == "__main__":# 定义请求头header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}# 爬取的网址url = "http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-%d"# 共爬取网页中对应的20页数据for page in range(21, 26):new_url = format(url%page) # 此处对网址进行分页处理html = requests.get(url=new_url,headers=header)if html.status_code == 200: # 获取状态码，若为200，则代表网页可以正常访问html.encoding = html.apparent_encodingpage_text = html.text# 获取网页源代码tree = etree.HTML(page_text)book_name_list = tree.xpath("//ul/li/div[@class='name']/a/@title") # 在网页源代码中解析出图书名author_list = tree.xpath("//ul/li/div[@class='publisher_info']/a[1]/@title") # 在网页原代码中解析出作者姓名publishing_house = tree.xpath("//ul/li/div[@class='publisher_info'][2]/a/text()") # 在网页源代码中解析出出版社名称for data in zip(book_name_list,author_list,publishing_house):sql = 'INSERT INTO book(bookname,author,bookpress) VALUE (%s,%s,%s)' # 将爬取得到的数据存入数据库value = datacur.execute(sql,value)db.commit() # 提交print("图书信息数据插入成功!")

3.运行结果

运行到此处，爬虫程序就已经结束了，之后到数据库中查看数据的插入情况。

4.数据库展示

可以看到，每本图书的书名，作者以及出版社的信息已经存入到了数据库当中。到此，这个爬虫小案例就结束了。

xpath用来解析网页代码是我认为很适合刚刚学习爬虫的同学来使用，它相对于正则表达式更加简单，也更加方便。
好了，本次的分享就到这里了，如果你感觉我的分享对你有帮助的话，就请贡献一下你宝贵的一键三连可以吗。

爬虫小案例-爬取当当网TOP500的图书并将数据存入数据库相关推荐

爬虫百战（一）：爬取当当网Top500本五星好评书籍
爬取当当网Top500本五星好评书籍 ==实战前提:== 准备工作撸代码成果展示实战前提: 掌握requests库的使用熟悉re库,正则表达式的简单使用可参考我的另外两篇博客进行学习准备工 ...
python爬虫案例-爬取当当网数据
输入关键字,爬取当当网中商品的基本数据,代码如下: 1 # Author:K 2 import requests 3 from lxml import etree 4 from fake_userag ...
在当当买了python怎么下载源代码-爬虫实战：爬取当当网所有 Python 书籍
来源:公众号-极客猴出处: 本文主要讲解如何利用urllib.re.BeautifulSoup 这几个库去实战,爬取当当网所有 Python 书籍. 1 确定爬取目标任何网站皆可爬取,就看你要不要 ...
python爬虫什么书好_python爬虫入门06 | 爬取当当网 Top 500 本五星好评书籍
来啦,老弟 image 我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 - 那么接下来我们就使用 requests ...
请用Python写一个爬虫程序，爬取当当网图书畅销榜数据
好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...
python爬取InterfaceLIFT壁纸，下载到本地，数据存入数据库（mysql，mongodb）
github地址欢迎star,欢迎拍砖适用pythopn版本 Python 2.7 or Python 3.6 只在这两个版本之下测试过,正常运行项目文件说明 main.py 主要文件 mysq ...
Python实战 | 爬取当当网 TOP500 畅销书
目标网页:当当网书籍畅销榜 http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1 爬取结果: 代码: ...
爬虫小案例爬取笑话 xpath
import requests from lxml import etree# 写入文件 def write_file(art):with open("笑话.txt", " ...
爬虫小案例爬取百度贴吧赵丽颖图片案例 xpath 美丽汤
美丽汤版本: import requests from bs4 import BeautifulSoup import os from hashlib import md5def get_html(u ...