python爬取当当图片和信息

import os
import re
import pymysql
import requests
import random
import urllib.request
from bs4 import BeautifulSoup
from openpyxl import Workbook#获取网页信息
def get_html(url):#设置请求头head={'connection':'keep-alive','user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}#发送请求r = requests.get(url,headers=head)r.encoding='utf-8'return r.text#保存数据
x=1
#清洗数据
datalist =[]
def get_data(data):soup = BeautifulSoup(data,'html.parser')divs = soup.find_all('div', attrs={'class':'limitContent'})for div in divs:a = div.find_all('a',attrs={'target':'_blank'})for li in a:lis = []#创建保存照片的地址if not os.path.isdir('photos'):os.mkdir('photos')global xdizhi = li.find('img')['src']# # 图片保存地址bc = 'photos/' + str(x) + ".jpg"urllib.request.urlretrieve(dizhi,bc)#书名shuming = li.find('div',attrs={'class':'limitDesc'}).text.split('\n')[1]#作者zuzhe = li.find('div',attrs={'class':'limitDesc'}).text.split('\n')[2]#折扣价zhekoujia =li.find('div',attrs={'class':'limitDesc'}).text.split('\n')[4].split('￥')[1]#原价yuanjian = li.find('div',attrs={'class':'limitDesc'}).text.split('\n')[4].split('￥')[2]lis.append(shuming)lis.append(zuzhe)lis.append(zhekoujia)lis.append(yuanjian)lis.append(dizhi)datalist.append(lis)x+=1return datalisturls = 'http://e.dangdang.com/index_page.html'
data = get_html(urls)
get_data(data)
print(datalist)#保存数据
def saveExcel():wbk = Workbook()sheet = wbk.create_sheet('product',0)sheet.cell(1,1).value='书名'sheet.cell(1, 2).value = '作者'sheet.cell(1, 3).value = '折扣价'sheet.cell(1, 4).value = '原价'sheet.cell(1, 5).value = '图片地址'for a in range(len(datalist)):for b in range(len(datalist[a])):sheet.cell(a+2,b+1).value=datalist[a][b]wbk.save('product.xlsx')
saveExcel()#联接数据库
def get_sql():conn=pymysql.connect(host='127.0.0.1',user='root',password='123456',db='product',charset='utf8')return conn#创建表
def createSql():conn = get_sql()#简历游标cur=conn.cursor()#创建表的sql语句sql="create table product(shuming varchar(255),zuozhe varchar(255),zhekou varchar(255),price varchar(255),url varchar(255))default charset=utf8"#执行sql语句cur.execute(sql)#提交conn.commit()
# createSql()def saveSql(data):conn =get_sql()cur = conn.cursor()#执行sql语句cur.executemany("insert into product values(%s, %s, %s, %s, %s)",data)# #提交数据库conn.commit()# #关闭游标和链接conn.close()cur.close()
saveSql(datalist)

python爬取当当图片和信息相关推荐

在当当买了python怎么下载源代码-Python爬取当当、京东、亚马逊图书信息代码实例...
注:1.本程序采用MSSQLserver数据库存储,请运行程序前手动修改程序开头处的数据库链接信息 2.需要bs4.requests.pymssql库支持 3.支持多线程 from bs4 impor ...
Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用 1 . XPath 的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事啊.其实我 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
使用Python爬取网页图片
使用Python爬取网页图片李晓文 21 天前近一段时间在学习如何使用Python进行网络爬虫,越来越觉得Python在处理爬虫问题是非常便捷的,那么接下来我就陆陆续续的将自己学习的爬虫知识分享给 ...
在当当买了python怎么下载源代码-Python爬取当当网最受欢迎的 500 本书
想看好书?想知道哪些书比较多人推荐,最好的方式就是看数据,接下来用 Python 爬取当当网五星图书榜 TOP500 的书籍,或许能给我们参考参考! Python爬取目标爬取当当网前500本受欢迎的 ...
scrapy框架的简单使用——爬取当当网图书信息
** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...
Python爬取网站图片并保存，超级简单
Python爬取网站图片并保存,超级简单先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSou ...
Python爬取网站图片数据
Python爬取网站图片数据找到需要爬取的网站地址模拟网站http请求根据调试模式获取的了解读取到真实的地址url,读取请求头数据和参数信息,模拟http请求调用 import requests ...
python关于二手房的课程论文_基于python爬取链家二手房信息代码示例
基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可确定目标网页数据哦豁,这个价格..................看到都觉得脑阔 ...

python爬取当当图片和信息

python爬取当当图片和信息相关推荐

最新文章

热门文章