python爬取淘宝搜索页面+url+图片下载并将信息保存到MySQL数据库中

人狠话不多，直接上代码，都有详细注释，不多解释

需要安装的包：
pymysql，用于连接mysql数据库
urllib，爬虫必备包，urllib3也可以

# encoding:utf-8
import re  # 使用正则 匹配想要的数据
import requests  # 使用requests得到网页源码
import pymysql
import urllib
import time
import operator#已知url下载图片
def getImage(ilt, name):for g in ilt:namestring = 'E://Download/picture3/' + str(name) + '.jpg'  #存储地址+图片名urllib.request.urlretrieve('https:'+g[3], namestring)   #核心下载代码name = name + 1   #实现动态命名自增# print(name)#将数据存入mysql中
def data_Import(sql):conn=pymysql.connect(host='127.0.0.1',user='root',password='rootadmin',db='test',charset='utf8')    #连接数据库conn.query(sql) #插入数据conn.commit()conn.close()# 得到主函数传入的链接
def getHtmlText(url):try:  # 异常处理#  得到你传入的URL链接  设置超时时间3秒r = requests.get(url, timeout=3)# 判断它的http状态码r.raise_for_status()# 设置它的编码 encoding是设置它的头部编码 apparent_encoding是从返回网页中分析它的编码格式r.encoding = r.apparent_encoding# 返回源代码return r.textexcept: # 发生异常返回空return ''# 解析你的网页信息
def parsePage(ilt, html):# 异常处理try:# 找到书包的价格plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)# 找到书包的名称tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)# 找到书包的地址# add = re.findall(r'\"item_loc\"\:\".*?\"', html)#nidnid = re.findall(r'\"nid\"\:\"[\d]*\"', html)# 找到书包的图片链接img = re.findall(r'\"pic_url\"\:\".*?\"', html)# 销量sales = re.findall(r'\"view_sales\"\:\".*?\"', html)# print(sales)#   print("https://item.taobao.com/item.htm?id="+nid)# 得到这个内容放入主函数中的列表for i in range(len(plt)):price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])address = eval(nid[i].split(':')[1])imgs = eval(img[i].split(':')[1])sale = eval(sales[i].split(':')[1])ilt.append([price, title, address, imgs, sale])except:  # 放生异常输出空字符串print('')# 得到主函数传入的列表
def printGoodsList(ilt, name, categoryid):# 每个列之间用tplt的放是隔开tplt = '{:^4}\t{:^8}\t{:^16}\t{:^16}\t{:^32}\t{:^32}'#根据价格从小到大排序^10# ilt.sort()createtime = '2018-04-03'store = '淘宝/天猫'for g in ilt:sql = """insert into taobao(categoryid,name,price,description,createtime,picture,store,url,monthly_sales) values('%d','%s','%s','%s','%s','%s','%s','%s','%s')""" % (categoryid, pymysql.escape_string(g[1]), g[0], pymysql.escape_string(g[1]), createtime, 'images/upload/' + str(name) + '.jpg', store, "https://item.taobao.com/item.htm?id="+g[2], g[4])data_Import(sql)# print("恭喜，成功写入"+str(count)+"条数据！")name = name + 1  # 图片名称加一# 定义主函数 main
def main():# name = int(time.time()) - 31736  # 获取当前时间的时间戳,避免冲突name = 1524632649 + 44goods_list = ['时尚套装',485,'皮衣',486,'西装',487,'T恤',488,'原创设计',489,'夹克',490,'休闲裤',491,'牛仔裤',492,'风衣',493,'牛仔外套',494,'棒球服',495,'运动外套',496,'POLO衫',497,'套装',498,'穿搭攻略',499,'长袖睡衣',500,'珊瑚绒睡衣',501,'夹棉睡衣',502,'长筒袜',503,'内衣套装',504,'打底裤',505,'连体睡衣',506,'睡裙女冬',507]for i in range(len(goods_list)):if i % 2 == 0:goods = goods_list[i] # 你要搜索的东西categoryid = goods_list[i+1]print(goods+":"+str(categoryid))depth = 1  # 你想要得到几页的东西start_url = 'https://s.taobao.com/search?q=' + goods + '&sort=sale-desc' # 你搜索的网址加上你的搜索东西,以销量排序infoList = [] # 自定义的空列表用来存放你的到的数据for i in range(depth): # 循环你的页数try: # 异常处理url = start_url + '&s' + str(44 * i) # 得到你的网址html = getHtmlText(url) # 得到url传入到你要得到url的函数中parsePage(infoList, html) # 得到你的html源码 放入解析的网页中except: # 发生异常跳过continue# 把列表中的数据放入解析的函数中printGoodsList(infoList, name, categoryid)getImage(infoList, name)time.sleep(7)  # 休眠5秒name = name + 44print(name)main() # 调用主函数

python爬取淘宝搜索页面+url+图片下载并将信息保存到MySQL数据库中相关推荐

python爬虫爬取淘宝搜索页面商品信息数据
主要使用的库: requests:爬虫请求并获取源码 re:使用正则表达式提取数据 json:使用JSON提取数据 pandas:使用pandans存储数据以下是源代码: #!coding=utf- ...
python爬取淘宝商品页面信息
import timefrom selenium import webdriver from selenium.webdriver.common.keys import Keyskey_words = ...
python + selenium多进程爬取淘宝搜索页数据
python + selenium多进程爬取淘宝搜索页数据 1. 功能描述按照给定的关键词,在淘宝搜索对应的产品,然后爬取搜索结果中产品的信息,包括:标题,价格,销量,产地等信息,存入mongodb ...
用Python爬取淘宝商品
本文爬取淘宝女装短裙商品,并将商品信息存入mysql中分析思路 1.页面分析在淘宝首页搜索"短裙",进入商品列表页面: 分析页面源代码: 通过分析源代码,可发现商品相关的几个关 ...
无法爬取淘宝商品页面
问题描述:无法爬取淘宝商品页面案例如下: import requests import redef getHTMLText(url):try: r = requests.get(url,timeou ...
python爬虫淘宝手机_【Python3 爬虫】14_爬取淘宝上的手机图片
现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律我们可以看到左侧是主题市场,将鼠标移动到[女装/男装/内衣]这一栏目, ...
python爬取淘宝商品图片
python爬取淘宝商品的图片话不多说,直接上代码: from selenium import webdriver from selenium.webdriver.common import key ...
用Python爬取淘宝网商品信息
用Python爬取淘宝网商品信息转载请注明出处网购时经常会用到淘宝网点我去淘宝但淘宝网上的商品琳琅满目,于是我参照中国大学 MOOC的代码写了一个爬取淘宝网商品信息的程序代码如下: impor ...
第一篇博客，python爬取淘宝信息
python爬取淘宝信息本人只是刚学python的菜鸟,代码不规范及需改进的地方请指教我们直接看代码吧!哈哈 import requests from bs4 import BeautifulSo ...

python爬取淘宝搜索页面+url+图片下载并将信息保存到MySQL数据库中

人狠话不多，直接上代码，都有详细注释，不多解释

python爬取淘宝搜索页面+url+图片下载并将信息保存到MySQL数据库中相关推荐

最新文章

热门文章