人狠话不多,直接上代码,都有详细注释,不多解释

需要安装的包:
pymysql,用于连接mysql数据库
urllib,爬虫必备包,urllib3也可以

# encoding:utf-8
import re  # 使用正则 匹配想要的数据
import requests  # 使用requests得到网页源码
import pymysql
import urllib
import time
import operator#已知url下载图片
def getImage(ilt, name):for g in ilt:namestring = 'E://Download/picture3/' + str(name) + '.jpg'  #存储地址+图片名urllib.request.urlretrieve('https:'+g[3], namestring)   #核心下载代码name = name + 1   #实现动态命名自增# print(name)#将数据存入mysql中
def data_Import(sql):conn=pymysql.connect(host='127.0.0.1',user='root',password='rootadmin',db='test',charset='utf8')    #连接数据库conn.query(sql) #插入数据conn.commit()conn.close()# 得到主函数传入的链接
def getHtmlText(url):try:  # 异常处理#  得到你传入的URL链接  设置超时时间3秒r = requests.get(url, timeout=3)# 判断它的http状态码r.raise_for_status()# 设置它的编码 encoding是设置它的头部编码 apparent_encoding是从返回网页中分析它的编码格式r.encoding = r.apparent_encoding# 返回源代码return r.textexcept: # 发生异常返回空return ''# 解析你的网页信息
def parsePage(ilt, html):# 异常处理try:# 找到书包的价格plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)# 找到书包的名称tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)# 找到书包的地址# add = re.findall(r'\"item_loc\"\:\".*?\"', html)#nidnid = re.findall(r'\"nid\"\:\"[\d]*\"', html)# 找到书包的图片链接img = re.findall(r'\"pic_url\"\:\".*?\"', html)# 销量sales = re.findall(r'\"view_sales\"\:\".*?\"', html)# print(sales)#   print("https://item.taobao.com/item.htm?id="+nid)# 得到这个内容放入主函数中的列表for i in range(len(plt)):price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])address = eval(nid[i].split(':')[1])imgs = eval(img[i].split(':')[1])sale = eval(sales[i].split(':')[1])ilt.append([price, title, address, imgs, sale])except:  # 放生异常输出空字符串print('')# 得到主函数传入的列表
def printGoodsList(ilt, name, categoryid):# 每个列之间用tplt的放是隔开tplt = '{:^4}\t{:^8}\t{:^16}\t{:^16}\t{:^32}\t{:^32}'#根据价格从小到大排序^10# ilt.sort()createtime = '2018-04-03'store = '淘宝/天猫'for g in ilt:sql = """insert into taobao(categoryid,name,price,description,createtime,picture,store,url,monthly_sales) values('%d','%s','%s','%s','%s','%s','%s','%s','%s')""" % (categoryid, pymysql.escape_string(g[1]), g[0], pymysql.escape_string(g[1]), createtime, 'images/upload/' + str(name) + '.jpg', store, "https://item.taobao.com/item.htm?id="+g[2], g[4])data_Import(sql)# print("恭喜,成功写入"+str(count)+"条数据!")name = name + 1  # 图片名称加一# 定义主函数 main
def main():# name = int(time.time()) - 31736  # 获取当前时间的时间戳,避免冲突name = 1524632649 + 44goods_list = ['时尚套装',485,'皮衣',486,'西装',487,'T恤',488,'原创设计',489,'夹克',490,'休闲裤',491,'牛仔裤',492,'风衣',493,'牛仔外套',494,'棒球服',495,'运动外套',496,'POLO衫',497,'套装',498,'穿搭攻略',499,'长袖睡衣',500,'珊瑚绒睡衣',501,'夹棉睡衣',502,'长筒袜',503,'内衣套装',504,'打底裤',505,'连体睡衣',506,'睡裙女冬',507]for i in range(len(goods_list)):if i % 2 == 0:goods = goods_list[i] # 你要搜索的东西categoryid = goods_list[i+1]print(goods+":"+str(categoryid))depth = 1  # 你想要得到几页的东西start_url = 'https://s.taobao.com/search?q=' + goods + '&sort=sale-desc' # 你搜索的网址加上你的搜索东西,以销量排序infoList = [] # 自定义的空列表用来存放你的到的数据for i in range(depth): # 循环你的页数try: # 异常处理url = start_url + '&s' + str(44 * i) # 得到你的网址html = getHtmlText(url) # 得到url传入到你要得到url的函数中parsePage(infoList, html) # 得到你的html源码 放入解析的网页中except: # 发生异常跳过continue# 把列表中的数据放入解析的函数中printGoodsList(infoList, name, categoryid)getImage(infoList, name)time.sleep(7)  # 休眠5秒name = name + 44print(name)main() # 调用主函数

python爬取淘宝搜索页面+url+图片下载并将信息保存到MySQL数据库中相关推荐

  1. python爬虫 爬取淘宝搜索页面商品信息数据

    主要使用的库: requests:爬虫请求并获取源码 re:使用正则表达式提取数据 json:使用JSON提取数据 pandas:使用pandans存储数据 以下是源代码: #!coding=utf- ...

  2. python爬取淘宝商品页面信息

    import timefrom selenium import webdriver from selenium.webdriver.common.keys import Keyskey_words = ...

  3. python + selenium多进程爬取淘宝搜索页数据

    python + selenium多进程爬取淘宝搜索页数据 1. 功能描述 按照给定的关键词,在淘宝搜索对应的产品,然后爬取搜索结果中产品的信息,包括:标题,价格,销量,产地等信息,存入mongodb ...

  4. 用Python爬取淘宝商品

    本文爬取淘宝女装短裙商品,并将商品信息存入mysql中 分析思路 1.页面分析 在淘宝首页搜索"短裙",进入商品列表页面: 分析页面源代码: 通过分析源代码,可发现商品相关的几个关 ...

  5. 无法爬取淘宝商品页面

    问题描述:无法爬取淘宝商品页面 案例如下: import requests import redef getHTMLText(url):try: r = requests.get(url,timeou ...

  6. python爬虫淘宝手机_【Python3 爬虫】14_爬取淘宝上的手机图片

    现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律 我们可以看到左侧是主题市场,将鼠标移动到[女装/男装/内衣]这一栏目, ...

  7. python爬取淘宝商品图片

    python爬取淘宝商品的图片 话不多说,直接上代码: from selenium import webdriver from selenium.webdriver.common import key ...

  8. 用Python爬取淘宝网商品信息

    用Python爬取淘宝网商品信息 转载请注明出处 网购时经常会用到淘宝网 点我去淘宝但淘宝网上的商品琳琅满目,于是我参照中国大学 MOOC的代码写了一个爬取淘宝网商品信息的程序 代码如下: impor ...

  9. 第一篇博客,python爬取淘宝信息

    python爬取淘宝信息 本人只是刚学python的菜鸟,代码不规范及需改进的地方请指教 我们直接看代码吧!哈哈 import requests from bs4 import BeautifulSo ...

最新文章

  1. 支持向量机svm的完整实现并配有解析
  2. 2017年软件工程第七次作业-每周例行报告
  3. ABAP程序系统字段中英文详解
  4. java invalidate_Java Component.invalidate方法代码示例
  5. Linux02进程内存管理
  6. mac 10.13 配置 php,MacOS10.13.6 升级后 PHP7.3配置
  7. 如何实现自己的股票量化交易接口?
  8. CFree5构建中止问题
  9. linux双线双网卡双ip双网关设置方法,centos下双网卡双线双IP的配置方法
  10. Ubuntu 18.04 安装 php7.4 --enable-maintainer-zts
  11. 数据产品经理该懂的python技术
  12. 【转载】JavaScript进阶问题列表
  13. 《不拘一格——网飞的自由与责任工作法》读后感
  14. PHP将淘宝客链接转换提取成普通淘宝链接
  15. js 通过id名找到对象数字里对应的name
  16. Delong test比较两个ROC曲线的性能
  17. 计算机硬件信息被修改怎么还原,修改bios硬件信息方法
  18. 中文版Eclipse变英文版
  19. TCP/IP 模型与 OSI 模型对比
  20. Cisco AP-如何识别思科胖瘦AP

热门文章

  1. f40c5a53ba8e7e46c290769dbd291f33
  2. C#语言实例源码系列-电脑系统挂机锁
  3. 过劳死 梦魇笼罩下的IT精英
  4. PHP+正则抓取淘宝装修市场设计师数据
  5. 用链表储存学生信息然后排序输出
  6. Python数据分析学习路线个人总结
  7. hdu 1506 Largest Rectangle in a Histogram 最大矩形
  8. linux系统下solr服务器的搭建
  9. ES6:async函数
  10. 扒一扒AWS技术峰会的“黑科技”