一、需求分析
输入旺旺号,获取淘宝卖家的信用分

二、思路
淘宝需要模拟登陆,我们这里抓不到,因此为了绕过登陆,发现了淘一兔,我们可以通过这里,得到淘宝卖家的信用分,结果是一样的。
http://www.taoyizhu.com/

输入旺旺号,需要点击查询,等待几秒,得到查询结果,这里我们用selienum 来做

三、实现源代码(抓取不能太快,否则抓不到)

# encoding: utf-8from selenium import webdriver
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import pandas as pd
import time
import re
time1=time.time()driver=webdriver.PhantomJS(executable_path='D:\\Program Files\\Python27\\Scripts\\phantomjs.exe')
driver.set_window_size(800, 600)########################读取数据############################
data1=pd.read_excel(r'C:/taobao/taobao1.xlsx')
print data1#######################查询店铺信誉分#############################
seller_credit=[]
for i in range(0,len(data1)):key=str(data1.iloc[i,0])key1=key.decode("utf-8")driver.get("http://www.taoyizhu.com/")time.sleep(5)driver.find_element_by_id("txt_name").clear()driver.find_element_by_id("txt_name").send_keys(key1)driver.find_element_by_id('search_btn').click()time.sleep(3)html2 = driver.page_sourceseller_credit1 = re.findall('<span id="spanUserSellerCount">(.*?)</span>', html2, re.S)for each in seller_credit1:print key,eachseller_credit.append(each)#######################################增加店铺信誉分这一列#############################
data1['店铺信誉分']=seller_creditprint data1# 写出excel
writer = pd.ExcelWriter(r'C:\\taobao\\taobao1_all.xlsx', engine='xlsxwriter', options={'strings_to_urls': False})
data1.to_excel(writer, index=False)
writer.close()time2 = time.time()
print u'ok,爬虫结束!'
print u'总共耗时:' + str(time2 - time1) + 's'

【python 淘宝爬虫】淘宝信誉分抓取相关推荐

  1. Python学习笔记——爬虫原理与Requests数据抓取

    目录 为什么要做网络爬虫? 通用爬虫和聚焦爬虫 HTTP和HTTPS 客户端HTTP请求 请求方法 HTTP请求主要分为Get和Post两种方法 常用的请求报头 1. Host (主机和端口号) 2. ...

  2. python爬虫淘宝实例-python 淘宝爬虫示例源码(抓取天猫数据)

    [实例简介]爬取淘宝 天猫网站数据 [实例截图] [核心代码] # -*- coding: utf-8 -*- #!/usr/bin/env python import datetime import ...

  3. python爬虫代码实例源码_python 淘宝爬虫示例源码(抓取天猫数据)

    爬取淘宝 天猫网站数据# -*- coding: utf-8 -*- #!/usr/bin/env Python import dateTime import URLparse import sock ...

  4. python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  5. python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取

    Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...

  6. 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析

    浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...

  7. Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR

    Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR方案 用ocr与pyautogui,以及webbrowser实现功能:设计爬虫抓取新浪微博数据,比如,抓取微博用 ...

  8. Python爬虫成长之路:抓取证券之星的股票数据(转)

    获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...

  9. python爬虫教程,带你抓取百度的高清摄影图片

    python爬虫教程,带你抓取百度的高清摄影图片 源码分享: ''' 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qun,934109170 群里有不错的学习教程.开发工具与电子书籍. ...

  10. 爬虫的原理和数据抓取

    为什么要做爬虫? 都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据市场.贵阳 ...

最新文章

  1. python3之SQLAlchemy
  2. GC通常的概念和算法
  3. 测试过程中的防忽悠沟通法
  4. 常见电容器图片_各种电容器图片大集合
  5. 谷歌Edge TPU:将机器学习引入边缘,撬动边缘计算/IOT大“地球”
  6. windows下面常用的***测试命令
  7. 酷Q移植先驱的记录流程,QQ机器人框架插件
  8. css中正确设置微软雅黑字体
  9. acer软件保护卡怎么解除_Acer软件保护卡使用说明资料
  10. 【计算机网络】—网络编程(socket)02
  11. 构建Spring Cloud项目找不到Application类
  12. PHP裂变红包源码,php版本微信裂变红包api详解
  13. Liang-GaRy啃linux书想吐(五)
  14. 前端关于Base64编码的一些技术分析
  15. 手游开发攻防——二、基础篇
  16. VHDL设计一个同步置数、异步清零的D触发器
  17. 特征工程 | 信息价值IV与群体稳定性PSI
  18. Python 爬虫之urllib库的使用
  19. 中鑫优配:大盘放量补缺,注意超跌股的补涨机会
  20. 软件bro测试中文意思,测试-BRO-2.ppt

热门文章

  1. NSIS添加everyone权限
  2. php smarty 加减,php Smarty配置方法
  3. Flutter插件shared_preferences数据存储的使用
  4. 整型常量(基于百度及各处资料加上我的个人经验整理而成)
  5. 俄亥俄大学计算机科学专业,北俄亥俄大学专业都有哪些呢?了解一下!
  6. 有些路,只能一个人走。
  7. 抓取腾讯校园招聘的第一页
  8. 国际学术会议-英文演讲稿
  9. Dragonfly软件电脑环境
  10. 如何彻底卸载xcode