【python 淘宝爬虫】淘宝信誉分抓取

一、需求分析
输入旺旺号，获取淘宝卖家的信用分

二、思路
淘宝需要模拟登陆，我们这里抓不到，因此为了绕过登陆，发现了淘一兔，我们可以通过这里，得到淘宝卖家的信用分，结果是一样的。
http://www.taoyizhu.com/

输入旺旺号，需要点击查询，等待几秒，得到查询结果，这里我们用selienum 来做

三、实现源代码（抓取不能太快，否则抓不到）

# encoding: utf-8from selenium import webdriver
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import pandas as pd
import time
import re
time1=time.time()driver=webdriver.PhantomJS(executable_path='D:\\Program Files\\Python27\\Scripts\\phantomjs.exe')
driver.set_window_size(800, 600)########################读取数据############################
data1=pd.read_excel(r'C:/taobao/taobao1.xlsx')
print data1#######################查询店铺信誉分#############################
seller_credit=[]
for i in range(0,len(data1)):key=str(data1.iloc[i,0])key1=key.decode("utf-8")driver.get("http://www.taoyizhu.com/")time.sleep(5)driver.find_element_by_id("txt_name").clear()driver.find_element_by_id("txt_name").send_keys(key1)driver.find_element_by_id('search_btn').click()time.sleep(3)html2 = driver.page_sourceseller_credit1 = re.findall('<span id="spanUserSellerCount">(.*?)</span>', html2, re.S)for each in seller_credit1:print key,eachseller_credit.append(each)#######################################增加店铺信誉分这一列#############################
data1['店铺信誉分']=seller_creditprint data1# 写出excel
writer = pd.ExcelWriter(r'C:\\taobao\\taobao1_all.xlsx', engine='xlsxwriter', options={'strings_to_urls': False})
data1.to_excel(writer, index=False)
writer.close()time2 = time.time()
print u'ok,爬虫结束!'
print u'总共耗时：' + str(time2 - time1) + 's'

【python 淘宝爬虫】淘宝信誉分抓取相关推荐

Python学习笔记——爬虫原理与Requests数据抓取
目录为什么要做网络爬虫? 通用爬虫和聚焦爬虫 HTTP和HTTPS 客户端HTTP请求请求方法 HTTP请求主要分为Get和Post两种方法常用的请求报头 1. Host (主机和端口号) 2. ...
python爬虫淘宝实例-python 淘宝爬虫示例源码（抓取天猫数据）
[实例简介]爬取淘宝天猫网站数据 [实例截图] [核心代码] # -*- coding: utf-8 -*- #!/usr/bin/env python import datetime import ...
python爬虫代码实例源码_python 淘宝爬虫示例源码（抓取天猫数据）
爬取淘宝天猫网站数据# -*- coding: utf-8 -*- #!/usr/bin/env Python import dateTime import URLparse import sock ...
python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据？（一）网页抓取
如何用Python爬数据?(一)网页抓取你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求我在公众号后台,经常可以收到 ...
python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取准备工作输入:大学排名URL连接输出:大学排名信息屏幕输出所需要用到的库:requests,bs4 思路获取网页信息提取网页中的内容并放到数据结 ...
如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析
浅谈 Python 爬虫技术的网页数据抓取与分析吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...
Python网络爬虫，pyautogui与pytesseract抓取新浪微博数据，OCR
Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR方案用ocr与pyautogui,以及webbrowser实现功能:设计爬虫抓取新浪微博数据,比如,抓取微博用 ...
Python爬虫成长之路：抓取证券之星的股票数据(转）
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫教程，带你抓取百度的高清摄影图片
python爬虫教程,带你抓取百度的高清摄影图片源码分享: ''' 在学习过程中有什么不懂得可以加我的 python学习交流扣扣qun,934109170 群里有不错的学习教程.开发工具与电子书籍. ...
爬虫的原理和数据抓取
为什么要做爬虫? 都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数数据平台购买数据:数据堂.国云数据市场.贵阳 ...

【python 淘宝爬虫】淘宝信誉分抓取

【python 淘宝爬虫】淘宝信誉分抓取相关推荐

最新文章

热门文章