任务:爬取某公开网站上的汽车用户消费投诉数据('http://tousu.315che.com/tousulist/serial/55467/'),字段包含品牌、投诉内容、品牌车型、单号、投诉问题、投诉时间和经销商,并为完成后续项目做准备。

# 导入相应库
import requests
from lxml import etreeurl = 'http://tousu.315che.com/tousulist/serial/55467/'  # 第一页的网页链接# 发送请求
req = requests.get(url)req.encoding = 'UTF-8'# 解析网页
html = etree.HTML(req.text)# 获取数据
brand = html.xpath('//*[@id="letterTabList"]/div/a/text()')  # 品牌
href = html.xpath('//*[@id="letterTabList"]/div/a/@href')  # 品牌链接
href[0] ='http://tousu.315che.com/tousulist/serial/55467/'
brand_complain = []for h in range(0, 2):req = requests.get(href[h])html = etree.HTML(req.text)brand_complain.append(html.xpath('/html/body/div[1]/div[2]/div[2]/div[1]/div[2]/div[2]/ul/li/a/@href'))  #第一个品牌投诉链接#print(brand_complain)content = []
model = []
number = []
problem = []
time = []
store = []for i in brand_complain:for j in i:req = requests.get(j)req.encoding = 'UTF-8'html = etree.HTML(req.text)content.append(html.xpath('/html/body/div[1]/div[2]/div[2]/div[1]/div[1]/div/div[1]/p/text()')[0])  # 投诉内容model.append(html.xpath('/html/body/div[1]/div[2]/div[2]/div[1]/div[1]/div/div[3]/p[1]/text()')[0][5:])    # 车牌型号number.append(html.xpath('/html/body/div[1]/div[2]/div[2]/div[1]/div[1]/div/div[3]/p[2]/text()')[0][3:])   # 单号problem.append(html.xpath('/html/body/div[1]/div[2]/div[2]/div[1]/div[1]/div/div[3]/p[3]/text()')[0][5:])   # 问题time.append(html.xpath('/html/body/div[1]/div[2]/div[2]/div[1]/div[1]/div/div[3]/p[4]/text()')[0][5:])   # 时间store.append(html.xpath('/html/body/div[1]/div[2]/div[2]/div[1]/div[1]/div/div[3]/p[5]/text()')[0][4:])   # 商家for i in range(len(problem)):print("车牌型号:"+model[i]+"\n"+"单号:"+number[i]+"\n"+"问题:"+problem[i]+"\n"+"时间:"+time[i]+"\n"+"经销商:"+store[i]+"\n")

Python—实训day6—爬取汽车消费投诉案例相关推荐

  1. Python 爬虫实战入门——爬取汽车之家网站促销优惠与经销商信息

    在4S店实习,市场部经理让我写一个小程序自动爬取汽车之家网站上自家品牌的促销文章,因为区域经理需要各店上报在网站上每一家经销商文章的露出频率,于是就自己尝试写一个爬虫,正好当入门了. 一.自动爬取并输 ...

  2. Python实训day04am【爬虫介绍、爬取网页测试、Python第三方库】

    Python实训-15天-博客汇总表 目录 1.文本文件编程题 2.爬虫(Scrapy) 2.1.安装第三方库 2.2.爬取网页测试 2.2.1.样例1 2.2.2.样例2 3.PyCharm导入第三 ...

  3. Python实训day07am【爬取数据接口、webdriver、自动化测试工具selenium】

    Python实训-15天-博客汇总表 目录 1.网络爬虫-课后练习题 1.1.写法1 1.2.写法2 2.Selenium自动化测试工具 2.1.安装工具 2.2.命令行操作 直接爬取HTML (30 ...

  4. Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】

    Python实训-15天-博客汇总表 lu16 - 博客园 <--- 本篇博客详细内容!

  5. Python实训day06pm【网络爬虫(爬取接口)-爬取图片与数据】

    Python实训-15天-博客汇总表 目录 练习1 练习2 练习1 ''' 课堂练习2:爬取lol英雄的头像.BP的音乐. 需要找数据接口:https://101.qq.com/#/hero ''' ...

  6. Python实训day06am【网络爬虫(爬取接口)】

    Python实训-15天-博客汇总表 目录 1."from bs4 import BeautifulSoup"解析 2.字体反爬虫 3.网络爬虫 3.1.直接爬取页面html-爬取 ...

  7. Python实训day05pm【JS-DOM-获取元素节点对象、网络爬虫】

    Python实训-15天-博客汇总表 目录 1.CSS选择器 2.网络爬虫 2.1.练习1 2.2.练习2 1.CSS选择器 .rank-body .book-mid-info .author a:n ...

  8. python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片

    随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...

  9. PYTHON爬取汽车之家数据

    PYTHON爬取汽车之家数据 使用知识 使用BeautifulSoup模块 使用正则表达式 使用到多线程爬取 使用说明 使用前请安装BeauifulSoup 起始页面: https://www.aut ...

最新文章

  1. 当代艺术遇上虚拟现实:幻境视界打造基业VR美术馆
  2. SAP HUM 嵌套HU初探 III
  3. 网易SRC指责白帽子私自披露已修复漏洞,强势表态违刑必究
  4. 思科交换机和路由器的远程配置
  5. 剑指offer(Java实现) 顺时针打印矩阵
  6. 计算机应用基础操作题教学考试,电大教学全国计算机应用基础考试网考内容全部操作题.doc...
  7. 老BOJ 07 Fence Repair
  8. 接收超时死信的死信交换机
  9. PHP函数调用的新的用法
  10. 网上骗子太多了:关于冒充儿童医院网站的例子
  11. MySQL与Oracle的数据迁移注意事项,另附转换工具链接
  12. 4. COM编程——IUnknown介绍
  13. 请求头添加token
  14. AI之路最近的一些思考
  15. 云计算作为一种新型的IT服务资源,主要分为几种服务类型
  16. Activity跳转并传递
  17. Mac 如何删除应用、软件
  18. JDBCUtils类的编写(创建连接,关闭连接)
  19. 手机拍摄全景图并且使用Threejs实现VR全景,超简单WebVR
  20. HTML+CSS+JS的基础知识笔记

热门文章

  1. 准考证打印系统关闭怎么办_初级会计准考证无法打印受限制怎么办?学姐帮你解答相关问题...
  2. python filestorage对象怎么转化成字符串_Python面试的10个常见问题及答案,检验你的学习成果吧!...
  3. 大学生python实验心得体会_大学生实验心得体会精选例文【三篇】
  4. linux centos7开放端口命令,Centos7开放端口教程
  5. mysql timestamp 自动更新_mysql timestamp自动更新
  6. 用户域名注册后 需要在租服务器吗,申请域名并缴费后,是不是还需要一个服务器,那怎么建服务器呢...
  7. job sql 定时执行exe_SQL Server定时作业job的设置方法(转)
  8. 400+的考研复试线怎么玩???满屏都是400+?今年国家线会涨吗?
  9. oracle什么是swap分区,linux 安装oracle时swap空间不足
  10. linux双网卡绑定同一IP步骤,linux系统双网卡绑定单个IP地址