python爬虫入门——爬取淘宝商品评论信息

  • 关于爬虫
  • 解决难点
    • 代码部分:

关于爬虫

从接触爬虫以来,一直都认为爬虫是一个很简单的东西,至从写了一个从虎扑论坛下载图片的简单爬虫后就一直没有进行研究。昨天闲来无事就学习爬虫淘宝商品信息结果发现有些困难,就想发个帖子,至少让我走过的弯路不让别人走吧

解决难点

在编写过程中遇到了几个难点,如果觉得遇到问题相同可以参考,不同就不浪费大家时间了。
1.和爬取虎扑论坛图片不同,爬取图片十分简单,只要在界面中就可以直接获取到图片下载的地址,而淘宝商品评论不同,是通过Ajax(好像是,后续有时间我会调查清楚,重新编辑)请求后得到的,我理解就是这个评论需要你点一下,而不是直接肉眼就能看到
2.访问淘宝商铺连接,十分恶心。一直返问的是一个登录连接,而不是我想要的html内容,加上header,或者用webdriver都不好用,后来才想到可能是我的header里没有账号密码信息,后来添加上cookie,才搞定
3.我本意是想写到CSV文件中,万一以后可以用到就不需要再爬取了,结果商品评论中会有?这种可爱的表情,写到时候就一点不可爱,导致一直报 ‘UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\U0001f604’ in position 12: illegal multibyte sequence’,后来明白原来是编码格式问题,调查后对编码格式也进一步了解
4.在测试过程中,由于一直调试会一直对页面发送请求,请求次数过多过频繁,淘宝就会弹出一个拖拽验证码,我又不想入新坑,就导致我调试一会休息一会,效率低下。
5.废话不说,还是直接代码吧,注释很多,不理解的可以私下探讨

代码部分:

#爬取淘宝商品信息,真的恶心,搞了一天
import requests
import simplejson
import json
import csv
import timebase_url ='https://rate.tmall.com/list_detail_rate.htm?itemId=38975978198&spuId=279689783&sellerId=92889104&order=3&callback=jsonp698'
header = {'Connection': 'keep-alive','Cookie':此处写你自己浏览器的cookie'}for i in range(1,20,1):url = base_url + '&currentPage=%s'% str(i)# 将响应内容的文本取出tb_req = requests.get(url, headers=header).text[11:-1]#print(tb_req)#将str格式的文本格式化为字典print(tb_req)tb_dict = simplejson.loads(tb_req)#编码: 将字典内容转化为json格式对象tb_json = json.dumps(tb_dict, indent=2)   #indent参数为缩紧,这样打印出来是树形json结构,方便直观#解码: 将json格式字符串转化为python对象review_j = json.loads(tb_json)for p in range(0, 19, 1):with open(r'./tao_data.csv','a',encoding = 'gb18030',newline='') as csvfile: #encoding = 'gb18030' 解决表情写入csv报错,但写入CSV后会别成???不影响观看就无视掉了writer = csv.writer(csvfile)output = [review_j["rateDetail"]["rateList"][p]['rateContent'].encode('utf-8').decode('utf-8')]writer.writerow(output)time.sleep(1)
print('Done!')

python爬虫入门——爬取淘宝商品评论信息相关推荐

  1. 爬取淘宝商品评论信息

    爬取淘宝商品评论信息 近期学期需求,需要获取部分商品的评价信息.在此记录本次学习的过程. 找到URL 由于这是一个动态网页,因此需要找到评论实际的URL 首先进入你需要的商品的页面,按F12进入开发者 ...

  2. Python爬虫,抓取淘宝商品评论内容

    2019独角兽企业重金招聘Python工程师标准>>> 作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用pytho ...

  3. 【python爬虫】爬取淘宝网商品信息

    相信学了python爬虫,很多人都想爬取一些数据量比较大的网站,淘宝网就是一个很好的目标,其数据量大,而且种类繁多,而且难度不是很大,很适合初级学者进行爬取.下面是整个爬取过程: 第一步:构建访问的u ...

  4. scrapy 爬取淘宝商品评论信息

    爬虫最后要达到的效果,是将某分类下,第一页的所有商品的评论保存至mysql中. 具体会保存评论日期.评论id.评论内容.商品链接和商品id. 爬虫部分代码 # -*- coding: utf-8 -* ...

  5. 利用python requests库爬取淘宝商品评论_python

    文章目录 一.起因 二.项目实现 1. 分析实现方式 2. 编码实现 3. 完整代码 三.思考与改进 一.起因 看到一篇文章,感觉自己可以动手试试 Python 不用selenium 带你高效爬取京东 ...

  6. python爬虫之爬取捞月狗直播信息

    诶,本人一个大三真皮沙发男.最近迷上了斗鱼大司马,这个就很有意思,你知道吧. 就想写一个python爬虫来搞一波事情,觉得捞月狗这个平台还不错,就花了点时间写了一个用pyqt5做UI界面的爬虫.顿时就 ...

  7. 【Python爬虫】爬取微信公众号文章信息准备工作

    有一天发现我关注了好多微信公众号,那时就想有没有什么办法能够将微信公众号的文章弄下来,而且还想将一些文章的精彩评论一起搞下来.参考了一些文章,通过几天的研究基本上实现了自己的要求,现在记录一下自己的一 ...

  8. Python全栈开发-Python爬虫-05 爬取猫眼电影榜单信息

    爬取猫眼电影榜单信息(翻页) 一. 获取url及headers 首先进入猫眼电影首页: 猫眼电影 之后点击菜单栏的 榜单 并在下面选择 TOP100榜 接着右击检查并刷新界面,在Network中找到4 ...

  9. python爬虫淘宝实例-Python——爬虫实战 爬取淘宝店铺内所有宝贝图片

    之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法. 那么今天,我们就正式开始我们的第一篇实战内容,爬取一整个淘宝店铺里的所有宝贝的详情页,并且把详情页 ...

  10. Python爬虫入门——爬取贴吧图片

    最近忽然想听一首老歌,"I believe" 于是到网上去搜,把几乎所有的版本的MV都看了一遍(也是够无聊的),最喜欢的还是最初版的<我的野蛮女友>电影主题曲的哪个版本 ...

最新文章

  1. 代码重构(五):继承关系重构规则
  2. 数据结构面试的常客,一文带你深入了解堆
  3. ue4场景没阴影_UE4性能调试分析常用方法
  4. lync 2013 企业版部署 (四)安装office web app server
  5. JMeter4.0以上 分布式测试报错 server failed start Listen failed on port
  6. wacom mac驱动_MAC系统装Wacom手绘板的方法及注意事项
  7. 2019递归实现字符串的逆序存储(C++)
  8. JavaScript 误区
  9. x264 x264_slicetype_analyse 函数分析
  10. 调试工具BTrace 的使用--例子
  11. Windows服务器配置fileZilla Server
  12. list转json字符串
  13. OpenCms中文网(www.opencms.org.cn)因所在电信机房所有服务器80端口被封而中断
  14. 如何解决手机retina显示屏下的1px太粗问题
  15. 计算机主板维修试卷,计算机主板维修试卷.doc
  16. 微信如何群发消息给所有人?
  17. 滥用exchage远程调用域管理员API接口
  18. RFID资产管理|超高频RFID技术在医院资产管理项目中的应用-铨顺宏
  19. 安装ROS(kinetic)详细教程
  20. CAT分布式监控系统:CAT功能介绍,CAT监控系统是什么,能做什么?

热门文章

  1. Ubuntu16.04安装中文字体SimHei
  2. 炼油化工常用英文缩写
  3. python win32api教程_解放双手——python win32api 入门
  4. APP自动化测试-2. Appium录制测试用例
  5. 菜鸟教程Python教程100例合集
  6. 裕-DBeaver连接MySQL驱动下载失败解决办法
  7. [目标检测系列]ATSS: Bridging the Gap Between Anchor-based and Anchor-free Detection via ATSS(CVPR2020)
  8. java web对cpu要求_java web服务器cpu占用过高 (转载)
  9. python3.8入门教程完整版_Python 3.8从入门到精通(视频教学版)
  10. 数学知识——高数速查手册