打开文件要加上encoding否则可能GBK编码错误

携程的某些数据无法爬取,获得的HTML里不是真实数据

获取li列表个数有变化的时候最好用selector,获得整个列表,然后再分离

strip()可以修改自己想剃掉的参数

携程的评论,点击第二页后网站并没有变化,如果直接通过div列表只能获得第一页的评论

python错误提示:TypeError: expected string or bytes-like object(预定的数据类型或者字节对象相关)

一般为数据类型不匹配造成的。



说明前后%和后面的参数数量不对应,有n个字段,就要有n个%s

先建立表
create table xiecheng(cname varchar(20),ename varchar(20),want int,went int,address varchar(50),rank varchar(7),tele varchar(20),office varchar(20));


将长度调整为50个char,试一试可以不
是可行的。

create table ctrip (name varchar(20),rank int, want int,went int,score varchar(6), level varchar(6),cnum int,lovers int,family int,friends int,business int,alone int);

开始爬取图片

先创建文件夹用来放图片
os.mkdir(‘E:\’+name)

然后
#打开文件夹并写入图片

with open(filename,‘wb’) as f:

f.write(response.content)

出现报错

查到了AJAX技术,查到了参数的变化规律,最重要的就是用对get 和post!!!(坑惨了)
s.get(url=url, params=data1, headers=headers)
s.post(url=url, data=data1, headers=headers)
这是正确的写法

在爬取图片的时候遇到了一定的问题,莫名其妙抛出异常(待解决)

图片img标签已经放入list中,然后去读src的属性值。

抛出这个异常

解决方案:
可以尝试在img.查看所有的函数,然后发现
attrs后便转化为字典结构,然后问题就迎刃而解。

继续下一步

报错了又
解决方案如下:

又遇到了404not

再找这个的解决方案

import pandas as pd
dates=range(20161010,20161114)
pieces=[]
for date in dates:try:data=pd.read_csv('A_stock/overview-push-%d/stock overview.csv' %date, encoding='gbk')pieces.append(data)except Exception as e:passcontinue
data=pd.concat(pieces)

爬虫 url error : HTTP 403 Forbidden
一般情况加一个响应头即可,最好是谷歌
以下是常用的几个响应头

 user_agents = ['Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11','Opera/9.25 (Windows NT 5.1; U; en)','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)','Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)','Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12','Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7","Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ",] 

https://www.cnblogs.com/coder-lzh/p/9843197.html
介绍了Session和SSL证书的问题。

爬取携程景点可能遇到的问题相关推荐

  1. python爬携程景区评论_python爬取携程景点评论信息

    python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...

  2. 爬取携程景点评论数据【最新方法】,分析AJAX实现页数跳转的爬取方法

    本文仅供技术学习使用,欢迎转载,转载请注明出处 因为朋友参加数学建模,需要景点数据,而我刚好懂一点点,就帮他写爬虫代码.在网上搜索到一些爬虫方法,但在获取景点ID时,发现现在携程的Request Pa ...

  3. python中scrapy可以爬取多少数据_python中scrapy框架爬取携程景点数据

    ------------------------------- [版权申明:本文系作者原创,转载请注明出处] 文章出处:https://blog.csdn.net/sdksdk0/article/de ...

  4. 用python爬网站评论_python爬取携程景点评论信息

    今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为POST,还需要你提取的哪一页,下面 ...

  5. python爬取携程景点_python爬取携程景点评论信息

    今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为POST,还需要你提取的哪一页,下面 ...

  6. python携程酒店评论_python爬取携程景点评论信息

    今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为POST,还需要你提取的哪一页,下面 ...

  7. python 携程登陆,Python爬取携程信息

    python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...

  8. python 爬取携程旅游景点评论

    python爬取携程旅游景点评论 爬取网址:https://you.ctrip.com/ 爬取评论全部代码 import requests import json import re import t ...

  9. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

最新文章

  1. ubuntu 恢复apt_apt-clone:备份已安装的软件包并在新的 Ubuntu 系统上恢复它们
  2. 阿里云HBase全新发布X-Pack NoSQL数据库再上新台阶
  3. Android中的URI
  4. 实变函数与泛函分析导论
  5. 专访声智科技陈孝良:把自己嫁给公司,伟大都是熬出来的
  6. 用英伟达Jetson Nano运行PyTorch Fast.ai丨手把手教程+第三方工具
  7. 写Java代码分别使堆溢出,栈溢出
  8. 设计模式(26)-----享元模式
  9. apt-get pip3
  10. ofo 成了一个披着「退押金」的电商导购平台?
  11. 登录起凡是显示计算机拒绝无法连接,起凡名将录出现第三方登陆失败怎么办 解决方案一览...
  12. ipad和android平板应用,排名前100的iPad应用中只有一半支持Android平板
  13. Excel如何批量将中文名字翻译为英文
  14. 这 30 款 IDEA 宝贝插件 yyds
  15. 我提莫谢谢你!给我100块羞辱离职,原来是激励我“卧薪尝胆”!
  16. 北京PM2.5浓度回归分析
  17. 淘宝和天猫,到底哪个靠谱!你上过天猫的当吗?
  18. 全国计算机应用语言设计,全国计算机应用技术证书考试程序设计教程:NIT C语言...
  19. bzoj1671 Knights of Ni 骑士 BFS
  20. matlab fun函数问题

热门文章

  1. 葫芦娃各平台以及微信hook分析汇总
  2. hdoj 4417 Super Mario 【树状数组 + 思维】
  3. 谷歌地图实现车辆位置实时跟踪
  4. Maven创建聚合项目
  5. IOS证书申请最新版2021
  6. PS 学习笔记 03-移动工具图层概念
  7. 量化投资的神秘世界,聪明人玩的游戏!
  8. FFmpeg基本使用
  9. unexpected EOF while looking for matching `“‘
  10. PPT最强抠图技巧(收藏必备)