爬取携程景点可能遇到的问题

打开文件要加上encoding否则可能GBK编码错误

携程的某些数据无法爬取，获得的HTML里不是真实数据

获取li列表个数有变化的时候最好用selector，获得整个列表，然后再分离

strip()可以修改自己想剃掉的参数

携程的评论，点击第二页后网站并没有变化，如果直接通过div列表只能获得第一页的评论

python错误提示：TypeError: expected string or bytes-like object（预定的数据类型或者字节对象相关）

一般为数据类型不匹配造成的。

说明前后%和后面的参数数量不对应，有n个字段，就要有n个%s

先建立表
create table xiecheng(cname varchar(20),ename varchar(20),want int,went int,address varchar(50),rank varchar(7),tele varchar(20),office varchar(20));

将长度调整为50个char，试一试可以不
是可行的。

create table ctrip (name varchar(20),rank int, want int,went int,score varchar(6), level varchar(6),cnum int,lovers int,family int,friends int,business int,alone int);

开始爬取图片

先创建文件夹用来放图片
os.mkdir(‘E:\’+name)

然后
#打开文件夹并写入图片

with open(filename,‘wb’) as f:

f.write(response.content)

出现报错

查到了AJAX技术，查到了参数的变化规律，最重要的就是用对get 和post!!!(坑惨了)
s.get(url=url, params=data1, headers=headers)
s.post(url=url, data=data1, headers=headers)
这是正确的写法

在爬取图片的时候遇到了一定的问题，莫名其妙抛出异常（待解决）

图片img标签已经放入list中，然后去读src的属性值。

抛出这个异常

解决方案：
可以尝试在img.查看所有的函数，然后发现
attrs后便转化为字典结构，然后问题就迎刃而解。

继续下一步

报错了又
解决方案如下：

又遇到了404not

再找这个的解决方案

import pandas as pd
dates=range(20161010,20161114)
pieces=[]
for date in dates:try:data=pd.read_csv('A_stock/overview-push-%d/stock overview.csv' %date, encoding='gbk')pieces.append(data)except Exception as e:passcontinue
data=pd.concat(pieces)

爬虫 url error : HTTP 403 Forbidden
一般情况加一个响应头即可，最好是谷歌
以下是常用的几个响应头

 user_agents = ['Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11','Opera/9.25 (Windows NT 5.1; U; en)','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)','Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)','Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12','Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7","Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ",]

https://www.cnblogs.com/coder-lzh/p/9843197.html
介绍了Session和SSL证书的问题。

爬取携程景点可能遇到的问题相关推荐

python爬携程景区评论_python爬取携程景点评论信息
python爬取携程景点评论信息今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的按下F12之后,F5刷新一下具体需要URL Request的方式为P ...
爬取携程景点评论数据【最新方法】，分析AJAX实现页数跳转的爬取方法
本文仅供技术学习使用,欢迎转载,转载请注明出处因为朋友参加数学建模,需要景点数据,而我刚好懂一点点,就帮他写爬虫代码.在网上搜索到一些爬虫方法,但在获取景点ID时,发现现在携程的Request Pa ...
python中scrapy可以爬取多少数据_python中scrapy框架爬取携程景点数据
------------------------------- [版权申明:本文系作者原创,转载请注明出处] 文章出处:https://blog.csdn.net/sdksdk0/article/de ...
用python爬网站评论_python爬取携程景点评论信息
今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的按下F12之后,F5刷新一下具体需要URL Request的方式为POST,还需要你提取的哪一页,下面 ...
python爬取携程景点_python爬取携程景点评论信息
今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的按下F12之后,F5刷新一下具体需要URL Request的方式为POST,还需要你提取的哪一页,下面 ...
python携程酒店评论_python爬取携程景点评论信息
今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的按下F12之后,F5刷新一下具体需要URL Request的方式为POST,还需要你提取的哪一页,下面 ...
python 携程登陆,Python爬取携程信息
python爬取携程景点评论信息今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的按下F12之后,F5刷新一下具体需要URL Request的方式为P ...
python 爬取携程旅游景点评论
python爬取携程旅游景点评论爬取网址:https://you.ctrip.com/ 爬取评论全部代码 import requests import json import re import t ...
携程ajax,Python爬虫实战之爬取携程评论
一.分析数据源这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

爬取携程景点可能遇到的问题

爬取携程景点可能遇到的问题相关推荐

最新文章

热门文章