爬取携程景点可能遇到的问题
打开文件要加上encoding否则可能GBK编码错误
携程的某些数据无法爬取,获得的HTML里不是真实数据
获取li列表个数有变化的时候最好用selector,获得整个列表,然后再分离
strip()可以修改自己想剃掉的参数
携程的评论,点击第二页后网站并没有变化,如果直接通过div列表只能获得第一页的评论
python错误提示:TypeError: expected string or bytes-like object(预定的数据类型或者字节对象相关)
一般为数据类型不匹配造成的。
说明前后%和后面的参数数量不对应,有n个字段,就要有n个%s
先建立表
create table xiecheng(cname varchar(20),ename varchar(20),want int,went int,address varchar(50),rank varchar(7),tele varchar(20),office varchar(20));
将长度调整为50个char,试一试可以不
是可行的。
create table ctrip (name varchar(20),rank int, want int,went int,score varchar(6), level varchar(6),cnum int,lovers int,family int,friends int,business int,alone int);
开始爬取图片
先创建文件夹用来放图片
os.mkdir(‘E:\’+name)
然后
#打开文件夹并写入图片
with open(filename,‘wb’) as f:
f.write(response.content)
出现报错
查到了AJAX技术,查到了参数的变化规律,最重要的就是用对get 和post!!!(坑惨了)
s.get(url=url, params=data1, headers=headers)
s.post(url=url, data=data1, headers=headers)
这是正确的写法
在爬取图片的时候遇到了一定的问题,莫名其妙抛出异常(待解决)
图片img标签已经放入list中,然后去读src的属性值。
抛出这个异常
解决方案:
可以尝试在img.查看所有的函数,然后发现
attrs后便转化为字典结构,然后问题就迎刃而解。
继续下一步
报错了又
解决方案如下:
又遇到了404not
再找这个的解决方案
import pandas as pd
dates=range(20161010,20161114)
pieces=[]
for date in dates:try:data=pd.read_csv('A_stock/overview-push-%d/stock overview.csv' %date, encoding='gbk')pieces.append(data)except Exception as e:passcontinue
data=pd.concat(pieces)
爬虫 url error : HTTP 403 Forbidden
一般情况加一个响应头即可,最好是谷歌
以下是常用的几个响应头
user_agents = ['Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11','Opera/9.25 (Windows NT 5.1; U; en)','Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)','Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)','Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12','Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7","Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ",]
https://www.cnblogs.com/coder-lzh/p/9843197.html
介绍了Session和SSL证书的问题。
爬取携程景点可能遇到的问题相关推荐
- python爬携程景区评论_python爬取携程景点评论信息
python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...
- 爬取携程景点评论数据【最新方法】,分析AJAX实现页数跳转的爬取方法
本文仅供技术学习使用,欢迎转载,转载请注明出处 因为朋友参加数学建模,需要景点数据,而我刚好懂一点点,就帮他写爬虫代码.在网上搜索到一些爬虫方法,但在获取景点ID时,发现现在携程的Request Pa ...
- python中scrapy可以爬取多少数据_python中scrapy框架爬取携程景点数据
------------------------------- [版权申明:本文系作者原创,转载请注明出处] 文章出处:https://blog.csdn.net/sdksdk0/article/de ...
- 用python爬网站评论_python爬取携程景点评论信息
今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为POST,还需要你提取的哪一页,下面 ...
- python爬取携程景点_python爬取携程景点评论信息
今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为POST,还需要你提取的哪一页,下面 ...
- python携程酒店评论_python爬取携程景点评论信息
今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为POST,还需要你提取的哪一页,下面 ...
- python 携程登陆,Python爬取携程信息
python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...
- python 爬取携程旅游景点评论
python爬取携程旅游景点评论 爬取网址:https://you.ctrip.com/ 爬取评论全部代码 import requests import json import re import t ...
- 携程ajax,Python爬虫实战之爬取携程评论
一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...
最新文章
- ubuntu 恢复apt_apt-clone:备份已安装的软件包并在新的 Ubuntu 系统上恢复它们
- 阿里云HBase全新发布X-Pack NoSQL数据库再上新台阶
- Android中的URI
- 实变函数与泛函分析导论
- 专访声智科技陈孝良:把自己嫁给公司,伟大都是熬出来的
- 用英伟达Jetson Nano运行PyTorch Fast.ai丨手把手教程+第三方工具
- 写Java代码分别使堆溢出,栈溢出
- 设计模式(26)-----享元模式
- apt-get pip3
- ofo 成了一个披着「退押金」的电商导购平台?
- 登录起凡是显示计算机拒绝无法连接,起凡名将录出现第三方登陆失败怎么办 解决方案一览...
- ipad和android平板应用,排名前100的iPad应用中只有一半支持Android平板
- Excel如何批量将中文名字翻译为英文
- 这 30 款 IDEA 宝贝插件 yyds
- 我提莫谢谢你!给我100块羞辱离职,原来是激励我“卧薪尝胆”!
- 北京PM2.5浓度回归分析
- 淘宝和天猫,到底哪个靠谱!你上过天猫的当吗?
- 全国计算机应用语言设计,全国计算机应用技术证书考试程序设计教程:NIT C语言...
- bzoj1671 Knights of Ni 骑士 BFS
- matlab fun函数问题