使用Chrome、python3.7、requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/poi/5426285.html)。

首先,我们复制一段评论,查看网页源代码,按Ctrl+F查找,发现没有找到评论,说明评论内容不在http://www.mafengwo.cn/poi/5426285.html页面。

回到页面,划到评论列表,右键检查,选择Network,然后点击后一页翻页,观察Network里的变化,我们要爬的文件就在下面的某个文件里(主要找XHR和JS两个模块)。选择Preview可以更好的让我们寻找我们想要的文件,然后选择Headers找到我们要爬的url。

经过分析我们找到要爬取的url是http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18102698237405245767_1579401525334&params=%7B%22poi_id%22%3A%225426285%22%2C%22page%22%3A2%2C%22just_comment%22%3A1%7D&_ts=1579402072160&sn=20e98d65a0&=1579402072161

然而点进去是这样的

这个时候对比一下这两个页面的Request Headers,发现原页面多了个Refer参数

原页面

然后看一下请求get请求需要的参数Query String Parameters,其中poi_id是景点id,page是评论页面(翻页只用改变page的值就行)。

import re

import time

import requests

#评论内容所在的url,?后面是get请求需要的参数内容

comment_url='http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?'

requests_headers={

'Referer': 'http://www.mafengwo.cn/poi/5426285.html',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'

}#请求头

for num in range(1,6):

requests_data={

'params': '{"poi_id":"5426285","page":"%d","just_comment":1}' % (num) #经过测试只需要用params参数就能爬取内容

}

response =requests.get(url=comment_url,headers=requests_headers,params=requests_data)

if 200==response.status_code:

page = response.content.decode('unicode-escape', 'ignore').encode('utf-8', 'ignore').decode('utf-8')#爬取页面并且解码

page = page.replace('\\/', '/')#将\/转换成/

#日期列表

date_pattern = r'评论.*?\n.*?(.*?)'

date_list = re.compile(date_pattern).findall(page)

#星级列表

star_pattern = r''

star_list = re.compile(star_pattern).findall(page)

#评论列表

comment_pattern = r'

([\s\S]*?)

'

comment_list = re.compile(comment_pattern).findall(page)

for num in range(0, len(date_list)):

#日期

date = date_list[num]

#星级评分

star = star_list[num]

#评论内容,处理一些标签和符号

comment = comment_list[num]

comment = str(comment).replace(' ', '')

comment = comment.replace('
', '')

comment = comment.replace('
', '')

print(date+"\t"+star+"\t"+comment)

else:

print("爬取失败")

结果

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持聚米学院。

python爬取景点信息_python 爬取马蜂窝景点翻页文字评论的实现相关推荐

  1. python爬虫——爬取马蜂窝景点翻页文字评论

    python爬虫--爬取马蜂窝景点翻页文字评论 使用Chrome.python3.7.requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/po ...

  2. python爬房源信息_Python爬链家网租房信息

    爬去链家网的租房信息然后存储到数据库中. #-*- coding:utf-8 -*- import requests import re import random import MySQLdb fr ...

  3. 【归档】爬取马蜂窝景点信息(含源代码)

    爬取马蜂窝景点信息(含源代码) 爬取热门目的地信息 MafengwoCrawler()._get_mdd() 爬取目的地内景点信息 MafengwoCrawler().crawler_mdd() 爬取 ...

  4. 基于Python的拉勾网Python工程师招聘信息的爬取和处理分析

    目录 一.项目简介 1.项目完成的功能 2.项目完成的特色 3.项目采用的技术栈 二.项目的需求分析 1.项目的功能需求分析 2.项目的非功能需求分析 系统性能需求 系统观感需求(界面需求) 三.项目 ...

  5. webscraper多页爬取_Web Scraper 翻页——抓取「滚动加载」类型网页(Web Scraper 高级用法)| 简易数据分析 10...

    这是简易数据分析系列的第 10 篇文章. 友情提示:这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍. 我们在刷朋友圈刷微博的时候,总会强调一个『刷』字,因为看动态的时候,当把内容拉到屏 ...

  6. Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接

    Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接 1. 前言 2. 实现过程 3. 运行结果 1. 前言 文章内容可能存在版权问题,为此,小编不提供相关实现代码,只是从js逆向说一说到 ...

  7. python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...

    1. 爬虫项目介绍 爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...

  8. python爬取旅游信息_Python 爬取 13 个旅游城市,告诉你五一大家最爱去哪玩?

    五一假期已经结束,小伙伴是不是都还没有玩过瘾?但是没办法,还有很多bug等着我们去写,同样还有需要money需要我们去赚.为了生活总的拼搏. 今年五一放了四天假,很多人不再只是选择周边游,因为时间充裕 ...

  9. python爬取旅游信息_python爬取全国13个城市旅游数据,告诉你那里最受欢迎

    抓取数据 通过请求https://piao.qunar.com/ticket/list.htm?keyword=北京,获取北京地区热门景区信息,再通过BeautifulSoup去分析提取出我们需要的信 ...

最新文章

  1. spark数据查询语句select_sparksql读取hive表中数据
  2. C 语言编程 — GDB 调试工具
  3. 父类卡子类卡java_Java中关于子类覆盖父类的抛出异常问题
  4. PHP生成验证码图片
  5. java16下载_java lombok下载
  6. Angular 项目 tsconfig.json 里定义的 out-tsc 还有作用吗?
  7. SynchronizationContext
  8. apache2 配置php,Windows配置PHP5与Apache2
  9. leetcode-Combinations 复习复习排列组合
  10. python实现切割url得到域名、协议、主机名等各个字段
  11. PHP重置static静态变量
  12. Java递归算法要点
  13. 医院电子病历系统HIS、LIS、PACS、CIS源码
  14. 计算机指令窗口如何放大,我电脑每次打开一个窗口都好小,怎么设置为每次都全屏啊?...
  15. 设置input框只能输入6位为数字的支付密码
  16. NL2SQL领域:RAT-SQL论文笔记
  17. 数据耦合的代码例子c语言,代码耦合的处理
  18. python文件的运行方法
  19. winform高仿腾讯QQ2013,几十个界面哦!!
  20. 74-内存和外存的知识点

热门文章

  1. play2框架 jpa mysql_单元测试 – Playframework 2.2.x Java JPA – 用于单元测试和生产的独立数据库...
  2. python 变量类型注释_变量类型、命名规则及代码注释
  3. 阿尔伯塔大学的计算机科学专业好吗,阿尔伯塔大学哪个专业好?三大热门方向成就高薪未来...
  4. php与java的关系_PHP基本语法以及和Java的区别
  5. idea lombok插件安装_mac安装的软件和idea的插件推荐
  6. Android开发之高斯模糊效果三行代码搞定附带CSDN源码请导入module
  7. Error:Internal error: org.gradle.tooling.BuildException: Could not run build action using Gradle dis
  8. oracle查询哪个sql占用资源,查询oracle最耗资源的sql语句
  9. 基础训练——合并电话簿
  10. 在SuSE10.1上安装Oracle10g