这是一个朋友做的旅游方面的分析,需要游客的所有笔记的文本,并且保存在一个txt里
源码如下:

import requests
from lxml import etree
from bs4 import BeautifulSoupheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'
}for num in range(1,81,1):print(num)url = 'https://you.ctrip.com/searchsite/travels/?query=%e9%81%bf%e6%9a%91%e6%97%85%e6%b8%b8&isAnswered=&isRecommended=&publishDate=365&PageNo='+str(num)html = requests.get(url).texttxt = etree.HTML(html)file = txt.xpath('/html/body/div[2]/div[2]/div[2]/div/div[1]/ul/li')for t in file:href = t.xpath('./dl/dt/a/@href')[0]hrefUrl = 'https://you.ctrip.com'+hrefprint (hrefUrl)html = requests.get(url = hrefUrl,headers=headers).textsoup = BeautifulSoup(html, "html.parser")t = soup.find(attrs={"class": "ctd_content"})txt = t.get_text().replace("\n","")txt = str(txt)filename = 'G:write_data.txt'with open(filename,'a',encoding='utf-8') as f: # 如果filename不存在会自动创建, 'w'表示写数据,写之前会清空文件中的原有数据!f.write(txt)f.close()
print ("获取完毕!")

爬取结果:

词云分析:

# coding: utf-8from wordcloud import WordCloud
import cv2
import jiebawith open(r'G:\write_data.txt','r',encoding='utf-8') as f:text = f.read()
cut_text =" ".join(jieba.cut(text))color_mask = cv2.imread('G:1234.jpg')cloud = WordCloud(#设置字体,不指定就会出现乱码font_path=" C:\\Windows\\Fonts\\STXINGKA.TTF",#font_path=path.join(d,'simsun.ttc'),#设置背景色background_color='white',#词云形状mask=color_mask,#允许最大词汇max_words=2000,#最大号字体max_font_size=40)wCloud = cloud.generate(cut_text)
wCloud.to_file('cloud.jpg')import matplotlib.pyplot as plt
plt.imshow(wCloud, interpolation='bilinear')
plt.axis('off')
plt.show()

词云结果:

爬取携程攻略社区所有笔记保存到txt文件相关推荐

  1. python爬携程景区评论_python爬取携程景点评论信息

    python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...

  2. python爬取携程旅游评价信息词云图分析

    python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...

  3. python 爬取携程旅游景点评论

    python爬取携程旅游景点评论 爬取网址:https://you.ctrip.com/ 爬取评论全部代码 import requests import json import re import t ...

  4. Python爬虫案例:爬取携程评论

    前言 之前爬取美团,马蜂窝等网站的数据都挺顺利,大众点评(这个反爬机制有点麻烦)在磕磕绊绊中也算成功(重点是网页页数的变化和关键字的隐藏替换)但携程居然遇到了瓶颈. 主要是查看源代码时发现关键商户信息 ...

  5. python 携程登陆,Python爬取携程信息

    python爬取携程景点评论信息 今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的 按下F12之后,F5刷新一下 具体需要URL Request的方式为P ...

  6. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

  7. python爬取携程网游记_Python爬虫案例:爬取携程评论

    前言 之前爬取美团,马蜂窝等网站的数据都挺顺利,大众点评(这个反爬机制有点麻烦)在磕磕绊绊中也算成功(重点是网页页数的变化和关键字的隐藏替换)但携程居然遇到了瓶颈. 主要是查看源代码时发现关键商户信息 ...

  8. python爬取携程景区用户评论

    python爬取携程景区用户评论(爬虫时遇到翻页但url不变问题时的解决办法) python爬取携程景区用户评论 Ajax页面加载的页面和普通页面的不同 解决办法 效果 python爬取携程景区用户评 ...

  9. python爬取携程机票并发送过滤后的机票信息到指定邮箱

    0x0 前言 在疫情发生之前,在知乎上刷到一个回答,说是用服务器实现一个自动爬取机票并将过滤后的机票信息发送到自己的邮箱中,感觉十分有趣.由于疫情原因无法返校,加上家和学校相隔接近3000公里,再加上 ...

最新文章

  1. 算法理解|从头开始理解梯度提升算法
  2. 连接sql sever2008数据库出现了无法连接到数据库引擎问题解决
  3. ORA-04031 错误
  4. 理解 ActivityExecutionContextManager
  5. Thread和Runnable的区别和联系、多次start一个线程会怎么样
  6. win10树莓派改ip_Window 10通过网线和Wifi连接树莓派
  7. linux系统编程之进程(七):system()函数使用
  8. 设计合理的实验方案来研究阳离子改性棉织物与未改性棉的染色动力学性能
  9. 一个ubuntu phper的自我修养(lamp)
  10. go 调用 另一个go 的方法_Go 经典入门系列 17:方法
  11. java ssm商城_SSM网上购物商城系统
  12. matlab 求特征值的命令,matlab怎么求特征值
  13. avformat_seek_file使用
  14. QML 语法(Syntax)
  15. jquery移除数组中的某个元素
  16. 西游记中13大高手排名
  17. 使用sass预处理器的优劣
  18. 15. 弱人工智能、强人工智能、超人工智能
  19. not a genuine ST device,可能是个“假”芯片
  20. gmp安装及使用摘要

热门文章

  1. “高调做事,高调做人”?----关于排名和排序
  2. 穷玩CorelDraw
  3. git 重装系统后的恢复(同时配置gitee和github)
  4. Java小白入门第十五弹 酒店管理系统(实例一)
  5. SDI接口图像预处理模块
  6. 刚刚出新的Kubernetes 却曝出了“高危”安全漏洞;亚马逊将推免费新闻视频服务,对标苹果 | 极客头条...
  7. 自己做量化交易软件(6)通通量化历史交易回测设计1
  8. imx6ull文件系统挂载失败
  9. Linux如何识别U盘
  10. 浅析PoE技术与视频监控传输市场