爬取携程攻略社区所有笔记保存到txt文件

这是一个朋友做的旅游方面的分析，需要游客的所有笔记的文本，并且保存在一个txt里
源码如下：

import requests
from lxml import etree
from bs4 import BeautifulSoupheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'
}for num in range(1,81,1):print(num)url = 'https://you.ctrip.com/searchsite/travels/?query=%e9%81%bf%e6%9a%91%e6%97%85%e6%b8%b8&isAnswered=&isRecommended=&publishDate=365&PageNo='+str(num)html = requests.get(url).texttxt = etree.HTML(html)file = txt.xpath('/html/body/div[2]/div[2]/div[2]/div/div[1]/ul/li')for t in file:href = t.xpath('./dl/dt/a/@href')[0]hrefUrl = 'https://you.ctrip.com'+hrefprint (hrefUrl)html = requests.get(url = hrefUrl,headers=headers).textsoup = BeautifulSoup(html, "html.parser")t = soup.find(attrs={"class": "ctd_content"})txt = t.get_text().replace("\n","")txt = str(txt)filename = 'G:write_data.txt'with open(filename,'a',encoding='utf-8') as f: # 如果filename不存在会自动创建， 'w'表示写数据，写之前会清空文件中的原有数据！f.write(txt)f.close()
print ("获取完毕！")

爬取结果：

词云分析：

# coding: utf-8from wordcloud import WordCloud
import cv2
import jiebawith open(r'G:\write_data.txt','r',encoding='utf-8') as f:text = f.read()
cut_text =" ".join(jieba.cut(text))color_mask = cv2.imread('G:1234.jpg')cloud = WordCloud(#设置字体，不指定就会出现乱码font_path=" C:\\Windows\\Fonts\\STXINGKA.TTF",#font_path=path.join(d,'simsun.ttc'),#设置背景色background_color='white',#词云形状mask=color_mask,#允许最大词汇max_words=2000,#最大号字体max_font_size=40)wCloud = cloud.generate(cut_text)
wCloud.to_file('cloud.jpg')import matplotlib.pyplot as plt
plt.imshow(wCloud, interpolation='bilinear')
plt.axis('off')
plt.show()

词云结果：

爬取携程攻略社区所有笔记保存到txt文件相关推荐

python爬携程景区评论_python爬取携程景点评论信息
python爬取携程景点评论信息今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的按下F12之后,F5刷新一下具体需要URL Request的方式为P ...
python爬取携程旅游评价信息词云图分析
python爬取携程旅游评价信息词云图分析前言前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫一键爬取携程旅游团数据这一篇呢,咱 ...
python 爬取携程旅游景点评论
python爬取携程旅游景点评论爬取网址:https://you.ctrip.com/ 爬取评论全部代码 import requests import json import re import t ...
Python爬虫案例：爬取携程评论
前言之前爬取美团,马蜂窝等网站的数据都挺顺利,大众点评(这个反爬机制有点麻烦)在磕磕绊绊中也算成功(重点是网页页数的变化和关键字的隐藏替换)但携程居然遇到了瓶颈. 主要是查看源代码时发现关键商户信息 ...
python 携程登陆,Python爬取携程信息
python爬取携程景点评论信息今天要分析的网站是携程网,获取景点的用户评论,评论信息通过json返回API,页面是这个样子的按下F12之后,F5刷新一下具体需要URL Request的方式为P ...
携程ajax,Python爬虫实战之爬取携程评论
一.分析数据源这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...
python爬取携程网游记_Python爬虫案例：爬取携程评论
前言之前爬取美团,马蜂窝等网站的数据都挺顺利,大众点评(这个反爬机制有点麻烦)在磕磕绊绊中也算成功(重点是网页页数的变化和关键字的隐藏替换)但携程居然遇到了瓶颈. 主要是查看源代码时发现关键商户信息 ...
python爬取携程景区用户评论
python爬取携程景区用户评论(爬虫时遇到翻页但url不变问题时的解决办法) python爬取携程景区用户评论 Ajax页面加载的页面和普通页面的不同解决办法效果 python爬取携程景区用户评 ...
python爬取携程机票并发送过滤后的机票信息到指定邮箱
0x0 前言在疫情发生之前,在知乎上刷到一个回答,说是用服务器实现一个自动爬取机票并将过滤后的机票信息发送到自己的邮箱中,感觉十分有趣.由于疫情原因无法返校,加上家和学校相隔接近3000公里,再加上 ...

爬取携程攻略社区所有笔记保存到txt文件

爬取携程攻略社区所有笔记保存到txt文件相关推荐

最新文章

热门文章