Python爬虫入门之豆瓣短评爬取
采用工具pyCharm,python3,工具的安装在这就不多说了,之所以采用python3是因为python2只更新维护到2020年。
新建python项目
File-Settings-project interpreter,点右上角+号,安装requests,lxml,openpyxl,pandas四个包。
requests爬取豆瓣短评
lxml解析定位豆瓣短评
panda转换并保存豆瓣短评数据
openpyxl是读写excel文件所用到的包
在项目下新建一个python file,实例代码如下:
这里着重说一下,xpath路径如何获取,在网页中选中评论内容,右击-检查,自动跳到对应代码行,再在该代码行上右击-Copy-Copy XPath;粘贴出来你的代码好比如是://[@id=“comments”]/ul[1]/li[1]/div[2]/p/span,这时你要结合你的前端基础知识和页面世界节点去分析,最后把xpath改成//[@class=“comment”]/p/span/text()
运行代码,在项目目录下生成comments.xlsx文件。大功告成!
Python爬虫入门之豆瓣短评爬取相关推荐
- python爬虫入门练习:BeautifulSoup爬取猫眼电影TOP100排行榜,pandas保存本地excel文件
传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件 对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...
- python爬虫入门_3种方法爬取古诗文网站
目的: 爬取古诗文网的古诗词,获取详细信息,目标网站:https://www.gushiwen.org/default.aspx?page=1 1.根据网页分析可知 下面包含了当前页面的所有信息,所以 ...
- Python 爬虫“王者”:豆瓣海报爬取
我这里就以女神王祖贤的海报来作为例子. 翻页分析 在豆瓣电影中搜索"王祖贤",进入王祖贤主页后,点击全部影人图片,进入到影人图片页面. 在该页面点击下一页,可以看到浏览器的 URL ...
- Python爬虫入门教程06:爬取数据后的词云图制作
前言
- Python爬虫入门教程31:爬取猫咪交易网站数据并作数据分析
前言
- Python爬虫入门教程32:爬取boss直聘招聘数据并做可视化展示
前言
- Python爬虫入门教程27:爬取某电商平台数据内容并做数据可视化
前言
- Python爬虫入门教程30:爬取拉勾网招聘数据信息
前言
- 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
最新文章
- hadoop中的序列化与Writable类
- jQuery火箭图标返回顶部代码
- Java - PriorityQueue
- 怎么用python处理excel文件-如何用python处理excel表格
- dataGridView1去掉第一列
- 我是怎么通过技术白手起家创业的。
- 使用WSW将Nginx创建为Windows系统服务
- Kubernetes基础文档(链接,下载,安装,架构)
- POJ - 2513 Colored Sticks(字典树+并查集+欧拉回路)
- Docker 安装配置Tomcat
- 清华大学 TUNA 协会
- Scrapy 爬取链家租房价格信息
- 3d打印【遇到的问题】--卷边、倒塌、slic3r
- 和平精英亚服服务器信号差,和平精英延迟高怎么办 网络卡顿解决方法
- oracle xla相关,【EBS】XLA_GLT表的清理
- gitlab小记(一)
- OFD文件怎么转换成图片?这两种方法能够快速转换
- 94608000秒,1576800分,26280小时,1095天!!
- js去除url中的localtion.search部分
- 加解密,加签、验签也就这肥事
热门文章
- 2021,中国计算产业的“攀登者勋章”
- Win10开启混合现实模拟器
- 超高频led发光线缆尾标_发光线缆标签_光缆电子标签_电缆rfid标签
- python怎么读取pdf为文本_轻松用Python批量提取PDF文本内容,这个小技巧告诉你!...
- 学习python,需要多少学费,Python前景怎么样?
- 智能ABC一般人不知道的五招(转贴)
- 创办3年就IPO!创新奇智作价150亿成“AI+制造”第一股,李开复躬身实践:创造硬科技投资新范式...
- 10个匿名浏览网页的隐私保护工具,程序员必备!
- python3 中文乱码 UnicodeEncodeError: ‘latin-1‘ codec can‘t encode characters
- 【photoshop CEP插件】 OCR文字识别