采用工具pyCharm,python3,工具的安装在这就不多说了,之所以采用python3是因为python2只更新维护到2020年。

  1. 新建python项目

  2. File-Settings-project interpreter,点右上角+号,安装requests,lxml,openpyxl,pandas四个包。
    requests爬取豆瓣短评
    lxml解析定位豆瓣短评
    panda转换并保存豆瓣短评数据
    openpyxl是读写excel文件所用到的包

  3. 在项目下新建一个python file,实例代码如下:

  4. 这里着重说一下,xpath路径如何获取,在网页中选中评论内容,右击-检查,自动跳到对应代码行,再在该代码行上右击-Copy-Copy XPath;粘贴出来你的代码好比如是://[@id=“comments”]/ul[1]/li[1]/div[2]/p/span,这时你要结合你的前端基础知识和页面世界节点去分析,最后把xpath改成//[@class=“comment”]/p/span/text()

  5. 运行代码,在项目目录下生成comments.xlsx文件。大功告成!

Python爬虫入门之豆瓣短评爬取相关推荐

  1. python爬虫入门练习:BeautifulSoup爬取猫眼电影TOP100排行榜,pandas保存本地excel文件

    传送门:[python爬虫入门练习]正则表达式爬取猫眼电影TOP100排行榜,openpyxl保存本地excel文件 对于上文使用的正则表达式匹配网页内容,的确是有些许麻烦,替换出现任何的差错都会导致 ...

  2. python爬虫入门_3种方法爬取古诗文网站

    目的: 爬取古诗文网的古诗词,获取详细信息,目标网站:https://www.gushiwen.org/default.aspx?page=1 1.根据网页分析可知 下面包含了当前页面的所有信息,所以 ...

  3. Python 爬虫“王者”:豆瓣海报爬取

    我这里就以女神王祖贤的海报来作为例子. 翻页分析 在豆瓣电影中搜索"王祖贤",进入王祖贤主页后,点击全部影人图片,进入到影人图片页面. 在该页面点击下一页,可以看到浏览器的 URL ...

  4. Python爬虫入门教程06:爬取数据后的词云图制作

    前言

  5. Python爬虫入门教程31:爬取猫咪交易网站数据并作数据分析

    前言

  6. Python爬虫入门教程32:爬取boss直聘招聘数据并做可视化展示

    前言

  7. Python爬虫入门教程27:爬取某电商平台数据内容并做数据可视化

    前言

  8. Python爬虫入门教程30:爬取拉勾网招聘数据信息

    前言

  9. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

最新文章

  1. hadoop中的序列化与Writable类
  2. jQuery火箭图标返回顶部代码
  3. Java - PriorityQueue
  4. 怎么用python处理excel文件-如何用python处理excel表格
  5. dataGridView1去掉第一列
  6. 我是怎么通过技术白手起家创业的。
  7. 使用WSW将Nginx创建为Windows系统服务
  8. Kubernetes基础文档(链接,下载,安装,架构)
  9. POJ - 2513 Colored Sticks(字典树+并查集+欧拉回路)
  10. Docker 安装配置Tomcat
  11. 清华大学 TUNA 协会
  12. Scrapy 爬取链家租房价格信息
  13. 3d打印【遇到的问题】--卷边、倒塌、slic3r
  14. 和平精英亚服服务器信号差,和平精英延迟高怎么办 网络卡顿解决方法
  15. oracle xla相关,【EBS】XLA_GLT表的清理
  16. gitlab小记(一)
  17. OFD文件怎么转换成图片?这两种方法能够快速转换
  18. 94608000秒,1576800分,26280小时,1095天!!
  19. js去除url中的localtion.search部分
  20. 加解密,加签、验签也就这肥事

热门文章

  1. 2021,中国计算产业的“攀登者勋章”
  2. Win10开启混合现实模拟器
  3. 超高频led发光线缆尾标_发光线缆标签_光缆电子标签_电缆rfid标签
  4. python怎么读取pdf为文本_轻松用Python批量提取PDF文本内容,这个小技巧告诉你!...
  5. 学习python,需要多少学费,Python前景怎么样?
  6. 智能ABC一般人不知道的五招(转贴)
  7. 创办3年就IPO!创新奇智作价150亿成“AI+制造”第一股,李开复躬身实践:创造硬科技投资新范式...
  8. 10个匿名浏览网页的隐私保护工具,程序员必备!
  9. python3 中文乱码 UnicodeEncodeError: ‘latin-1‘ codec can‘t encode characters
  10. 【photoshop CEP插件】 OCR文字识别