所谓爬虫,就是通过编程的方式自动从网络上获取自己所需的资源,比如文章、图片、音乐、视频等多媒体资源。通过一定的方式获取到html的内容,再通过各种手段分析得到自己所需的内容,比如通过BeautifulSoup对网页内容进行解析提取。

本文通过selenium的webdriver模拟浏览器来浏览网页,通过lxml库解析得到咱所需的内容。下面开始我们的爬虫工作。

首先,安装好我们爬网所需的开发环境,我的开发环境如下:

win7 x64中文版

Visual Studio Code 1.27.2(用于作为Python的编辑器,通过插件可以支持多种语言的开发)

本系列演示过程所用到的python环境以及第三方库:

python 3.6.5 Anaconda预安装

selenium 3.14.0 Anaconda手动安装

lxml 4.2.1 Anaconda预安装的不包含etree,需要卸载重装,见文末方法

pip 10.0.1 Anaconda预安装

PyExecJS Anaconda没有,需要cmd执行pip安装

这里为了方便管理Python里面的各种插件的依赖关系,我选择的是Py集成管理工具Anaconda,就像我们其它语言开发使用Maven、Gradle作为依赖库版本管理工具一样,节省自己的时间减少出错的几率。(当然你很强,也可以自己单独安装Python以及本文所用到的各种依赖包,只要不出错就好)

安装步骤:

win7系统就不用说了,大家都懂的

Visuan Studio Code(本系列后续文章内统一简称vs code)的安装也是很easy,下载后一路下一步完成就行

Anaconda3.5也是从官网下来安装包双击执行一路下一步,我是默认安装在C:\ProgramData\Anaconda3,并且在安装过程中勾选了把这个安装目录作为系统Python的安装目录,

但是查了系统环境变量Path,并没有发现这个在里面,所以安装完成后我们在cmd里面输入python以及pip,是提示命令找不到的。所以不管了,干就完了,咱自己手动把以下路径添加到系统环境变量Path的值里面:

C:\ProgramData\Anaconda3\Scripts

C:\ProgramData\Anaconda3

不懂配置环境变量操作的自行du一下~

启动Anaconda:

可以看到Anaconda里面已经自动帮我们安装好了Python3.6.5

我们在这里通过anaconda继续安装后续爬网所需的selenuim框架(用这个管理工具安装的好处就是其它必须的相关依赖都会自动安装,省得自己一个一个去折腾,当然除非这个工具本身找不到你要的插件)

继续安装用户在py脚本中执行js脚本的插件:PyExecJS

打开vs code,然后按键:Ctrl + ~ 打开cmd终端

输入pip install PyExecJS 安装

最后,卸载Anaconda预安装的lxml,手动安装带etree的版本,否则执行代码会提示etree导入出错,有些lxml不包含etree,导致找不到指定模块,我们需要手动安装一下。

方法有很多,这里只是其中一种:在网站https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml找到符合当前python3.7版本的64位的whl文件到本机,然后cmd命令窗口cd到这个whl文件所在的目录,执行安装(先卸载之前预安装的lxml版本再安装下载的这个):

pip uninstall lxml

pip install lxml-4.2.5-cp37-cp37m-win_amd64.whl

安装火狐浏览器驱动:下载地址

下载后解压放到python.exe所在目录,本文中是C:\ProgramData\Anaconda3

至此,我们把本系列操作所需的软件环境都搞定了,接下来开始我们的爬虫之旅~

全文完结,后续实现用其它框架来爬虫新闻资源。敬请期待~

参考资料:

python爬虫今日头条_Python3从零开始爬取今日头条的新闻【一、开发环境搭建】...相关推荐

  1. python爬今日头条组图_(python爬虫之)ajax解析爬取今日头条组图并下载

    首先吐槽一波csdn配色真直男,囧 此次任务需要注意的是: 用request.get方法的时候要加cookie, 网页源代码也改动了,详情页进入后不是一个json数据包,是一个html文档. 以及其它 ...

  2. Python 爬虫实例(7)—— 爬取 新浪军事新闻

    我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码: # coding:utf-8import json import redis im ...

  3. Python3从零开始爬取今日头条的新闻【五、解析头条视频真实播放地址并自动下载】

    Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

  4. Python3从零开始爬取今日头条的新闻【一、开发环境搭建】

    Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

  5. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  7. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  8. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  9. Python 爬虫实战,模拟登陆爬取数据

    Python 爬虫实战,模拟登陆爬取数据 从0记录爬取某网站上的资源连接: 模拟登陆 爬取数据 保存到本地 结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装 略 安装r ...

最新文章

  1. 域控服务器状态检查和标准备份
  2. Codeforces 685C Optimal Point (二分、不同类型距离的相互转换)
  3. 13个Pandas实用技巧,有点香 !
  4. mysql python 3.5_python3.5 与 mysql 交互
  5. Facebook 开源了一整套重要的 Linux 内核组件与工具!
  6. 【C++ 学习笔记】:STL-map
  7. html中如何写平方根等,平方根的符号怎么打出来 电脑打字,平方根的符号怎样打出来?...
  8. c# 路径下的最近文件夹_C#8.0的两个有趣的新特性以及gRPC
  9. 搭建微服务_快速搭建 SpringCloud 微服务开发环境的脚手架
  10. javaweb课程PSP(1)
  11. 【转】如何在命令行脚本中启动带参数的Windows服务
  12. cad卸载工具_如何卸载AutoCAD 附上清理注册表方法
  13. uygurqa输入法android,uygurqa维语输入法2021
  14. Emmagee性能测试简单的使用
  15. leetcode *1818. 绝对差值和(2021.7.14)
  16. 芯片设计流程 芯片的设计原理图
  17. 模拟器搭建之一:如何搭建MT6573 模拟器
  18. 应聘的16个经典面试问题回答思路
  19. 微信公众号抓取研究----使用xposed程序hook
  20. 华为防火墙配置SSL+自签CA证书挑战登录

热门文章

  1. 相机标定:确定空间物体的三维坐标
  2. linux查看eps文件格式,eps 格式图转pdf格式图
  3. sunxi-fel适配原理和新芯片烧录功能的适配
  4. 基于fuse文件系统优化方法总结[附带详细说明]
  5. android11vivo,vivo安卓11来了iQOO3 NEX3S尝鲜Androi11测试版!
  6. 记录 设计+制作AA机台
  7. 什么是微信防火墙_为什么越来越多人用网络股票配资?配资平台困扰你的是太多了?不,是它!...
  8. MySQL教程四——集合运算
  9. (图解)第十三届蓝桥杯B组省赛 试题 G: 积木画
  10. 水果FLStudio21.0.0软件最新版有哪些新增功能变化?