爬虫,就是用程序代替人去访问网站,然后把网站上需要的东西拿下来;类似人输入网址,看到页面,然后复制粘贴,只是把这个过程自动化。

那么第一步就是去访问网站,要看到网站的页面,对程序来说也就是源码。笔者在学爬虫时曾被这一步卡了挺久;想爬知乎,但查了不少资料,大多是说怎么解析源码的,怎么从源码中定位需要的内容;但源码从哪来呢?源码不过就是字符串,总会有工具能提取的,是在不行自己写工具也行;但对于高手们来说,这似乎是个简单到不需要说的东西;无米之炊啊;我也是菜鸟,所以准备写一写。

01安装python

当然,最最基础的还是得先把Python装上,还有写代码的工具;推荐Pycharm。安装的教程网上很多,搜下就有,这里放一个链接https://www.cnblogs.com/lvtaohome/p/11121377.html。Pycharm用免费版就行,小白要有小白的自觉,高级的用不上的。Python版本用3的。

装好Pycharm后,要安装库。库就是别人写好的程序,做成了工具箱;当成个装了锤子、剪刀、扳手的工具箱就行;安装库就是从商店把工具箱买回来。

File→Settings→Project Interpreter→右上方的+号→搜索requests(有s)→Install Package 安装。如果没有项目,就随便找个地方新建个txt文档,后缀改成.py,然后用Pycharm打开。

02如何使用

工具箱买回来了,下面开始用。

import requests s = requests.session() url = "http://www.baidu.com"data = s.get(url)with open("baidu.txt","w+",encoding='UTF-8') as f:     f.write(data.content.decode("utf-8"))

import requests 把这个工具箱拿过来。

s = requests.session() 其中的一个工具取个短名,就叫s。

url = "http://www.baidu.com" 这是我们要测试的地址,主要http://不能省。用双引号包起来说明是个字符串。

data = s.get(url) s.get(url)就是让程序去访问网站,拿到源码了,拿到的源码命名为data。

with open("baidu.txt","w+",encoding='UTF-8') as f:

源码拿到了我们又看不见,很抽象,很难受,我当时是喜欢把它们写到文档里再研究;所以创建个baidu.txt(用完整的路径也行)的文档,w+模式打开,文件编码是UTF-8,告诉程序这个文件里面写的是中文,不是俄语。as f,让这个文件打开后代号为f,对f的操作就是对文件的操作。

f.write(data.content.decode("utf-8")) 对f执行write操作,写入的内容是获取的源码data中的content;data是requests.Session.get返回的一整坨东西,是一个结构体,不是能写入文本文件的字符串,所以要用里面的content。.decode("utf-8") 意思是把鸟语翻译成格式为”utf-8”中文再写进去。

这些代码可以直接复制到Python Console回车就可以执行;会再py文件所在路径或者你自己设定的baidu.txt的路径生成一个baidu.txt的文件;打开就可以看到源码。

打开后可以看到格式比较乱;至于规则化输出,源码解析工具,程序调试之类的事情,后续再写。

python源码_Python爬虫入门之获取网页源码相关推荐

  1. 用python画写轮眼_Python爬虫入门-图片下载(写轮眼--Lyon)

    Python小白最近入了爬虫的坑,但是一直到前天为止我会的只会简单的爬取网页上的文本信息,比如什么 豆瓣上的书评 ,知乎上红人的关注者 --一些很简单的爬虫.就在昨天我无聊闲暇在逛知乎偶然发现Lyon ...

  2. python requests 状态码_Python爬虫库requests获取响应内容、响应状态码、响应头

    更多python教程请到: 菜鸟教程www.piaodoo.com 人人影视www.sfkyty.com 16影视www.591319.com 星辰影院www.591319.com 首先在程序中引入R ...

  3. python小代码_Python爬虫入门有意思的小长代码

    一段有意思的代码,有兴趣的可以研究研究. 需求 用户收到短信如:购买了电影票或者火车票机票之类的事件.然后app读取短信,解析短信,获取时间地点,然后后台自动建立一个备忘录,在事件开始前1小时提醒用户 ...

  4. Python 爬虫 之 爬虫的一些基本知识和基本操作(爬取视频、图片、获取网页源码等)整理

    Python 爬虫 之 爬虫的一些基本知识和基本操作(爬取视频.图片.获取网页源码等)整理 目录

  5. python爬虫东方财富网_Python爬虫入门:以东方财富网为例

    网络爬虫(Web Spider),根据网页地址爬取网页内容,从而获取各类数据,实现多种多样的功能.下面就以爬取东方财富网的数据为例,谈谈最简单的爬虫的实现.爬虫的核心有三个:请求.解析.存储. 环境配 ...

  6. C# -爬虫之WebBrowser跨域跨iframe获取网页源码

    前言:这里关键写用WebBrowser跨域跨iframe获取网页源码的部分,本意是要爬取全职高手的有声小说,这类网站特殊,网页上广告大堆,爬起来真麻烦,比如我爬取的网站的mp3源文件下载还需要秘钥的, ...

  7. python爬虫爬图片教程_Python爬虫入门教程 5-100 27270图片爬取

    获取待爬取页面 今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥 ...

  8. python很全的爬虫入门教程

    python很全的爬虫入门教程 一.爬虫前的准备工作 首先,我们要知道什么是爬虫 1.什么是网络爬虫? 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁 ...

  9. 基于python的影评数据分析_基于Python聚焦型网络爬虫的影评获取技术

    龙源期刊网 http://www.qikan.com.cn 基于 Python 聚焦型网络爬虫的影评获取技 术 作者:郭向向 郑嘉慧 苗学芹 来源:<时代金融> 2019 年第 11 期 ...

最新文章

  1. 在求向量组的极大线性无关组时,为什么要将向量竖着放,然后对所构成的矩阵进行初等行变换?转
  2. mysql存储过程详解[转]
  3. [单反六]查看快门数
  4. Csico CCNA学习笔记1_cdp telnet
  5. linux统计某个字符个数,Linux统计一个文件中特定字符个数的方法
  6. 【Vue.js 知识量化】组件化开发 + 前端模块化
  7. 别让算法和数据结构拖你职业生涯的后腿
  8. Python+OpenCV:基于分水岭算法的图像分割(Image Segmentation with Watershed Algorithm)
  9. mysql基础之视图、事务、索引、外键
  10. pg数据库中postgis的使用
  11. 【人工智能之手写字体识别】机器学习及与智能数据处理之降维算法PCA及其应用手写字体识别
  12. 9个超绚丽的HTML5 3D图片动画特效
  13. android wifi 文件共享,一个Android WiFi 文件共享程序
  14. Visual Paradigm 里什么是复合结构图?
  15. iTunes Connect 上架 -- App store 搜索不到 解决方法
  16. c语言书面作业3,C语言程序设计
  17. 大数据分析与挖掘期末复习
  18. sw运行很卡怎么办_win10运行solidworks好卡怎么解决_win10打开solidworks经常卡顿如何处理...
  19. TypeError:object of type 'type' has no len()的一种可能原因
  20. matlab silhouette函数,相当于Matlab的聚类质量函数?

热门文章

  1. mysql可变数据类型_【Python面试】 说说Python可变与不可变数据类型?
  2. Chrome 开发工具之 Memory
  3. 第 14 章 结构和其他数据形式(names)
  4. 《我们应当怎样做需求分析》阅读笔记
  5. 分析报告生产器使用问题
  6. 服务器 'server_1' 上的 MSDTC 不可用
  7. 组件cdn引入_高性能 React UI组件库SHINEOUT
  8. msm8953抓取audio kernel dsp log
  9. Android5.1 Audio计算音量流程
  10. android获取mp3/mp4媒体信息