网络爬虫初解:

如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。

image

爬取某网站的基本信息 :

先以猫眼网站(http://maoyan.com/board/4)为例:

想从网站获取的信息有:

电影名称,演员作者,发布时间,评分

电影名称:name

演员作者:star

发布时间:release_time

评分:scores

最关键的步骤如下:在网站中分别选中电影名称;作者;发布时间;评分右键选择检查,会出现所示代码然后复制下来,将该网页源代码打开,搜索相同字段,然后选择出你需要的部分,通过pycharm代码将你选择的电影名称;作者;发布时间;评分等爬取下来。

详细的整体代码如下:

import requests

import re

import time

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

}

def get_info(url):

res = requests.get(url,headers=headers)

names = re.findall('

stars = re.findall('

(.*?)

',res.text,re.S)

release_times = re.findall('

上映时间:(.*?)

',res.text)

scores = re.findall('

(.*?)(.*?)

',res.text)

for name,star,release_time,score in zip(names,stars,release_times,scores):

print(name,star.strip(),release_time,score[0]+score[1])

if __name__ == '__main__':

urls = ['http://maoyan.com/board/4?offset={}'.format(str(i)) for i in range(0, 100, 10)]

for url in urls:

get_info(url)

time.sleep(0)

爬取后的信息很多,有一点乱,这就需要整理一下信息。

运用pycharm与Excel相结合,通过pycharm建立Excel文件。

例如:建立一个姓名,性别的Excel的文件。

import csv

fp = open('C:/Users/lenovo/Desktop/text.csv','w',encoding='utf-8',newline='')

writer = csv.writer(fp)

writer .writerow(['name','sex'])

writer .writerow(['***','男'])

整理信息

运用上面的例子,然后将爬取信息的信息整理到Excel文件夹中:

详细代码如下:

import requests

import re

import csv

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

}

def get_info(url):

res = requests.get(url,headers=headers)

names = re.findall('

stars = re.findall('

(.*?)

',res.text,re.S)

release_times = re.findall('

上映时间:(.*?)

',res.text)

scores = re.findall('

(.*?)(.*?)

',res.text)

for name,star,release_time,score in zip(names,stars,release_times,scores):

print(name,star.strip(),release_time,score[0]+score[1])

writer.writerow([name, star.strip(), release_time, score[0] + score[1]])

if __name__ == '__main__':

fp = open('C:/Users/lenovo/Desktop/新建文件夹 (2)/python代码/text.csv', 'w', encoding='utf-8', newline='')

writer = csv.writer(fp)

writer.writerow(['name','star','release_times','scores'])

urls = ['http://maoyan.com/board/4?offset={}'.format(str(i)) for i in range(0, 100, 10)]

for url in urls:

get_info(url)

如此一来就将猫眼视频上的信息爬取了下来,然后我们还可以通过Excel进行各种对比;选择,挑选出最好的,等等一系列人们所需要的数据。

这就是最简单的python知识。后面我们将慢慢对python进行解读,以下仅供趣读:

Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。

Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。

Python 特点

易于学习:Python有相对较少的关键字,结构简单,和一个明确定义的语法,学习起来更加简单。

易于阅读:Python代码定义的更清晰。

易于维护:Python的成功在于它的源代码是相当容易维护的。

一个广泛的标准库:Python的最大的优势之一是丰富的库,跨平台的,在UNIX,Windows和Macintosh兼容很好。

互动模式:互动模式的支持,您可以从终端输入执行代码并获得结果的语言,互动的测试和调试代码片断。

可移植:基于其开放源代码的特性,Python已经被移植(也就是使其工作)到许多平台。

可扩展:如果你需要一段运行很快的关键代码,或者是想要编写一些不愿开放的算法,你可以使用C或C++完成那部分程序,然后从你的Python程序中调用。

数据库:Python提供所有主要的商业数据库的接口。

GUI编程:Python支持GUI可以创建和移植到许多系统调用。

可嵌入: 你可以将Python嵌入到C/C++程序,让你的程序的用户获得"脚本化"的能力。

大家一定要认真对待,不能像 小C(作者)一样,相信你们一定学的更好。

python爬虫模式_python爬虫的入门试炼相关推荐

  1. 手机python爬虫教程_python爬虫入门 之 移动端数据的爬取

    第七章 移动端数据的爬取 基于某一款抓包工具 : fiddler ,青花瓷 ,miteproxy 7.1 fiddler 基本配置 7.1.1fiddler简介和安装 什么是Fiddler? Fidd ...

  2. 花一千多学python值吗_Python爬虫应该怎么学?程序猿花了一周整理的学习技巧,请收下...

    原标题:Python爬虫应该怎么学?程序猿花了一周整理的学习技巧,请收下 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多, ...

  3. python数据入库_python爬虫(中)--数据建模与保存(入库)

    前言 前面,讲的是提取出来的数据保存进一个extracted_data,再保存进extracted_data_,变成一个list包含list的情况,当然你只提取一项,那就没有必要这么做了,可是我的项目 ...

  4. python爬虫难点_Python爬虫技巧

    ​在本文中,我们将分析几个真实网站,来看看我们在<用Python写网络爬虫(第2版)>中学过的这些技巧是如何应用的.首先我们使用Google演示一个真实的搜索表单,然后是依赖JavaScr ...

  5. python爬虫要点_Python爬虫知识点梳理

    学任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明确目标,所以,在你准备学爬虫前,先问问自己为什么要学习爬虫.有些人是为了一份工作,有些 ...

  6. beautifulsoup网页爬虫解析_Python爬虫快速入门,静态网页爬取

    在开始之前,请确保你的电脑上已经安装好了BeautifulSoup库,可以通过在命令行中输入pip install beautifulsoup4来进行安装. 一.数据解析 在爬取之前,我们需要检测下响 ...

  7. python流行的爬虫框架_Python爬虫相关框架

    Python爬虫相关框架,Python的爬虫框架就是一些爬虫项目的半成品.比如我们可以将一些常见爬虫功能的实现代码写好,然后留下一些接口,在做不同的爬虫项目时,我们只需要根据实际情况,只需要写少量需要 ...

  8. python官网学习爬虫资料_Python爬虫学习?

    1 爬虫是互联网上最常见的一种东西了吧. 爬虫这东西每天都在网上爬大量的信息,各大搜索引擎厂商每天都有上百万的爬虫在网络上活动,这些爬虫的作用就是给搜索引擎采集互联网上最新的内容,采集来的内容经过分类 ...

  9. python电影爬虫背景介绍_python爬虫-爬虫电影八佰词云

    #数据获取 importrequestsimportreimportcsvimportjiebaimportwordcloud#通过循环实现多页爬虫#观察页面链接规律#https://movie.do ...

最新文章

  1. python构建json_如何使用Python构建JSON API
  2. Lambda表达式关于like问题(未解决)
  3. 006_Spring Data JPA基于方法名称命名规则查询
  4. search Paths $(SRCROOT)和$(PROJECT_DIR)区别
  5. tdd java_Java TDD简介–第2部分
  6. jdbc操作演示 mysql
  7. 8月9日发布!华为EMUI 10将在华为开发者大会上登场
  8. 陈天桥:为何总是半夜惊醒?《前程密码》
  9. NHibernate版本不一致问题
  10. 海康摄像头使用网线连接电脑后无法访问摄像头ip
  11. 数据结构基础——城市链表
  12. 格雷码与二进制码的互换
  13. 微信小程序服装商城+后台管理系统
  14. 分布式动态路由的实现
  15. Win系统 - 如何添加新用户,怎么添加管理员帐户?
  16. 看我如何用Python来分析《斗破苍穹》
  17. 关系数据库范式及1NF、2NF、3NF和BCNF
  18. 绿能宝承载的不单是绿能宝的梦想
  19. Word2vec词向量工具带你发现不一样的《天龙八部》
  20. javascript 标记_如何使用JavaScript更改Google Maps标记的颜色

热门文章

  1. VMware16安装苹果OS及如何unlock(亲测有效)
  2. Vue实现前端3D展示及node环境搭建
  3. 免费AI数据标注工具-音频标注软件
  4. PDF转长图片怎么转?不妨试试这个方法
  5. 第 11 章 基于小波技术进行图像融合--MATLAB人工智能深度学习模块
  6. HTML标签-排版标签、媒体标签、列表标签、表格标签、表单标签、语义化标签、字符实体
  7. img标签图像cors跨域获取资源
  8. LVGL系列(四)概述 之 位置、尺寸和布局
  9. python boxplot的使用方法
  10. 极客星球 | 图像技术在上亿规模实拍图片中的应用