我是Python小白,我会用比较通俗易懂的方法告诉你如何去爬取数据。

一开始,我们需要pycharm(也就是我们编代码的工具),其次我们需要打开我们需要爬取数据的网页,我以鞋子为例。

那么,接下来就开始吧

首先,我们打开某东,搜索鞋子。

随便点进去一个,找到他的评价

右击空白处,点检查,

出现以下界面时,我们点Network,

然后刷新我们找到的京东鞋子界面,就可以看到他出来很多东西,如下图所示

这时候,我们打开评论,随便找到一个评论,复制一下,然后找到有一个放大镜一样的东西那,点开,然后粘贴我们刚才复制的评论。

就可以看到这些东西

我们点开,发现右边Name里面有这些东西,我们直接复制这个URL。

好了,我们找到了关键的东西。那么接下来我们来编写代码

首先,第一行 是import requests

第二行就是resp=requests.get(‘URL’)[此处URL就是你自己找的]

第三行就是print(resp.text)。

其实拥有这三行代码就可以了,但是呢,我们是在pycharm中爬取的数据,京东只有在浏览器访问时才会允许我们,我们用pycharm访问时,不会给我们,

如下如所示

为了解决这个问题呢,我们可以让我们的python程序伪装成浏览器,我们需要添加一个东西,请求头,

首先,我们随便打开一个浏览器,右击空白部位,点击检查。

点进去后我们点击网络,然后刷新一下这个网页。

我们随便点开一项,看标头里面有一个User-Agent,我们直接复制。

然后我们再来补充一行代码

headers={‘User-Agent’:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36 Edg/94.0.992.50’}//此处这个是我找的,你们找的是什么就粘贴什么。

get函数里面最后加一个headers=headers。

-------------------------------------------------------------------------------------------

下面是代码模板

import requests
headers={'user-agent': '你自己找的user-agent'}
resp=requests.get('你自己想要爬取数据的网页URL',headers=headers)
print(resp.text)

----------------------------------------------------------------------------------------

下面是我找的一个(可以直接复制粘贴)

import requests
headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30'}
resp=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10335871588&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1',headers=headers)
print(resp.text)

结果就是这个,我随便截了一小部分。

总结起来,只有三点,第一点,写好代码模型,第二点,找到URL,第三点,找到User-agent。

最后,给初学者一个用python创建.txt文档的代码

fp=open('D:/yyds.txt','a+')
print('helloworld',file=fp)
fp.close()

Python爬虫爬取数据相关推荐

  1. Python爬虫---爬取数据(上)

    又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用. ...

  2. 如何用六步教会你使用python爬虫爬取数据

    前言: 用python的爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂.以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了. python爬出六部曲 第一步:安装req ...

  3. 采用python爬虫爬取数据然后采用echarts数据可视化分析

    前言:采用python爬虫爬取天气数据然后采用echarts数据可视化画图分析未来天气变化趋势 从获取数据到可视化的流程 (熟悉爬虫爬取数据然后数据可视化这个过程) 一.python爬取未来8-15天 ...

  4. 爬虫python的爬取步骤-Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  5. Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  6. python爬虫步骤-Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  7. python爬虫爬取数据遇到的问题

    自学爬虫中遇到的一点问题和部分解决方法 本人大一新手,学python两个月,目前都是在网上找爬虫教学尝试自学(最初的目的是爬美女图片) 最开始接触爬虫的时候是一个前辈给我的代码和一个api的网站聚合数 ...

  8. python爬虫爬取数据如何将br去掉_Python怎么去除爬取下来的网站中的一些转义字符串 - 收获啦...

    基本方法 其实用python爬取网页很简单,只有简单的几句话 这样就可以获得到页面的内容.接下来再用正则匹配去匹配所需要的内容就行了.但是,真正要做起来,就会有各种各样的细节问题. 2.登录 这是一个 ...

  9. Python爬虫爬取数据到sqlite数据库实例

    萌新:使用xpath和正则表达式解析网页内容 代码如下: import sqlite3 import re import requests from lxml import htmlfindlink ...

最新文章

  1. 域服务器 ssl证书,服务器添加ssl证书及域名绑定
  2. Nginx主配置文件nginx.conf详细说明
  3. python 函数的参数
  4. IndiaHacks 2016 - Online Edition (Div. 1 + Div. 2) A. Bear and Three Balls 水题
  5. Spring学习笔记(三) AOP_annotation,AOP_XML
  6. 光纤传感器实验模块_准分布式光纤光栅传感器(光纤光栅串)的概念
  7. C#的static,interface,virtual,abstract,override的区别用法
  8. 计算机网络-基本概念(11)【应用层】
  9. java解析vue对象数组,Java数组
  10. ashx获取input file 文件_前端战五渣学前端——FileReader预览本地文件
  11. 导体、良导体、超导体与半导体
  12. 玩转Metasploit系列(第二集)
  13. sql server 2005_全文目录
  14. 【过关斩将】如何制作高水平简历-原则篇
  15. 没有U盘怎么重装系统 无U盘重装系统教程
  16. 如何看到并删除电脑的操作记录
  17. 坐标系的旋转与欧拉角
  18. 关闭惠普计算机通电启动注册表,惠普电脑关机后自动重启的解决办法
  19. Caused by: java.lang.Error: Unresolved compilation problems:解决办法
  20. Android10无法访问根目录文件解决

热门文章

  1. springboot 定时任务动态启动和停止
  2. 配置druid监控页面
  3. ng4中npm start和ng serve--open
  4. 一个二本学生是如何拿到百度、网易大厂offer的!
  5. 第一梯队!腾讯安全天御入选亚太地区欺诈管理代表性厂商
  6. android课程设计 备忘录
  7. 大数据课程A1——云主机概况和使用
  8. 使用talnet [ip] [port] 命令,在命令窗口下,让输入的字符回显。
  9. xvfb与x11vnc
  10. net-java-php-python-俚语管理系统计算机毕业设计程序