python爬虫代码示例的方法:首先获取浏览器信息,并使用urlencode生成post数据;然后安装pymysql,并存储数据到MySQL即可。

python爬虫代码示例的方法:

1、urllib和BeautifuSoup

获取浏览器信息from urllib import request

req = request.urlopen("http://www.baidu.com")

print(req.read().decode("utf-8"))

模拟真实浏览器:携带user-Agent头

(目的是不让服务器认为是爬虫,若不带此浏览器信息,则可能会报错)req = request.Request(url) #此处url为某个网址

req.add_header(key,value) #key即user-Agent,value即浏览器的版本信息

resp = request.urlopen(req)

print(resp.read().decode("utf-8"))相关学习推荐:python视频教程

使用POST

导入urllib库下面的parsefrom urllib import parse

使用urlencode生成post数据postData = parse.urlencode([

(key1,val1),

(key2,val2),

(keyn,valn)

])

使用postrequest.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求

resp.status #得到请求状态

resp.reason #得到服务器的类型

完整代码示例(以爬取维基百科首页链接为例)#-*- coding:utf-8 -*-

from bs4 import BeautifulSoup as bs

from urllib.request import urlopen

import re

import ssl

#获取维基百科词条信息

ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证

#请求URL,并把结果用utf-8编码

req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8")

#使用beautifulsoup去解析

soup = bs(req,"html.parser")

# print(soup)

#获取所有href属性以“/wiki/Special”开头的a标签

urllist = soup.findAll("a",href=re.compile("^/wiki/Special"))

for url in urllist:

#去除以.jpg或.JPG结尾的链接

if not re.search("\.(jpg|JPG)$",url["href"]):

#get_test()输出标签下的所有内容,包括子标签的内容;

#string只输出一个内容,若该标签有子标签则输出“none

print(url.get_text()+"----->"+url["href"])

# print(url)

2、存储数据到MySQL

安装pymysql

通过pip安装:$ pip install pymysql

或者通过安装文件:$ python setup.py install

使用#引入开发包

import pymysql.cursors

#获取数据库链接

connection = pymysql.connect(host="localhost",

user = 'root',

password = '123456',

db ='wikiurl',

charset = 'utf8mb4')

try:

#获取会话指针

with connection.cursor() as cursor

#创建sql语句

sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)"

#执行SQL语句

cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"]))

#提交

connection.commit()

finally:

#关闭

connection.close()

3、爬虫注意事项

Robots协议(机器人协议,也称爬虫协议)全称是“网络爬虫排除协议”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。一般在主页面下,如https://en.wikipedia.org/robots.txtDisallow:不允许访问

allow:允许访问相关推荐:编程视频课程

python数据爬虫代码_python如何示例爬虫代码相关推荐

  1. c语言实现爬虫功能,用C/C 扩展Python语言_python 调用c语言 python实现简单爬虫功能_python实现简单爬虫...

    用C/C 扩展Python语言 Python是一门功能强大的脚本语言,它的强大不仅表现在功能上,还表现在其扩展性上.她提供大量的API以方便程序员利用C/C++对Python进行扩展.因为执行速度慢几 ...

  2. python编写爬虫代码_python编写简单爬虫资料汇总

    爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习 ...

  3. python爬虫意思_python为什么叫爬虫

    python为什么叫爬虫 作为一门编程语言而言,Python是纯粹的自由软件,以简洁清晰的语法和强制使用空白符进行语句缩进的特点从而深受程序员的喜爱.举一个例子:完成一个任务的话,c语言一共要写100 ...

  4. 最流行的python爬虫框架_Python最火爬虫框架Scrapy入门与实践

    Scrapy框架简介Scrapy 是用 Python 实现的一个为了爬取网站数据.提取结构性数据而编写的应用框架. Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 通常我 ...

  5. python数据分析与爬虫区别_Python数据分析和爬虫的书分享

    上次更新竟然还是25天前,说实话真的很佩服那些日更公众号/专栏的人了,写一篇几乎能要了我半天的命,懒到废. 最近一直在学爬虫,头疼... 我的转行目标是数据分析师/写爬虫的/数据产品经理/数据运营,目 ...

  6. python 百度文库 签到_Python百度文库爬虫终极版

    百度文库爬虫 我们在开始爬虫之前,首先要了解网页的信息和结构,然后获取请求的url和参数(payloads)来得到所要的数据并处理.接下来我们根据: 一.网页分析 二.爬虫编写 三.运行与结果 四.程 ...

  7. 与python相关的爬虫工具_python小课堂|爬虫工程师必备的10个python爬虫工具!

    [摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有越来越多的python学习者关注py ...

  8. python中config命令_Python config.config方法代码示例

    本文整理汇总了Python中config.config方法的典型用法代码示例.如果您正苦于以下问题:Python config.config方法的具体用法?Python config.config怎么 ...

  9. python连接redis哨兵_Python redis.sentinel方法代码示例

    本文整理汇总了Python中redis.sentinel方法的典型用法代码示例.如果您正苦于以下问题:Python redis.sentinel方法的具体用法?Python redis.sentine ...

  10. python程序异常实例_Python werkzeug.exceptions方法代码示例

    本文整理汇总了Python中werkzeug.exceptions方法的典型用法代码示例.如果您正苦于以下问题:Python werkzeug.exceptions方法的具体用法?Python wer ...

最新文章

  1. 独家 | 带你认识机器学习的的本质(附资料)
  2. 理解C#值类型与引用类型(收藏)
  3. python现在好找工作吗-学完Python好找工作吗?为什么有人学完找不到工作?
  4. Caffe官方教程翻译(8):Brewing Logistic Regression then Going Deeper
  5. Linux系统TCP内核参数优化总结
  6. tcp与ip协议的区别
  7. C++ class实现二叉树(完整代码,附非递归遍历)
  8. P4562-[JXOI2018]游戏【数论,组合数学】
  9. 简单说下我对H5的新增的标签和css3的新增属性
  10. LINQ to SQL 系列 如何使用LINQ to SQL插入、修改、删除数据
  11. IOS 打包后安装崩溃,debug正常运行
  12. js 中二叉树的深度遍历与广度遍历(递归实现与非递归实现)
  13. atmega128 单片机 玩具电子琴 蜂鸣器 电子琴
  14. UVM-1.1学习(一)——uvm代码的分类
  15. worldpress自定义页面
  16. Delphi好书推荐
  17. 辣椒疫霉RXLR效应子抑制植物免疫
  18. 图纸打印什么时候用蓝图_cad图如何打印成施工蓝图
  19. 链塔智库|区块链产业要闻及动态周报(2021年8月第4周)
  20. pymssql连接sql server报错:pymssql._pymssql.OperationalError

热门文章

  1. 常用easyUI -icon 图标
  2. 蓝桥杯历年真题及答案汇总整理(Java、C语言、Python)
  3. Oracle书籍推荐
  4. 《程序员的自我修养---链接、装载与库》读书笔记(一)计算机组成原理与操作系统
  5. JAVA电子书大礼包
  6. Delphi7与Delphi2007
  7. 《Windows黑客编程技术》—— 学习历程
  8. 黑客编程学习_1.黑客编程入门
  9. 手撸一个基于Springboot+Vue的书籍论坛系统,可用于课程设计和毕业设计或者练手
  10. Top 10 tough core Java interview questions answers programming