# 二级爬取58交友的名字、年龄、身高、学历、图片信息,并把这些信息保存到数据库中

# 首先要在当前目录下建立一个58文件夹,然后通过Navicat连接到数据库

# mydb.py

import pymysqlclass Mydb:def __init__(self):try:self.conn = pymysql.connect('127.0.0.1','root','123456','han',charset='utf8')self.cursor = self.conn.cursor()except Exception as e:print(e)def execute(self,sql,data):try:row = self.cursor.execute(sql,data)self.conn.commit()return row # 返回影响行数except Exception as e:print('执行增删改失败')print(e)self.conn.rollback()if __name__ == '__main__':mydb = Mydb()sql = 'insert into py07_58friend(`name`,`age`,`height`,`edu`,`img`) VALUES(%s,%s,%s,%s,%s)'data = ("大美",16,170,'博士','')row = mydb.execute(sql,data)print(row)

# 58friend.py

from bs4 import BeautifulSoup
import requests
import time
from urllib import request
from mydb import Mydbdef get_friend():base_url = 'http://jiaoyou.58.com/bj/mm/18-20/'while True:response = requests.get(base_url)html = response.texthtml = BeautifulSoup(html,'lxml')friend_list = html.select('dl.fj_list')for friend in friend_list:name = friend.select('b')[0].textage_height = friend.select('span')[1].textage_height = age_height.split('|')age = age_height[0].strip('岁')height = age_height[1].strip('cm')edu = friend.select('span')[2].textedu = edu.split('|')[0]img = friend.select('img')[0]['src']fname = img.split('/')[-1]a = request.urlretrieve(img,'./58/' + fname)sql = 'insert into py07_58friend(`name`,`age`,`height`,`edu`,`img`) VALUES(%s,%s,%s,%s,%s)'data = (name ,age, height, edu, img)row = mydb.execute(sql,data)print(name)# 提取下一页链接next_page = html.select('a#nextPage')[0]['href']base_url = 'http://jiaoyou.58.com' + next_pagetime.sleep(1)if __name__ == '__main__':mydb = Mydb()get_friend()

# 爬取部分结果如下:

C:\Users\cz\AppData\Local\Programs\Python\Python35\python.exe E:/Python/python爬虫/11.py
鸿燕
我不要拥抱
嗯嗯
fei
周晨
王诗诗
丽丽
男人的福利
世界太假
毛毛
阿英
跳舞女
公主病 *
田灵儿
依楠
相遇是缘
寂寞空虚冷
香水百合
单恋高校Process finished with exit code 1

兄弟连学python

Python学习交流、资源共享群:563626388 QQ

(65)-- 爬取58交友信息相关推荐

  1. python爬虫爬取58同城租房信息(使用动态IP)输出Excel文件

    python爬虫爬取58同城信息(使用动态IP) 新手,为了做一个数据分析,搞了几天,终于搞出来了,大家可以给点意见啊. # coding=utf-8 import sys import csv im ...

  2. (64)-- 爬取58同城网页信息

    # 爬取58同城租房信息 from lxml import etree import requestsbase_url = 'http://bj.58.com/chuzu/?utm_source=ma ...

  3. python爬取58同城的兼职信息

    标题python爬取58同城的兼职信息 刚刚开始学习爬虫,一些 自己研究的小东西,爬取58同城上面的兼职信息放入Excel表格里,具体代码解释在代码里给出注释,下面给出完整代码: #首先是导包 imp ...

  4. python爬取58上的招聘信息

    爬虫学习记录 获取58同城上的招聘信息 爬虫的意义 我们编写爬虫就是把网页中的关键信息爬取下来,然后做分析,现在是数据时代,所以数据是很重要的资源.爬虫可以帮助我们获取这些资源. 本文的目的 现在的爬 ...

  5. python:爬取58同城全部二手商品信息(转转网)

    python_58ershou python+beautifulsoup多线程爬取58同城二手全部商品信息,并在jupyter上将数据可视化 项目主程序在58_index中: 建立mango数据库表 ...

  6. 多线程爬取58同城二手车信息

    多线程爬取58同城二手车信息 目录 多线程的介绍 数据的爬取 数据的解析 多线程 简介:线程是轻量级的进程,是程序执行流的最小单元,它不拥有系统的资源,运行占用独立的资源且资源小,且多个线程共享一个单 ...

  7. python爬虫遇到验证码的处理方法(以爬取中国执行信息公开网为例)

    朋友们大家好,python爬虫是在学习python时比较容易上手的学习方式,爬虫的思路简要以下几点: 1.获取需要爬取页面的网址,并且对网页内容进行分析.(主要就源代码讨论,如果我们需要的内容没有在源 ...

  8. python爬虫爬商品库存_python爬虫实践——爬取京东商品信息

    1 ''' 2 爬取京东商品信息:3 请求url:4 https://www.jd.com/5 提取商品信息:6 1.商品详情页7 2.商品名称8 3.商品价格9 4.评价人数10 5.商品商家11 ...

  9. Python爬虫实战之一 - 基于Requests爬取拉勾网招聘信息,并保存至本地csv文件

    Python爬虫实战之二 - 基于Requests抓取拉勾网招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于小白,本 ...

最新文章

  1. 【加密U盾】在LINX操作系统中部署KD电子钥匙
  2. 最大似然函数对数求解的便利
  3. php校园开源,基于 Laravel 5.5 开发的开源校园管理系统 —— Unifiedtransform
  4. 宏定义和Typedef区别?
  5. 2018年7月5日笔记
  6. python时间函数详解_Python:Numpy库基础分析——详解datetime类型的处理
  7. Oracle %rowtype的用法
  8. 《红色警戒3》新单位详细介绍:忍者
  9. 【176天】黑马程序员27天视频学习笔记【Day11-上】
  10. 玩转SpringBoot 2.x 之搭建 Actuator 和 SpringBoot Admin监控篇
  11. The method getJspApplicationContext(ServletContext) is undefined for the type JspFactory的解决方法...
  12. UIPageControl 分页
  13. 纲要-Java网络爬虫系统性学习与实战(1)
  14. matlab 图例 显示几个,matlab图例拆分成两个多个分别显示
  15. 简述MFC程序生与死
  16. Breast Cancer Wisconsin (Diagnostic) Data Set
  17. java 微博sdk_使用微博SDK工具weibo4j进行java微博自动回复
  18. exchange发信流程
  19. 数学运算 - 心算加减法
  20. Elasticsearch:Ingest Pipeline 实践

热门文章

  1. JavaFX日期选择器
  2. networkx整理
  3. 一年省下1000亿? 原来零售玩的是闷声发大财
  4. RSA实现对文件的加密解密
  5. Labview中运行时按钮不自动复位
  6. 持续集成(CI)系统
  7. ExtJs6 修改store里面数据grid单元格左上角会有红点标签的去掉方法
  8. Filter的过滤器链
  9. 风雨成长路——2015上半年年总
  10. uestudio 14 注册机 绿色免费版