python爬虫实战:爬取我的博客文章并将文章写入至我的Mysql数据库

  • Code
  • Result Picture
  • Crontab

Code

import requests
import re,time
import pymysqldef Get_csdn():global headersheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36"}url = "https://blog.csdn.net/yolo2016?type=blog"html = requests.get(url, headers=headers).text# print (html)result = re.findall('href="(https://blog.csdn.net/yolo2016/article/details/.*?)\".*?<h4.*?>(.*?)</h4>', html, re.S)return (result)def Mysql_handle(result):# 打开数据库连接db = pymysql.Connect(host='192.168.1.50',port=3306,user='root',passwd="root",db='test',charset="utf8")# 使用 cursor() 方法创建一个游标对象 cursorcursor = db.cursor()try:# 执行sql语句cursor.executemany("INSERT INTO csdn(url,title) VALUES (%s,%s)", result)# 提交到数据库执行db.commit()except Exception as e:# 如果发生错误则回滚print(e)db.rollback()finally:sql2 = 'select * from csdn'cursor.execute(sql2)results = cursor.fetchall()print(results)# 关闭数据库连接db.close()def Get_Articel(result):'''获取文章列表信息来get 文章的内容文章列表result内容  eg:   info=[('https://blog.csdn.net/yolo2016/article/details/115770342', '几个高质量的运维博客收藏'),('https://blog.csdn.net/yolo2016/article/details/115678745', '运维自动化所需要的技能?')]'''while True:count = 0art_counts = len(result)print('=============Article Number is %s ============'% art_counts)for art_url,art_name in result:print("====URL:%s ===============>> NAME:%s "%(art_url,art_name))html = requests.get(art_url, headers=headers).texttime.sleep(3)#print (html)count+=1print("#############第 %s 轮循环完毕##################"% (count))if __name__ == '__main__':result = Get_csdn()Mysql_handle(result)Get_Articel(result)

Result Picture


Crontab

[root@sysadmin data]# cat /etc/crontab
SHELL=/bin/bash
PATH=/sbin:/bin:/usr/sbin:/usr/bin
MAILTO=root# For details see man 4 crontabs# Example of job definition:
# .---------------- minute (0 - 59)
# |  .------------- hour (0 - 23)
# |  |  .---------- day of month (1 - 31)
# |  |  |  .------- month (1 - 12) OR jan,feb,mar,apr ...
# |  |  |  |  .---- day of week (0 - 6) (Sunday=0 or 7) OR sun,mon,tue,wed,thu,fri,sat
# |  |  |  |  |
# *  *  *  *  * user-name  command to be executed
* * * * * root /root/data/Check_Spider.sh >/dev/null 2>&1#!/bin/bashflg=`date '+%Y%m%d%H%M%S'`if [ ! -d /root/data/log ]; then mkdir /root/data/log
fiif  [ `ps -ef | grep Spider_CDSN.py |grep -v 'grep' |wc -l` == 0 ]; then/usr/bin/python3 /root/data/Spider_CDSN.py >/root/data/log/log$flg 2>&1
fi

python爬虫实战:爬取我的博客文章并将文章写入至我的Mysql数据库相关推荐

  1. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  2. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  3. python爬虫实战-爬取视频网站下载视频至本地(selenium)

    #python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...

  4. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  5. python爬虫实战--爬取猫眼专业版-实时票房

    小白级别的爬虫入门 最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前 我们先来看看猫眼专业版- ...

  6. python爬虫教程:基于python框架Scrapy爬取自己的博客内容过程详解

    前言 python中常用的写爬虫的库常有urllib2.requests,对于大多数比较简单的场景或者以学习为目的,可以用这两个库实现.这里有一篇我之前写过的用urllib2+BeautifulSou ...

  7. python爬虫实战-爬取小说

    今天做一个爬虫练手的小实战:爬取顶点小说网的小说,实现下载到本地(虽然网站上本来就可以下载,不过还是自己写代码来有成就感嘛!) 爬取网站 进入官网后,点击元尊,就爬取这本书了. 我们先把整个网页爬下来 ...

  8. 开发记录_自学Python写爬虫程序爬取csdn个人博客信息

    每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...

  9. Python爬虫实战——爬取RUNOOB.COM的Python3教程

    说明 关于Python开发环境搭建,可参考博主的另一篇博文-Visual Studio 2017搭配OpenCV之Python环境,省去其中的OpenCV配置及安装即可.另外,在做Python爬虫项目 ...

  10. Python爬虫实战- 爬取整个网站112G-8000本pdf epub格式电子书下载

    (整个代码附在最后) 目录: 爬虫准备 - 某电子书网站内容架构分析 爬虫前奏 - 网站Html代码分析,如何获取需要的链接? 爬虫高潮 - 测试是否有反爬虫措施,测试是否能正常下载一个sample ...

最新文章

  1. django orm级联_第 03 篇:创建 Django 博客的数据库模型
  2. 空的宏定义作用及常见用法
  3. go语言实现将word文件转成pdf_超实用的PDF在线转换器,你绝对用的到~
  4. Flink SQL 在字节跳动的优化与实践
  5. GatewayMetricsFilter网关度量过滤器(服务监控)
  6. 数据vs.算法,究竟谁更重要
  7. vba 正则表达式前后添加字符_不规则内容提取正则表达式
  8. python中反射(__import__和getattr使用)
  9. Hlg 1030 排序
  10. 独家对话 HybridOS 操作系统掌门人魏永明:“我们的目标是取代物联网中的安卓” | 人物志
  11. 戴上这个之后,你再也不是个凡人(doge)
  12. matlab不显示x,y,z轴
  13. Postgresql去掉某个字段多余的空格
  14. ant-design-vue 动态主题 css前缀变更
  15. 裸辞计算机考研,一位工作三年,裸辞,跨考,347学姐的考研经验 - 考研 - 小木虫 - 学术 科研 互动社区...
  16. 关于如何职业规划和选择换工作
  17. plot指定线段形状和颜色_形状和颜色背后的心理学
  18. 2019年培养工作室主力计划——第1次任务
  19. 一位优秀前端工程师的简历应该怎么写?
  20. 【Audio】Unity音频模块:加载、转换、剪切、混音、合并

热门文章

  1. 一张图看明白云计算数据中心总体分层架构
  2. 读书——我本将心向明月,奈何明月照沟渠。知我者谓我心忧,不知我者谓我何求。...
  3. 三年高级开发,六年成为架构师,到CTO我用了12年
  4. 古文觀止卷七_獲麟解_韓愈
  5. c语言 unpack函数,Pack/Unpack 总结
  6. python针对Excel表格的操作
  7. postgresql10中的pg_stat_statements
  8. 【全国第二批】供应链创新与应用示范企业和示范城市申报材料条件内容认定好处费用时间
  9. java+字节码工具64位_javassist:字节码编辑器工具
  10. leetcode499 迷宫III