废话不多说直接上代码

今天要倒霉的网站是全国农业信息网

import requests
import pymysql
from bs4 import BeautifulSoup  # 用来解析网页
import uuid
import time
url = "http://www.agri.cn/V20/ZX/qgxxlb_1"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 ''Safari/537.36','Accept-Language': 'zh-CN,zh;q=0.8'
}
conn = pymysql.connect(host='127.0.0.1', user='root', passwd='123456', db='zhang', charset='utf8')
cur = conn.cursor()
print("连接成功")
j = 1
for i in range(0, 20):  # 爬取第一页到第3页的数据if i == 0:resp = requests.get("http://www.agri.cn/V20/ZX/qgxxlb_1/index.htm", headers=headers)else:resp = requests.get(f"http://www.agri.cn/V20/ZX/qgxxlb_1/index_{i}.htm", headers=headers)page_one = BeautifulSoup(resp.content, "html.parser")dd = page_one.find('td', class_='bk_7').find_all('td', class_='bj_3-2')for ss in dd:# 省份province = ss.find('a').text[0:3].strip('[')productId = str(uuid.uuid1())# urlsUrl = url + ss.find('a')['href'].strip('.')# 打开二级网页进行爬取rp = requests.get(sUrl, headers=headers)page_two = BeautifulSoup(rp.content, "html.parser")# 标题title = page_two.find('td', class_='hui_15_cu').text# 来源source = page_two.find('td', class_='hui_12-12').text.split('来源')[1][1:]# 时间timet = page_two.find('td', class_='hui_12-12').text[3:13]# 内容article = page_two.find('div', class_='TRS_Editor').find_all('p')content = ''for aa in article:content = content + aa.text.strip()# 分类n_type = ""if "食品安全" in content:n_type = "食品安全"elif "农业环境" in content:n_type = "农业环境"elif "农业病虫害" in content:n_type = "农业病虫害"elif "农业耕地浪费" in content:n_type = "农业耕地浪费"elif "农产品质量安全" in content:n_type = "农产品质量安全"else:n_type = ""sql = "insert into new_paper(id,n_source,n_title,n_timet,n_type,n_url,n_content,n_province) VALUES (%s,%s,%s,%s,%s,%s,%s,%s)"cur.execute(sql, (productId, source, title, timet, n_type, sUrl, content, province))print("SQL正在执行第{}页执行完毕".format(j))j = j + 1conn.commit()time.sleep(1)  # 防止服务器蹦了,间隔一秒钟
cur.close()
conn.close()

看效果

拿到数据,回家睡觉

中国农业信息网_爬取新闻详情(源码)_一蓑烟雨任平生相关推荐

  1. 惠农网_爬取二级网页内容(源码)_一蓑烟雨任平生

    废话不多说,直接上代码 今天倒霉的网站是惠农网供应大厅 import requests import pymysql from bs4 import BeautifulSoup # 用来解析网页 fr ...

  2. python爬虫爬取新闻标题及链接_网络爬虫百度新闻标题及链接爬取

    1.主题:百度新闻爬取 2. python代码: import requests from bs4 import BeautifulSoup def getHTMLText(url): try: r ...

  3. 基于Python,爬取豆瓣读书源码

    记得上次分享了一个抓取豆瓣妹子美女图片的脚本,今天给大家分享一个爬取豆瓣读书的源码,也算是做个记录吧,目前已经在学习编程的路上,以后要是想写什么爬虫也可以参考参考自己收藏的一些代码,嗯,虽然我还是个代 ...

  4. 拉勾网招聘数据爬取(公布源码)

    公众号爬取拉勾网招聘数据,本文只讲重点,因为爬任何一个网站,可能最重要的就是遇到反爬怎么办,也就是第一步能不能爬下来数据的问题,本文讲如何爬取拉勾招聘数据 环境及软件:Linux乌邦图.redis.m ...

  5. python-爬虫(最后附爬取数据的源码)

    爬虫初识 什么是爬虫? 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本.由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略. 只要能通过浏 ...

  6. Python request库爬取网页html源码

    #导入脚本库 from requests import *#定义公用函数获取数据,唯一参数为URL def getHTML(url):try:r=get(url) #模拟浏览器向网站发送http ge ...

  7. RocketMQ源码(十七)—Broker处理DefaultMQPushConsumer发起的拉取消息请求源码

    转载来源: RocketMQ源码(19)-Broker处理DefaultMQPushConsumer发起的拉取消息请求源码[一万字]_刘Java的博客-CSDN博客 此前我们学习了RocketMQ源码 ...

  8. python爬虫实战三:近十年中国电影票房数据爬取与分析

    近十年中国电影票房数据爬取与分析 前言 爬取 分析 十年top10 年度top5 每年电影数 每年总票房 二八原则 代码与数据 前言 这篇文章主要讲述的是近十年(2010-2019)中国电影票房数据的 ...

  9. 爬虫爬取新闻并生成词云

    爬取豆瓣应用的函数同样可以用来爬取新闻.这里面主要是正则表达式的提取和对爬出的链接再进行爬取解析.对网页不 import re # 正则 from bs4 import BeautifulSoup # ...

最新文章

  1. 梯度下降原理及Python实现
  2. collapse 聚合
  3. python基础知识点总结-Python基础知识总结
  4. Python基础入门:反射
  5. 子商城管理之签到活动
  6. Windows live writer插入代码图片Test
  7. 创建线程方式二 java 1615474026
  8. $limit、$skip、$unwind
  9. 第二阶段团队冲刺02
  10. redis实现周边景点由近到远排序
  11. 正确写理想的学术论文英文摘要
  12. java 200以内的素数_java200以内的素数每行每列7个代码怎么写?
  13. java 汇率换算_汇率换算自然语言理解功能JAVA DEMO
  14. A*算法理解(unity C#)
  15. python写spark的效率问题_“大数据架构”Spark 3.0发布,重大变化,性能提升18倍...
  16. Java实现标题相似度计算,文本内容相似度匹配,Java通过SimHash计算标题文本内容相似度
  17. 编码格式问题 错误:JSON parse error: Invalid UTF-8 middle byte 0x3f
  18. NFT游戏开发元宇宙游戏开发游戏源码+搭建
  19. python cx_oracle 取回数据后 LOB variable no longer valid after subsequent fetch
  20. Ag44团簇以及衍生团簇(银纳米团簇直径1-2nm)

热门文章

  1. SGI STL空间配置
  2. vue中实现json格式化的显示
  3. [zlib]_[初级]_[使用Zlib完整解压zip内容]
  4. PS中将一块区域更改为想要的颜色
  5. 批量提取文件名需要加@ECHO OFF才能成功
  6. 计算机的硬盘有几个区,电脑硬盘应该分几个区比较合适?
  7. MAC电脑修改Linux虚拟机的固定IP地址
  8. struts2的登录注册 验证码 邮箱验证_Python+tkinter模拟京东登录时拖动图片式验证码...
  9. HeadphoneearphoneHeadset介绍
  10. Adobe Photoshop CC 2018 下载