爬取周公解梦主页数据

1.查看周公解梦网站html

2.代码解析

 url = 'https://www.zgjm.net/b/jiemeng/'headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}# json_data = requests.get(url, params=form_data, headers=headers).json()json_data = requests.get(url)html=json_data.contenthtml_doc = str(html,'utf-8')soup = BeautifulSoup(html_doc,"lxml")urllist = soup.find_all(class_='postitemjm') #获取类为 postitemjm 的标签print(urllist)

运行结果:

3.剩下的就是循环取li标签的href,爬取子页面数据结合数据库保存这些数据

def add_data(type_name,param,key_name):url = 'https://www.zgjm.net'+paramheaders = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}try:json_data = requests.get(url)html=json_data.content# print(html)html_doc = str(html,'utf-8')soup = BeautifulSoup(html_doc,"lxml")content = soup.find(class_='article-content')title = soup.find(class_='article-title')cur.execute("insert into dream(type,key_name,title,content) VALUES ('"+type_name+"','"+key_name+"','"+str(title.string)+"','"+str(content.text)+"')")except UnicodeDecodeError as err:print(key_name,"Unicodeerror")pass
if __name__ == '__main__':conn = pymysql.connect(host=ip,port=port,user='root',passwd='',db='',charset='utf8mb4')# print(conn)cur = conn.cursor()#down_meng()add_data('人物','/b/124/','下雪')cur.close()conn.close()

4.最后贴上数据库表结构及所有代码


数据截图:

最后是所有代码:

import json
import requests
import time
from bs4 import BeautifulSoup
import pymysql
def add_data(type_name,param,key_name):url = 'https://www.zgjm.net'+paramheaders = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}# json_data = requests.get(url, params=form_data, headers=headers).json()try:json_data = requests.get(url)html=json_data.content# print(html)html_doc = str(html,'utf-8')soup = BeautifulSoup(html_doc,"lxml")content = soup.find(class_='article-content')title = soup.find(class_='article-title')cur.execute("insert into dream(type,key_name,title,content) VALUES ('"+type_name+"','"+key_name+"','"+str(title.string)+"','"+str(content.text)+"')")except UnicodeDecodeError as err:print(key_name,"Unicodeerror")passdef down_meng():url = 'https://www.zgjm.net/b/jiemeng/'headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}# json_data = requests.get(url, params=form_data, headers=headers).json()json_data = requests.get(url)html=json_data.contenthtml_doc = str(html,'utf-8')soup = BeautifulSoup(html_doc,"lxml")urllist = soup.find_all(class_='postitemjm')# print(urllist)arr = {0:"人物",1:"动物",2:"植物",3:"物品",4:"活动",5:"情感",6:"生活",7:"鬼神",8:"自然",9:"建筑",10:"其他"}i = 0for url_list in urllist:li_list = url_list.find_all('li')for lilist in li_list:print(lilist.a.string,"完成")add_data(arr[i],lilist.a['href'],lilist.a.string)i = i+1conn.commit()time.sleep(3)if __name__ == '__main__':conn = pymysql.connect(host=ip,port=port,user='root',passwd='',db=db,charset='utf8mb4')# print(conn)cur = conn.cursor()down_meng()# add_data('人物','/b/124/','下雪')cur.close()conn.close()

爬取周公解梦数据(一)相关推荐

  1. 爬取周公解梦数据(二)

    爬取周公解梦更多数据 具体解析参考爬取周公解梦数据(一) 效果 贴所有代码 import json import requests import time from bs4 import Beauti ...

  2. database2sharp mysql_C# NetCore使用AngleSharp爬取周公解梦数据 MySql数据库的自动创建和页面数据抓取...

    这一章详细讲解编码过程 那么接下来就是码代码了,GO 新建NetCore WebApi项目 空的就可以 NuGet安装 Install-Package AngleSharp 或者界面安装 using. ...

  3. 获得周公解梦数据接口java_基于JAVA的免费周公解梦接口调用代码实例

    代码描述:基于JAVA的免费周公解梦接口调用代码实例 接口地址:http://www.juhe.cn/docs/api/id/64 1.[代码][Java]代码 import java.io.Buff ...

  4. 周公解梦数据库(完整版:含9000多条数据)

    周公解梦数据库(完整版:含9000多条数据) 数据表中有详细的 分类,详情,以及索引标识首字母等,非常详细了! 下载地址:链接:https://pan.baidu.com/s/1_6r7FnBjZqK ...

  5. 树莓派安装python3.5_梦见树_周公解梦梦到树是什么意思_做梦梦见树好不好_周公解梦官网...

    梦见树是什么意思?做梦梦见树好不好?梦见树有现实的影响和反应,也有梦者的主观想象,请看下面由(周公解梦官网www.zgjm.org)小编帮你整理的梦见树的详细解说吧. 树主健康,树笔直挺拔,象征着人的 ...

  6. Python爬取京东商品评论数据

    一.前言 本文将承接笔者的上篇文章Python爬取京东商品数据,使用京东商品唯一id字段"sku"拼接url,得到真实的京东商品评论网址,进而解释数据并保存到文件中,所爬取到的数据 ...

  7. 【Python爬虫】用Python爬取娱乐圈排行榜数据

      想关注你的爱豆最近在娱乐圈发展的怎么样吗?本文和你一起爬取娱乐圈的排行榜数据,来看看你的爱豆现在排名变化情况,有几次登顶,几次进了前十名呀. PS:在下一篇文章中分析排行榜的动态变化趋势,并绘制成 ...

  8. java 周易解梦接口_周公解梦-免费API,收集所有免费的API

    /** * Created by PhpStorm. * User: FZS * Time: 2019/3/15 17:50 */ //-------------------------------- ...

  9. seleminue + requests 实现爬取若依框架数据

    摘要:本文介绍了用seleminue + requests 实现爬取若依框架数据,重点是用seleminue驱动浏览器登录远程站点,然后用request实现快速爬取数据. 第1部分:seleminue ...

最新文章

  1. AndroidStudio权威教程 AS添加第三方库的6种方式(Jar module so等)
  2. Silverlight教程第四部分:使用 Style 元素更好地封装观感 (木野狐译)
  3. uni app 调用网络打印机_前端工程师 | 原生小程序坑点:uni-app到底好用在哪里?...
  4. 1.13 抽象类和接口的区别
  5. css深入理解之overflow
  6. iOS之CocoaPods二进制化的实现方案
  7. python僵尸进程和孤儿进程_python中多进程应用及僵尸进程、孤儿进程
  8. java中的printnb_javaI/O系统笔记
  9. 计算机完成了加法操作执行的是,cpu是通过运算器中的什么来完成加法运算的
  10. Python极其简易音乐播放器
  11. TRANSACTIONAL TEXT INDEX全文索引可能消耗大量PGA内存
  12. 如何在Spring框架中使用RMI技术
  13. batch norm参数
  14. mysql菜鸟手迹1--安装及目录介绍
  15. 金融区块链底层平台FISCO BCOS白皮书
  16. rpcbind.service启动失败
  17. 内网远程控制安卓设备软件推荐
  18. svga文件预览_Shu文件预览
  19. MUI框架默认全局不可复制
  20. 树莓派USB摄像头使用

热门文章

  1. 强制删除pod报:Immediate deletion does not wait for confirmation that the running resource...
  2. python画图绘制紫荆花_怎么用CAD绘制紫荆花平面图?
  3. Win7 IE浏览器不见了的解决方法--win10专业版
  4. flex布局、圣杯布局以及双飞翼布局
  5. 关于优惠券中经济学与心理学
  6. 学3D建模的快速方法【快捷键】
  7. ubuntu换源(更换国内清华源)
  8. 三维物体AABB碰撞检测算法
  9. Linux系统gtx2080显卡,Ubuntu16.04+GTX 2080 Ti显卡配置
  10. 2022款惠普战99和联想拯救者R9000K 区别 哪个好详细性能配置对比