爬取周公解梦数据(一)
爬取周公解梦主页数据
1.查看周公解梦网站html
2.代码解析
url = 'https://www.zgjm.net/b/jiemeng/'headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}# json_data = requests.get(url, params=form_data, headers=headers).json()json_data = requests.get(url)html=json_data.contenthtml_doc = str(html,'utf-8')soup = BeautifulSoup(html_doc,"lxml")urllist = soup.find_all(class_='postitemjm') #获取类为 postitemjm 的标签print(urllist)
运行结果:
3.剩下的就是循环取li标签的href,爬取子页面数据结合数据库保存这些数据
def add_data(type_name,param,key_name):url = 'https://www.zgjm.net'+paramheaders = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}try:json_data = requests.get(url)html=json_data.content# print(html)html_doc = str(html,'utf-8')soup = BeautifulSoup(html_doc,"lxml")content = soup.find(class_='article-content')title = soup.find(class_='article-title')cur.execute("insert into dream(type,key_name,title,content) VALUES ('"+type_name+"','"+key_name+"','"+str(title.string)+"','"+str(content.text)+"')")except UnicodeDecodeError as err:print(key_name,"Unicodeerror")pass
if __name__ == '__main__':conn = pymysql.connect(host=ip,port=port,user='root',passwd='',db='',charset='utf8mb4')# print(conn)cur = conn.cursor()#down_meng()add_data('人物','/b/124/','下雪')cur.close()conn.close()
4.最后贴上数据库表结构及所有代码
数据截图:
最后是所有代码:
import json
import requests
import time
from bs4 import BeautifulSoup
import pymysql
def add_data(type_name,param,key_name):url = 'https://www.zgjm.net'+paramheaders = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}# json_data = requests.get(url, params=form_data, headers=headers).json()try:json_data = requests.get(url)html=json_data.content# print(html)html_doc = str(html,'utf-8')soup = BeautifulSoup(html_doc,"lxml")content = soup.find(class_='article-content')title = soup.find(class_='article-title')cur.execute("insert into dream(type,key_name,title,content) VALUES ('"+type_name+"','"+key_name+"','"+str(title.string)+"','"+str(content.text)+"')")except UnicodeDecodeError as err:print(key_name,"Unicodeerror")passdef down_meng():url = 'https://www.zgjm.net/b/jiemeng/'headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}# json_data = requests.get(url, params=form_data, headers=headers).json()json_data = requests.get(url)html=json_data.contenthtml_doc = str(html,'utf-8')soup = BeautifulSoup(html_doc,"lxml")urllist = soup.find_all(class_='postitemjm')# print(urllist)arr = {0:"人物",1:"动物",2:"植物",3:"物品",4:"活动",5:"情感",6:"生活",7:"鬼神",8:"自然",9:"建筑",10:"其他"}i = 0for url_list in urllist:li_list = url_list.find_all('li')for lilist in li_list:print(lilist.a.string,"完成")add_data(arr[i],lilist.a['href'],lilist.a.string)i = i+1conn.commit()time.sleep(3)if __name__ == '__main__':conn = pymysql.connect(host=ip,port=port,user='root',passwd='',db=db,charset='utf8mb4')# print(conn)cur = conn.cursor()down_meng()# add_data('人物','/b/124/','下雪')cur.close()conn.close()
爬取周公解梦数据(一)相关推荐
- 爬取周公解梦数据(二)
爬取周公解梦更多数据 具体解析参考爬取周公解梦数据(一) 效果 贴所有代码 import json import requests import time from bs4 import Beauti ...
- database2sharp mysql_C# NetCore使用AngleSharp爬取周公解梦数据 MySql数据库的自动创建和页面数据抓取...
这一章详细讲解编码过程 那么接下来就是码代码了,GO 新建NetCore WebApi项目 空的就可以 NuGet安装 Install-Package AngleSharp 或者界面安装 using. ...
- 获得周公解梦数据接口java_基于JAVA的免费周公解梦接口调用代码实例
代码描述:基于JAVA的免费周公解梦接口调用代码实例 接口地址:http://www.juhe.cn/docs/api/id/64 1.[代码][Java]代码 import java.io.Buff ...
- 周公解梦数据库(完整版:含9000多条数据)
周公解梦数据库(完整版:含9000多条数据) 数据表中有详细的 分类,详情,以及索引标识首字母等,非常详细了! 下载地址:链接:https://pan.baidu.com/s/1_6r7FnBjZqK ...
- 树莓派安装python3.5_梦见树_周公解梦梦到树是什么意思_做梦梦见树好不好_周公解梦官网...
梦见树是什么意思?做梦梦见树好不好?梦见树有现实的影响和反应,也有梦者的主观想象,请看下面由(周公解梦官网www.zgjm.org)小编帮你整理的梦见树的详细解说吧. 树主健康,树笔直挺拔,象征着人的 ...
- Python爬取京东商品评论数据
一.前言 本文将承接笔者的上篇文章Python爬取京东商品数据,使用京东商品唯一id字段"sku"拼接url,得到真实的京东商品评论网址,进而解释数据并保存到文件中,所爬取到的数据 ...
- 【Python爬虫】用Python爬取娱乐圈排行榜数据
想关注你的爱豆最近在娱乐圈发展的怎么样吗?本文和你一起爬取娱乐圈的排行榜数据,来看看你的爱豆现在排名变化情况,有几次登顶,几次进了前十名呀. PS:在下一篇文章中分析排行榜的动态变化趋势,并绘制成 ...
- java 周易解梦接口_周公解梦-免费API,收集所有免费的API
/** * Created by PhpStorm. * User: FZS * Time: 2019/3/15 17:50 */ //-------------------------------- ...
- seleminue + requests 实现爬取若依框架数据
摘要:本文介绍了用seleminue + requests 实现爬取若依框架数据,重点是用seleminue驱动浏览器登录远程站点,然后用request实现快速爬取数据. 第1部分:seleminue ...
最新文章
- AndroidStudio权威教程 AS添加第三方库的6种方式(Jar module so等)
- Silverlight教程第四部分:使用 Style 元素更好地封装观感 (木野狐译)
- uni app 调用网络打印机_前端工程师 | 原生小程序坑点:uni-app到底好用在哪里?...
- 1.13 抽象类和接口的区别
- css深入理解之overflow
- iOS之CocoaPods二进制化的实现方案
- python僵尸进程和孤儿进程_python中多进程应用及僵尸进程、孤儿进程
- java中的printnb_javaI/O系统笔记
- 计算机完成了加法操作执行的是,cpu是通过运算器中的什么来完成加法运算的
- Python极其简易音乐播放器
- TRANSACTIONAL TEXT INDEX全文索引可能消耗大量PGA内存
- 如何在Spring框架中使用RMI技术
- batch norm参数
- mysql菜鸟手迹1--安装及目录介绍
- 金融区块链底层平台FISCO BCOS白皮书
- rpcbind.service启动失败
- 内网远程控制安卓设备软件推荐
- svga文件预览_Shu文件预览
- MUI框架默认全局不可复制
- 树莓派USB摄像头使用
热门文章
- 强制删除pod报:Immediate deletion does not wait for confirmation that the running resource...
- python画图绘制紫荆花_怎么用CAD绘制紫荆花平面图?
- Win7 IE浏览器不见了的解决方法--win10专业版
- flex布局、圣杯布局以及双飞翼布局
- 关于优惠券中经济学与心理学
- 学3D建模的快速方法【快捷键】
- ubuntu换源(更换国内清华源)
- 三维物体AABB碰撞检测算法
- Linux系统gtx2080显卡,Ubuntu16.04+GTX 2080 Ti显卡配置
- 2022款惠普战99和联想拯救者R9000K 区别 哪个好详细性能配置对比