python爬取微博热搜写入数据库_python实现爬取微博热搜存入Mysql
python爬取微博热搜存入Mysql最终的效果
使用的库
目标分析
一:得到数据
二:链接数据库
总代码
最终的效果
废话不多少,直接上图
这里可以清楚的看到,数据库里包含了日期,内容,和网站link
下面我们来分析怎么实现
使用的库import requests
from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd
目标分析
这是微博热搜的link:点我可以到目标网页
首先我们使用selenium对目标网页进行请求
然后我们使用xpath对网页元素进行定位,遍历获得所有数据
然后使用pandas生成一个Dataframe对像,直接存入数据库
一:得到数据
我们看到,使用xpath可以得到51条数据,这就是各热搜,从中我们可以拿到链接和标题内容all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a') #得到所有数据
context = [i.text for i in c] # 得到标题内容
links = [i.get_attribute('href') for i in c] # 得到link
然后我们再使用zip函数,将date,context,links合并
zip函数是将几个列表合成一个列表,并且按index对分列表的数据合并成一个元组,这个可以生产pandas对象。dc = zip(dates, context, links)
pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])
其中date可以使用time模块获得
二:链接数据库
这个很容易enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
pdf.to_sql(name='infromation', con=enging, if_exists="append")
总代码from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd
def get_data():
url = r"https://s.weibo.com/top/summary" # 微博的地址
option = ChromeOptions()
option.add_argument('--headless')
option.add_argument("--no-sandbox")
browser = Chrome(options=option)
browser.get(url)
all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')
context = [i.text for i in all]
links = [i.get_attribute('href') for i in all]
date = time.strftime("%Y-%m-%d-%H_%M_%S", time.localtime())
dates = []
for i in range(len(context)):
dates.append(date)
# print(len(dates),len(context),dates,context)
dc = zip(dates, context, links)
pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])
# pdf.to_sql(name=in, con=enging, if_exists="append")
return pdf
def w_mysql(pdf):
try:
enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
pdf.to_sql(name='infromation', con=enging, if_exists="append")
except:
print('出错了')
if __name__ == '__main__':
xx = get_data()
w_mysql(xx)
希望能够帮到大家一点,大家一起共同进步,共同成长!
祝大家新年快乐!!!相关免费学习推荐:python教程(视频)
python爬取微博热搜写入数据库_python实现爬取微博热搜存入Mysql相关推荐
- python爬取微博热搜写入数据库_python爬虫爬取微博热搜
[实例简介] [实例截图] [核心代码] import requests #数据抓取库 from lxml import etree #数据解析库 imp ...
- 使用Go爬豆瓣电影Top250 并写入数据库
这几天看了go语言,练习一下写法,结合项目会比较有趣,碰到的问题也会比较多. Go爬虫 参考网站 [go语言爬虫]go语言爬取豆瓣电影top250 使用Go爬豆瓣电影Top250 并写入数据库 ### ...
- Python之requests+xpath爬取猫眼电影并写入数据库(图文教程)
文章目录 一.pyhton连接mysql数据库 二.用xpath抓取有用信息 说几个比较容易掉坑的地方 一 二 三 效果 一.pyhton连接mysql数据库 我是写了一个py文件来封装一下,然后在爬 ...
- python爬取电影网站存储于数据库_python爬虫 猫眼电影和电影天堂数据csv和mysql存储过程解析...
字符串常用方法 # 去掉左右空格 'hello world'.strip() # 'hello world' # 按指定字符切割 'hello world'.split(' ') # ['hello' ...
- python 写入数据库_python 写入数据库
Python学习(22)--文件操作1 Python学习(22)--文件操作1 之前我们介绍到的数据类型,如列表,字典或者一个数字,字符等等.都是在程序运行时存储在内存中的,存储在内存中的数据不稳定, ...
- python爬虫写入数据库_Python爬虫数据写入操作
Python Scrapy爬虫数据写入操作 在我们写完一个爬虫项目,得到了一大堆的数据,为了以后的分析和使用,我们需要把我们得到的数据进行保存.保存数据的方式主要有:保存到数据库,保存到CSV文件,保 ...
- python读取excel写入数据库_python实现读取excel写入mysql的小工具详解
Python是数据分析的强大利器 利用Python做数据分析,第一步就是学习如何读取日常工作中产生各种excel报表并存入数据中,方便后续数据处理. 这里向大家分享python如何读取excel,并使 ...
- python写入数据库_Python pymysql写入数据库报错
我在用Python pymysql写入数据库时一直报错: pymysql.err.InternalError: (1366, u"Incorrect decimal value: 'xa0' ...
- python将数据存入mysql数据库中_python3 两种方法将数据存入mysql数据库
方法一:(数据量小的时候推荐使用这种) 第一步:pip install mysqlclient 这里我没有报错 也许你可能会报错Read timed out 此时不要慌,这是因为你的网络问题,你使 ...
最新文章
- 【HDU】1284 钱币兑换问题 (想一想)
- 百度关键词研究: 应避免的5个错误!
- 阅读笔记: 凸包的例子(一)
- Spring-AOP 切点/切面类型和创建切面
- Javascript学习笔记12——Ajax入门
- Unity3D——C#编译到运行的过程分析
- Codeforces Round #646 (Div. 2) E(贪心,bfs)
- java encode 空格_javaWeb中URLEncoder.encode空格问题
- 微信小程序基于swiper组件的tab切换
- jQuery学习(十)—替换方法
- Hbuilder 移动app
- spdlog: undefined reference to `fmt::SystemError::init(int, fmt::BasicCStringRef<char>, fmt::ArgList
- Android学习视频精品课程汇总(持续更新)
- Android上Excel编辑器,Excel表格编辑器下载-Excel表格编辑器appv1.1.02 最新版-腾牛安卓网...
- php fpm 504,php为什么会出现504错误
- 国外android逆向的论坛,初探android逆向
- 用python定时发送邮件
- OpenGL法线贴图
- 我们小时候可没这么牛的露天电影
- 在 HTML 中使用 ARIA 的规则
热门文章
- 【翻译】用 安全即代码 保护你的GitOps流程
- Android仿京东、淘宝商品详情页上拉查看更多详情
- 短视频头部效应加剧,秒拍整军三月强势归来
- 数禾科技:科技加持,让普惠“信用”服务触手可及
- 麦克斯韦方程的积分形式及应用、麦克斯韦方程组的微分形式及应用
- Adaptive Clustering-based Malicious TrafficClassification at the Network Edge论文阅读笔记
- [Python] 小明又迟到了……一个故事讲清楚 Python 循环嵌套
- CC1120 Sub-1G 无线射频收发器 驱动开发
- 准时制生产方式(Just In Time简称JIT)
- 五年数字大屏之路,“述说”着我们大数据变现怎样的故事?(附演示视频)...