python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql

在编程中，我们如果想要把数据转入数据库中，首先会选择 MySQL数据库。因为MySQL数据库体积小、速度快、总体拥有成本低、开放源代码，其有着广泛的应用，例如我们使用python爬虫微博热搜，就可以使用selenium爬取微博热搜存入Mysql。本文介绍使用python爬虫将爬取微博热搜存入Mysql的过程。

一、爬取微博热搜存入Mysql思路

1、使用selenium对目标网页进行请求；

2、使用xpath对网页元素进行定位，遍历获得所有数据；

3、使用pandas生成一个Dataframe对像，直接存入数据库。

二、爬取微博热搜存入Mysql实现

1、获取微博热搜链接和标题内容all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a') #得到所有数据

context = [i.text for i in c] # 得到标题内容

links = [i.get_attribute('href') for i in c] # 得到link

2、使用zip函数，将date，context，links合并

zip函数是将几个列表合成一个列表，并且按index对分列表的数据合并成一个元组，这个可以生产pandas对象。dc = zip(dates, context, links)

pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

3、链接到数据库enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")

pdf.to_sql(name='infromation', con=enging, if_exists="append")

实现总代码from selenium.webdriver import Chrome, ChromeOptions

import time

from sqlalchemy import create_engine

import pandas as pd

def get_data():

url = r"https://s.weibo.com/top/summary" # 微博的地址

option = ChromeOptions()

option.add_argument('--headless')

option.add_argument("--no-sandbox")

browser = Chrome(options=option)

browser.get(url)

all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')

context = [i.text for i in all]

links = [i.get_attribute('href') for i in all]

date = time.strftime("%Y-%m-%d-%H_%M_%S", time.localtime())

dates = []

for i in range(len(context)):

dates.append(date)

# print(len(dates),len(context),dates,context)

dc = zip(dates, context, links)

pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

# pdf.to_sql(name=in, con=enging, if_exists="append")

return pdf

def w_mysql(pdf):

try:

enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")

pdf.to_sql(name='infromation', con=enging, if_exists="append")

except:

print('出错了')

if __name__ == '__main__':

xx = get_data()

w_mysql(xx)

以上就是python使用selenium爬取微博热搜存入Mysql的过程，希望能对你有所帮助哦~更多python爬虫学习推荐：python爬虫教程。

python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql相关推荐

python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现
这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...
monthy python爬虫_Python爬虫DOTA排行榜爬取实例(分享)
Python爬虫DOTA排行榜爬取实例(分享) 1.分析网站打开开发者工具,我们观察到排行榜的数据并没有在doc里 doc文档在Javascript里我么可以看到下面代码: ajax的post方法 ...
python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息
原标题:python爬虫框架scrapy爬取梅花网资讯信息一.介绍本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...
Python爬虫进阶之爬取篮球赛数据
相信很多人都喜欢打篮球, 并且对自己喜欢的球星的比赛数据都很关注,于是我就想着去爬取篮球网站的数据.但是相对来说爬取一个数据也没啥挑战性,于是我又赶着学习了xlsxwriter模块,将爬取的的数据放入 ...
python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
python爬取电影网站存储于数据库_python爬虫猫眼电影和电影天堂数据csv和mysql存储过程解析...
字符串常用方法 # 去掉左右空格 'hello world'.strip() # 'hello world' # 按指定字符切割 'hello world'.split(' ') # ['hello' ...
python爬虫可以爬什么山好_Python爬虫示例：爬取 13 个旅游城市，看看大家放假了都爱去哪玩...
距上次假期端午结束已经47天过去了...依然还是没有假期,想出去好多地方玩啊.你们是不是也在期待着假期呀,不过夏天也热,下次的假期大概就是中秋国庆了,那会儿还算是比较凉爽.心血来潮,就想爬一下大家假期 ...
python爬虫经典段子_Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python cookie池_Python爬虫scrapy框架Cookie池(微博Cookie池)的使用
下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址) 下载代码GitHub:https://github.com/Python3WebSpider/CookiesPool 下载 ...

python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql

python爬取微博热搜并存入表格_python爬虫进阶之爬取微博热搜存入Mysql相关推荐

最新文章

热门文章