哪个学校考研考python_python3爬取中国考研网考研学校名称和地区并进行数据清洗...

.*?

3.数据存储

保存到MySQL数据库

def insert_info(value):

db = pymysql.connect("localhost", "root", "root", "exercise")

cursor = db.cursor()

sql = "INSERT INTO exer(name,origin) VALUES (%s,%s)"

try:

cursor.execute(sql, value)

db.commit()

print('插入数据成功')

except:

db.rollback()

print("插入数据失败")

db.close()

二、数据清洗

1.检查数据

有重复数据

2.数据清洗

使用pandas进行数据清洗

(1)导入相关包

import pymysql

import pandas as pd

(2)从数据库拿出数据(查询)

def all_info():

#连接数据库(mysql，账户名，密码，数据库)

db = pymysql.connect("localhost", "root", "root", "exercise")

#创建游标

cursor = db.cursor()

#sql语句

sql='select * from exer'

try:

#执行sql语句

cursor.execute(sql)

results=cursor.fetchall()

# print(results)

return results

except:

print('error')

(3)构造DataFrame

results=all_info()

name=[]

locate=[]

for i in results:

name.append(i[1])

locate.append(i[2])

data={'name':name,'locate':locate}

df=pd.DataFrame(data)

(4)使用drop_duplicates去掉重复行

df1=df.drop_duplicates('name',keep='first',inplace=False)

(5)重新存入数据库

for i in range(len(df1)):

# print(df1.iloc[i])

insert(list(df1.iloc[i]))

三、源码

数据采集

import requests

from bs4 import BeautifulSoup

import re

import pymysql

def insert_info(value):

db = pymysql.connect("localhost", "root", "root", "exercise")

cursor = db.cursor()

sql = "INSERT INTO exer(name,origin) VALUES (%s,%s)"

try:

cursor.execute(sql, value)

db.commit()

print('插入数据成功')

except:

db.rollback()

print("插入数据失败")

db.close()

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"

}

#从首页拿到各地研究网的url

def geturl():

url='http://www.chinakaoyan.com/'

res=requests.get(url,headers=headers)

soup=BeautifulSoup(res.text,'html.parser')

data=soup.find_all('div',attrs={'class':'soso_area_box'})

data=str(data)

pattern=re.compile(r'(.*?)',re.S)

item=pattern.findall(data)

print(item)

return item

#拿到一个地区每个学校的学校名称

def getcityhtml(a_list):

url='http://www.chinakaoyan.com/'+a_list[0]

res=requests.get(url,headers=headers)

soup=BeautifulSoup(res.text,'html.parser')

data=soup.find_all('div',attrs={'class':'colu-info-body'})

data = str(data)

pattern = re.compile(r'

.*?

数据清洗

import pymysql

import pandas as pd

def all_info():

#连接数据库(mysql，账户名，密码，数据库)

db = pymysql.connect("localhost", "root", "root", "exercise")

#创建游标

cursor = db.cursor()

#sql语句

sql='select * from exer'

try:

#执行sql语句

cursor.execute(sql)

results=cursor.fetchall()

# print(results)

return results

except:

print('error')

def insert(value):

db = pymysql.connect("localhost", "root", "root", "exercise")

cursor = db.cursor()

sql = "INSERT INTO exer_info(name,origin) VALUES (%s,%s)"

try:

cursor.execute(sql, value)

db.commit()

print('插入数据成功')

except:

db.rollback()

print("插入数据失败")

db.close()

def school():

results=all_info()

name=[]

locate=[]

for i in results:

name.append(i[1])

locate.append(i[2])

data={'name':name,'locate':locate}

df=pd.DataFrame(data)

# print(df)

df1=df.drop_duplicates('name',keep='first',inplace=False) #按照name去除重复行

for i in range(len(df1)):

# print(df1.iloc[i])

insert(list(df1.iloc[i]))

school()

哪个学校考研考python_python3爬取中国考研网考研学校名称和地区并进行数据清洗...相关推荐

python爬取本地天气信息_用Python写一个爬取中国天气网的终端版天气预报爬虫
导语前几篇文章介绍了爬取静态网站的主要方法.今天写一个小项目实践一下.本项目可以在终端窗口查询全国3400多个区县的当日天气信息和近七天天气信息. 实现效果 [Python爬虫]写一个爬取中国天气网 ...
python爬取中国天气网中国全部城市的天气链接
近期自己尝试用python写一个qqbot实现天气查询功能,现已基本实现已经基本完成爬取中国天气网的所有城市的天气情况链接下附中国天气网所有城市的名称及对应链接 {'朝阳': 'http://ww ...
Python-Selenium Webdriver+google chrome浏览器爬取中国知网的文献概述
Python-Selenium Webdriver+google chrome浏览器爬取中国知网的文献概述目录 Python-Selenium Webdriver+google chrome浏览器爬 ...
Python爬取中国知网文献、参考文献、引证文献
转载自博客园文章作为学习资料,代码及相关介绍非常详细.原文链接见Python爬取中国知网文献.参考文献.引证文献
R语言rvest包3步爬取中国天气网国内所有城市(县)7天实时天气预报数据
接上一篇用R语言爬取中国天气网单个城市的7天实时天气预报数据,这篇文章综合一下,使用R语言rvest包3步爬取中国天气网国内所有城市(县)7天实时天气预报数据,这里的步数跨度可能有点长,但思路确实是3 ...
python爬取中国天气网中城市及其对应编号
文章目录一.前言二.思路三.程序四.注意事项一.前言为了实现爬取各地城市天气预报及其可视化的需要,爬取中国天气网中城市及其对应编号 . 天气预报可视化文章如下: <python爬虫, ...
python爬取中国天气网天气图标
python爬取中国天气网天气图标准备工作天气预报图例网址:http://www.weather.com.cn/static/html/legend.shtml 安装requests:pip in ...
HttpUnit爬取中国知网特定大学网页
继昨天使用Selenium+ChromeDriver爬取中国知网页面后,今天又想到了一些别的方法,就是HtmlUnit,作为一名萌新程序员,多写写总是好的,操蛋的是,还没想出好的爬取方法. 奉上jar ...
Java使用Selenium+ChromeDriver 爬取中国知网
Java使用Selenium 爬取中国知网所需Jar包中国知网的网页结构,我就不在这里赘述了,自己去看,这里我操作的是爬取博硕论文,只抓取前十页当Selenium无法调取ChromeDriver ...

哪个学校考研考python_python3爬取中国考研网考研学校名称和地区并进行数据清洗...

哪个学校考研考python_python3爬取中国考研网考研学校名称和地区并进行数据清洗...相关推荐

最新文章

热门文章

哪个学校考研考python_python3爬取中国考研网 考研学校名称和地区并进行数据清洗...

哪个学校考研考python_python3爬取中国考研网 考研学校名称和地区并进行数据清洗...相关推荐

最新文章

热门文章

哪个学校考研考python_python3爬取中国考研网考研学校名称和地区并进行数据清洗...

哪个学校考研考python_python3爬取中国考研网考研学校名称和地区并进行数据清洗...相关推荐