python爬取小木虫的调剂信息（考研调剂学生的福利）

先看看页面

这里我们以500页，为例，采用xpath选取这里的title，时间以及作者，然后再看看具体信息

红色框即为我们需要的详情信息，全部抓取后写入csv文件

import requests
from lxml import etree
import time as times
import csv
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
mu_url = 'http://muchong.com/f-430-{}'heads = ["title", "url", "author", "time", "school", "major", "need_people"]
save_path = r'D:/QQPCmgr/Desktop/xmc/school_info.csv'
with open(save_path, "w") as f:f_csv = csv.writer(f)f_csv.writerow(heads)
base_url = 'http://muchong.com'for i in range(1, 500):response = requests.get(url = mu_url.format(i), headers = headers).textHTML = etree.HTML(response)tbodys = HTML.xpath("//div[@class='forum_body xmc_line_lr']/table/tbody[position()>1]")infos = []for tbody in tbodys:try:title = tbody.xpath('.//a[@class="a_subject"]//text()')url = tbody.xpath('.//a[@class="a_subject"]/@href')author = tbody.xpath('.//th[@class="by"]/cite/a//text()')time = tbody.xpath('.//th[@class="by"]//nobr//text()')#     print(title[0] + " "+ base_url+ url[0]  + " " + author[0]+ " " + time[0])info = {}info['title'] = title[0]info['url'] = base_url+ url[0]info['author'] = author[0]info['time'] = time[0]info_response = requests.get(info['url'], headers = headers).textinfo_HTML = etree.HTML(info_response)school = info_HTML.xpath("//table[@class='adjust_table']//tr[position()=2]/td[position()=2]//text()")[0]major = info_HTML.xpath("//table[@class='adjust_table']//tr[position()=3]/td[position()=2]//text()")[0]need_people = info_HTML.xpath("//table[@class='adjust_table']//tr[position()=5]/td[position()=2]//text()")[0]info['school'] = schoolinfo['major'] = majorinfo['need_people'] = need_peopleprint(info)infos.append(info)times.sleep(0.1)except:print('路劲错误')with open(save_path, "a+", newline='') as f:f_csv = csv.writer(f)for info in infos:row = [info['title'].strip(), info['url'].strip(), info['author'].strip(), info['time'].strip(), info['school'].strip(), info['major'].strip(), info['need_people'].strip()]try:f_csv.writerow(row)except:print("编码错误")times.sleep(0.1)

python爬取小木虫的调剂信息（考研调剂学生的福利）相关推荐

Python爬取小姐姐图片
使用Python爬取小姐姐图片首先上网站链接唯美女生爬取图片主要分为一下几步: 1.打开一个你喜欢的小姐姐的网站 E.g xiaojiejie web 2.下载并安装python环境 pytho ...
python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息背景介绍一.模拟登陆二.爬取商品信息 1. 定义相关参数 2. 分析并定义正则 3. 数据爬取三.简单数据分析 1.导入库 2.中文显示 3.读取数据 4.分 ...
python爬取boss直聘招聘信息_年底啦，利用Python爬取Boss直聘的招聘信息，为明年跳槽做准备...
原标题:年底啦,利用Python爬取Boss直聘的招聘信息,为明年跳槽做准备前言为什么都说程序员的薪资高,但是刚开始入职的你,薪资并不是自己想象中的那样,首先是你的工作经验不足,其次就是需要不断的 ...
python爬房源信息_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
Python爬取豆瓣电影top250的电影信息
Python爬取豆瓣电影top250的电影信息前言一.简介二.实例源码展示小结前言相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...
python 爬取链家数据_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
2022小木虫与研招网调剂监视脚本
前言转眼间22年的调剂就要结束了,或有不甘,亦是注定,22考研失败了.考研前心比天高,考试时七上八下,考试后心如死灰:调剂前信心满满,调剂中一头雾水,随着各种邮件石沉大海,最后也释然接受失败的命运. ...
【爬虫】用Python爬取去哪儿网热门旅游信息（并打包成旅游信息查询小工具）
以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/det ...
steam夏日促销用Python爬取排行榜上的游戏打折信息
不知不觉,一年一度如火如荼的 steam 夏日促销悄然开始了.每年通过大大小小的促销,我的游戏库里已经堆积满还未下载过的游戏.但所谓"买到就是赚到,G胖一定大亏"的想法日渐流行,指 ...

python爬取小木虫的调剂信息（考研调剂学生的福利）

python爬取小木虫的调剂信息（考研调剂学生的福利）相关推荐

最新文章

热门文章