python爬取小木虫的调剂信息(考研调剂学生的福利)
先看看页面
这里我们以500页,为例,采用xpath选取这里的title,时间以及作者,然后再看看具体信息
红色框即为我们需要的详情信息,全部抓取后写入csv文件
import requests
from lxml import etree
import time as times
import csv
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
mu_url = 'http://muchong.com/f-430-{}'heads = ["title", "url", "author", "time", "school", "major", "need_people"]
save_path = r'D:/QQPCmgr/Desktop/xmc/school_info.csv'
with open(save_path, "w") as f:f_csv = csv.writer(f)f_csv.writerow(heads)
base_url = 'http://muchong.com'for i in range(1, 500):response = requests.get(url = mu_url.format(i), headers = headers).textHTML = etree.HTML(response)tbodys = HTML.xpath("//div[@class='forum_body xmc_line_lr']/table/tbody[position()>1]")infos = []for tbody in tbodys:try:title = tbody.xpath('.//a[@class="a_subject"]//text()')url = tbody.xpath('.//a[@class="a_subject"]/@href')author = tbody.xpath('.//th[@class="by"]/cite/a//text()')time = tbody.xpath('.//th[@class="by"]//nobr//text()')# print(title[0] + " "+ base_url+ url[0] + " " + author[0]+ " " + time[0])info = {}info['title'] = title[0]info['url'] = base_url+ url[0]info['author'] = author[0]info['time'] = time[0]info_response = requests.get(info['url'], headers = headers).textinfo_HTML = etree.HTML(info_response)school = info_HTML.xpath("//table[@class='adjust_table']//tr[position()=2]/td[position()=2]//text()")[0]major = info_HTML.xpath("//table[@class='adjust_table']//tr[position()=3]/td[position()=2]//text()")[0]need_people = info_HTML.xpath("//table[@class='adjust_table']//tr[position()=5]/td[position()=2]//text()")[0]info['school'] = schoolinfo['major'] = majorinfo['need_people'] = need_peopleprint(info)infos.append(info)times.sleep(0.1)except:print('路劲错误')with open(save_path, "a+", newline='') as f:f_csv = csv.writer(f)for info in infos:row = [info['title'].strip(), info['url'].strip(), info['author'].strip(), info['time'].strip(), info['school'].strip(), info['major'].strip(), info['need_people'].strip()]try:f_csv.writerow(row)except:print("编码错误")times.sleep(0.1)
python爬取小木虫的调剂信息(考研调剂学生的福利)相关推荐
- Python爬取小姐姐图片
使用Python爬取小姐姐图片 首先上网站链接 唯美女生 爬取图片主要分为一下几步: 1.打开一个你喜欢的小姐姐的网站 E.g xiaojiejie web 2.下载并安装python环境 pytho ...
- python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息 背景介绍 一.模拟登陆 二.爬取商品信息 1. 定义相关参数 2. 分析并定义正则 3. 数据爬取 三.简单数据分析 1.导入库 2.中文显示 3.读取数据 4.分 ...
- python爬取boss直聘招聘信息_年底啦,利用Python爬取Boss直聘的招聘信息,为明年跳槽做准备...
原标题:年底啦,利用Python爬取Boss直聘的招聘信息,为明年跳槽做准备 前言 为什么都说程序员的薪资高,但是刚开始入职的你,薪资并不是自己想象中的那样,首先是你的工作经验不足,其次就是需要不断的 ...
- python爬房源信息_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
- Python爬取豆瓣电影top250的电影信息
Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...
- python 爬取链家数据_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
- 2022小木虫与研招网调剂监视脚本
前言 转眼间22年的调剂就要结束了,或有不甘,亦是注定,22考研失败了.考研前心比天高,考试时七上八下,考试后心如死灰:调剂前信心满满,调剂中一头雾水,随着各种邮件石沉大海,最后也释然接受失败的命运. ...
- 【爬虫】用Python爬取去哪儿网热门旅游信息(并打包成旅游信息查询小工具)
以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/det ...
- steam夏日促销用Python爬取排行榜上的游戏打折信息
不知不觉,一年一度如火如荼的 steam 夏日促销悄然开始了.每年通过大大小小的促销,我的游戏库里已经堆积满还未下载过的游戏.但所谓"买到就是赚到,G胖一定大亏"的想法日渐流行,指 ...
最新文章
- 结构体中最后一个成员为[0]或[1]长度数组(柔性数组成员)的用法
- python3 判断list是否包含另一个list
- 转载 1-EasyNetQ介绍(黄亮翻译) https://www.cnblogs.com/HuangLiang/p/7105659.html
- linux系统如何安装其他包,Linux系统下如何安装软件包
- 51单片机之定时器/计数器应用实例(方式0、1、2、3)
- 微软职位内部推荐-Senior PM
- 软件工程电商系统数据库定义_某个电子商务系统项目的数据库设计
- 淘宝如何保障业务稳定性——诺亚(Noah)自适应流控
- Ubuntu 12/14 个性化配置
- Visual Studio 2017 15.3 已发布,增加.NET Core 2 支持
- 08-04 性能测试--复杂情景设计
- transform,translate,transition 的区别
- hnu 暑期实训之回文串
- mysql in varchar_MySQL中char和varchar有啥区别?优缺点是啥?
- java中类模型_java中的数据模型类
- 计算机系统的组成和应用,计算机系统组成与应用领域的考点
- ubuntu部署django详细教程
- 解决使用七牛CDN导致AJAX评论报错{“ERROR”:”GET FROM IMAGE SOURCE FAILED: E405″}
- Ubuntu系统上使用锐捷客户端有线连接校园网
- Mac-VMware-分辨率修改
热门文章
- java metronic_不懂前端的程序员不是好美工——UI框架metronic使用教程——程序员视角...
- android记事本的设计报告,基于android记事本的设计与开发开题报告.doc
- js逆向爬虫入门-02.STEAM平台模拟登录逆向
- 1266 蚂蚁(思维题)
- EMC整改流程及常见问题总结
- 用栈实现二叉树的遍历——前序,中序,后序
- JMS规范和AMQP协议
- 关于海康ipc的几个参数
- Redis - 管理工具 redis-cli 详解
- McNay Art Museum【McNay艺术博物馆】