先看看页面

这里我们以500页,为例,采用xpath选取这里的title,时间以及作者,然后再看看具体信息

红色框即为我们需要的详情信息,全部抓取后写入csv文件

import requests
from lxml import etree
import time as times
import csv
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
mu_url = 'http://muchong.com/f-430-{}'heads = ["title", "url", "author", "time", "school", "major", "need_people"]
save_path = r'D:/QQPCmgr/Desktop/xmc/school_info.csv'
with open(save_path, "w") as f:f_csv = csv.writer(f)f_csv.writerow(heads)
base_url = 'http://muchong.com'for i in range(1, 500):response = requests.get(url = mu_url.format(i), headers = headers).textHTML = etree.HTML(response)tbodys = HTML.xpath("//div[@class='forum_body xmc_line_lr']/table/tbody[position()>1]")infos = []for tbody in tbodys:try:title = tbody.xpath('.//a[@class="a_subject"]//text()')url = tbody.xpath('.//a[@class="a_subject"]/@href')author = tbody.xpath('.//th[@class="by"]/cite/a//text()')time = tbody.xpath('.//th[@class="by"]//nobr//text()')#     print(title[0] + " "+ base_url+ url[0]  + " " + author[0]+ " " + time[0])info = {}info['title'] = title[0]info['url'] = base_url+ url[0]info['author'] = author[0]info['time'] = time[0]info_response = requests.get(info['url'], headers = headers).textinfo_HTML = etree.HTML(info_response)school = info_HTML.xpath("//table[@class='adjust_table']//tr[position()=2]/td[position()=2]//text()")[0]major = info_HTML.xpath("//table[@class='adjust_table']//tr[position()=3]/td[position()=2]//text()")[0]need_people = info_HTML.xpath("//table[@class='adjust_table']//tr[position()=5]/td[position()=2]//text()")[0]info['school'] = schoolinfo['major'] = majorinfo['need_people'] = need_peopleprint(info)infos.append(info)times.sleep(0.1)except:print('路劲错误')with open(save_path, "a+", newline='') as f:f_csv = csv.writer(f)for info in infos:row = [info['title'].strip(), info['url'].strip(), info['author'].strip(), info['time'].strip(), info['school'].strip(), info['major'].strip(), info['need_people'].strip()]try:f_csv.writerow(row)except:print("编码错误")times.sleep(0.1)

python爬取小木虫的调剂信息(考研调剂学生的福利)相关推荐

  1. Python爬取小姐姐图片

    使用Python爬取小姐姐图片 首先上网站链接 唯美女生 爬取图片主要分为一下几步: 1.打开一个你喜欢的小姐姐的网站 E.g xiaojiejie web 2.下载并安装python环境 pytho ...

  2. python爬取并分析淘宝商品信息

    python爬取并分析淘宝商品信息 背景介绍 一.模拟登陆 二.爬取商品信息 1. 定义相关参数 2. 分析并定义正则 3. 数据爬取 三.简单数据分析 1.导入库 2.中文显示 3.读取数据 4.分 ...

  3. python爬取boss直聘招聘信息_年底啦,利用Python爬取Boss直聘的招聘信息,为明年跳槽做准备...

    原标题:年底啦,利用Python爬取Boss直聘的招聘信息,为明年跳槽做准备 前言 为什么都说程序员的薪资高,但是刚开始入职的你,薪资并不是自己想象中的那样,首先是你的工作经验不足,其次就是需要不断的 ...

  4. python爬房源信息_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  5. Python爬取豆瓣电影top250的电影信息

    Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...

  6. python 爬取链家数据_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  7. 2022小木虫与研招网调剂监视脚本

    前言 转眼间22年的调剂就要结束了,或有不甘,亦是注定,22考研失败了.考研前心比天高,考试时七上八下,考试后心如死灰:调剂前信心满满,调剂中一头雾水,随着各种邮件石沉大海,最后也释然接受失败的命运. ...

  8. 【爬虫】用Python爬取去哪儿网热门旅游信息(并打包成旅游信息查询小工具)

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/det ...

  9. steam夏日促销用Python爬取排行榜上的游戏打折信息

    不知不觉,一年一度如火如荼的 steam 夏日促销悄然开始了.每年通过大大小小的促销,我的游戏库里已经堆积满还未下载过的游戏.但所谓"买到就是赚到,G胖一定大亏"的想法日渐流行,指 ...

最新文章

  1. 结构体中最后一个成员为[0]或[1]长度数组(柔性数组成员)的用法
  2. python3 判断list是否包含另一个list
  3. 转载 1-EasyNetQ介绍(黄亮翻译) https://www.cnblogs.com/HuangLiang/p/7105659.html
  4. linux系统如何安装其他包,Linux系统下如何安装软件包
  5. 51单片机之定时器/计数器应用实例(方式0、1、2、3)
  6. 微软职位内部推荐-Senior PM
  7. 软件工程电商系统数据库定义_某个电子商务系统项目的数据库设计
  8. 淘宝如何保障业务稳定性——诺亚(Noah)自适应流控
  9. Ubuntu 12/14 个性化配置
  10. Visual Studio 2017 15.3 已发布,增加.NET Core 2 支持
  11. 08-04 性能测试--复杂情景设计
  12. transform,translate,transition 的区别
  13. hnu 暑期实训之回文串
  14. mysql in varchar_MySQL中char和varchar有啥区别?优缺点是啥?
  15. java中类模型_java中的数据模型类
  16. 计算机系统的组成和应用,计算机系统组成与应用领域的考点
  17. ubuntu部署django详细教程
  18. 解决使用七牛CDN导致AJAX评论报错{“ERROR”:”GET FROM IMAGE SOURCE FAILED: E405″}
  19. Ubuntu系统上使用锐捷客户端有线连接校园网
  20. Mac-VMware-分辨率修改

热门文章

  1. java metronic_不懂前端的程序员不是好美工——UI框架metronic使用教程——程序员视角...
  2. android记事本的设计报告,基于android记事本的设计与开发开题报告.doc
  3. js逆向爬虫入门-02.STEAM平台模拟登录逆向
  4. 1266 蚂蚁(思维题)
  5. EMC整改流程及常见问题总结
  6. 用栈实现二叉树的遍历——前序,中序,后序
  7. JMS规范和AMQP协议
  8. 关于海康ipc的几个参数
  9. Redis - 管理工具 redis-cli 详解
  10. McNay Art Museum【McNay艺术博物馆】