【第十一届“泰迪杯”数据挖掘挑战赛】泰迪杯c题爬虫采集数据(源码+数据)
【”第十一届“泰迪杯”数据挖掘挑战赛—— C 题:泰迪内推平台招聘与求职双向推荐系统构建(采集数据)】
问题:
数据详情:
根据工作id获取详细数据(1571条).csv:
)]
根据人才id获取详细数据(10897条).csv:
爬虫设计:
- 首先获取所有id数据存入txt
- 再根据txt的id构造网址,请求详细信息页面
- 获取详细页面数据
工作数据获取:
# -*- coding: utf-8 -*-
# @Time : 2023/2/23/023 21:05
# @Author : LeeSheel
# @File : 01-1多线程获取所有id.py
# @Project : 爬虫
import jsonimport requests
import time
import threading
from queue import Queueclass IDSpider():def __init__(self):self.url = '*****ic/es?pageSize=10&pageNumber={}&willNature=&function=&wageList=%5B%5D&workplace=&keyword='# 创建队列self.q = Queue()# 创建锁self.lock = threading.Lock()# 把目标url放入队列中def put_url(self):# range(3)--(0,1,2)for page in range(1,159):url = self.url.format(page)self.q.put(url)# 发请求 获响应 解析数据def parse_html(self):while True:self.lock.acquire()if not self.q.empty():url = self.q.get()self.lock.release()headers = {"Cookie": "DEFAULT_ENTERPRISE_IMG=company.jpg; APP_HEADER_NAME=%E6%B3%B0%E8%BF%AA%E5%86%85%E6%8E%A8; APP_TITLE=%E6%B3%B0%E8%BF%AA%E5%86%85%E6%8E%A8; APP_RESOURCE_SCOPE_NAME=%E6%95%B0%E6%8D%AE%E4%B8%AD%E5%BF%83; APP_HELP_DOC_URL=http://45.116.35.168:8083/eb; REGISTER_URL=http://www.5iai.com:444/oauth/register","Referer": "https://www.5iai.com/","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36"}res = requests.get(url, headers=headers).text# 解析数据json_data = json.loads(str(res))contents = json_data['data']['content']print(contents)with open("找工作页面id.txt", "a+", encoding='utf-8') as f:for content in contents:id = content['id']f.write(id + '\n')print(id)time.sleep(2)else:self.lock.release()time.sleep(2)breakdef run(self):self.put_url()# 线程列表t_lst = []for i in range(10):t = threading.Thread(target=self.parse_html)t_lst.append(t)t.start()######为过审,代码只能不全###########################为过审,代码只能不全###########################为过审,代码只能不全#####################
文件夹展示:
代码+数据获取:
由于多线程式会造成数据丟失,只能采用循环单线程获取~~~,
制作不易,还请见谅,
获取代码请移步社区
“https://bbs.csdn.net/topics/614309405?spm=1001.2014.3001.6377”
【第十一届“泰迪杯”数据挖掘挑战赛】泰迪杯c题爬虫采集数据(源码+数据)相关推荐
- 2017第八届蓝桥杯省赛JAVA C组真题解析(带源码及解析)
蓝桥杯历年真题及解析. 目录: 蓝桥杯历年真题及解析. A:外星日历(难度:★) 题目: 分析: 代码: B:兴趣小组(难度:★) 题目: 分析: 代码: C:纸牌三角形(难度:★★★) 题目: 分析 ...
- 第十一届泰迪杯数据挖掘挑战赛-产品订单数据分析B题(完整代码)--数据处理--第一部分(下一部分请看下一博客)
需要解决的问题 1. 请对附件中的训练数据(order_train1.csv)进行深入地分析,可参照但不限于下述主题. (1) 产品的不同价格对需求量的影响: (2) 产品所在区域对需求量的影响,以及 ...
- 第十一届泰迪杯数据挖掘挑战赛-产品订单数据分析B题(完整代码)--数据处理--第一部分
完整代码链接需要的请私我获取. 需要解决的问题 1. 请对附件中的训练数据(order_train1.csv)进行深入地分析,可参照但不限于下述主题. (1) 产品的不同价格对需求量的影响: (2) ...
- 第十一届泰迪杯数据挖掘挑战赛-产品订单数据分析B题(完整代码)--数据分析--第二部分
完整代码需要的请私我获得. import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.style.us ...
- 第十一届泰迪杯数据挖掘挑战赛-产品订单数据分析B题(完整代码)--数据分析--第三部分
完整代码有需要的请私我获得. 导入所需要的库 import pandas as pd import numpy as np import matplotlib.pyplot as plt from d ...
- 2020第十一届蓝桥杯国赛JAVA B组真题解析(带源码及解析)
蓝桥杯历年真题及解析. 目录 蓝桥杯历年真题及解析. A: 美丽的 2 题目: 分析: AC代码: B: 扩散 题目: 分析: AC代码: C: 阶乘约数 题目: 分析: AC代码: D: 本质上升序 ...
- 【第十一届泰迪杯数据挖掘挑战赛】A 题:新冠疫情防控数据的分析 思路+代码(持续更新)
[第十一届泰迪杯数据挖掘挑战赛]A 题:新冠疫情防控数据的分析 思路+代码(持续更新) 问题背景 解决问题 代码下载 数据分析 Task1 Task2 Task 3 问题背景 自 2019 年底至今, ...
- 第十一届“泰迪杯”数据挖掘挑战赛携“十万”大奖火热来袭
第十一届"泰迪杯"数据挖掘挑战赛 竞赛组织 主办单位: 泰迪杯数据挖掘挑战赛组织委员会 承办单位: 广东泰迪智能科技股份有限公司 人民邮电出版社 协办单位: 重庆市工业与应用数学学 ...
- 第十一届“泰迪杯”数据挖掘挑战赛成绩公示
第十一届"泰迪杯" 数据挖掘挑战赛成绩公示 第十一届"泰迪杯"数据挖掘挑战赛历时两个月顺利结束.竞赛采用盲审(屏蔽参赛者信息:评审专家只能评阅非本区域作品:三位 ...
- 【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 23页论文及实现代码
[2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 23页论文及实现代码 相关链接 (1)建模方案 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预 ...
最新文章
- 在linux CentOS 上安装chrome 谷歌浏览器
- 利用计算机提高数学课堂教学,计算机技术在数学课堂教学中的应用微探
- 科大星云诗社动态20220104
- 吴恩达《Machine Learning》精炼笔记 3:回归问题和正则化
- 【最小生成树】路线规划(nowcoder 217603)
- aws eks_在生产中配置和使用AWS EKS
- html自动按键,VBS脚本和HTML DOM自动操作网页
- 东南亚再造天猫 Lazada品牌商城LazMall举办第二届品牌未来论坛
- 数据结构之图的应用:拓扑排序
- 引用计数器法 可达性分析算法_面试官:你说你熟悉jvm?那你讲一下并发的可达性分析...
- 数据库decimal对应java什么类型_mysql decimal(10,2)对应java类型
- oracle11g 日期型,Oracle11g: datetime
- 轻量级linux iso,antiX 17.2 发布,基于Debian的轻量级Linux发行版
- 19【推荐系统2】矩阵分解算法——协同过滤的进化
- cornerstone图标含义
- python猜单词游戏_python 猜单词游戏 代码
- python3数据科学入门与实战技巧_Python3数据科学入门与实战
- 基于ARM处理器的U-BOOT详细移植总结
- KMS验证 错误码ERROR CODE0xC004F074
- IM方案技术调研报告