【”第十一届“泰迪杯”数据挖掘挑战赛—— C 题:泰迪内推平台招聘与求职双向推荐系统构建(采集数据)】

问题:

数据详情:

根据工作id获取详细数据(1571条).csv:

)]

根据人才id获取详细数据(10897条).csv:

爬虫设计:

  • 首先获取所有id数据存入txt
  • 再根据txt的id构造网址,请求详细信息页面
  • 获取详细页面数据

工作数据获取:

# -*- coding: utf-8 -*-
# @Time : 2023/2/23/023 21:05
# @Author : LeeSheel
# @File : 01-1多线程获取所有id.py
# @Project : 爬虫
import jsonimport requests
import time
import threading
from queue import Queueclass IDSpider():def __init__(self):self.url = '*****ic/es?pageSize=10&pageNumber={}&willNature=&function=&wageList=%5B%5D&workplace=&keyword='# 创建队列self.q = Queue()# 创建锁self.lock = threading.Lock()# 把目标url放入队列中def put_url(self):# range(3)--(0,1,2)for page in range(1,159):url = self.url.format(page)self.q.put(url)# 发请求 获响应 解析数据def parse_html(self):while True:self.lock.acquire()if not self.q.empty():url = self.q.get()self.lock.release()headers = {"Cookie": "DEFAULT_ENTERPRISE_IMG=company.jpg; APP_HEADER_NAME=%E6%B3%B0%E8%BF%AA%E5%86%85%E6%8E%A8; APP_TITLE=%E6%B3%B0%E8%BF%AA%E5%86%85%E6%8E%A8; APP_RESOURCE_SCOPE_NAME=%E6%95%B0%E6%8D%AE%E4%B8%AD%E5%BF%83; APP_HELP_DOC_URL=http://45.116.35.168:8083/eb; REGISTER_URL=http://www.5iai.com:444/oauth/register","Referer": "https://www.5iai.com/","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36"}res = requests.get(url, headers=headers).text# 解析数据json_data = json.loads(str(res))contents = json_data['data']['content']print(contents)with open("找工作页面id.txt", "a+", encoding='utf-8') as f:for content in contents:id = content['id']f.write(id + '\n')print(id)time.sleep(2)else:self.lock.release()time.sleep(2)breakdef run(self):self.put_url()# 线程列表t_lst = []for i in range(10):t = threading.Thread(target=self.parse_html)t_lst.append(t)t.start()######为过审,代码只能不全###########################为过审,代码只能不全###########################为过审,代码只能不全#####################

文件夹展示:

代码+数据获取:

由于多线程式会造成数据丟失,只能采用循环单线程获取~~~,

制作不易,还请见谅,
获取代码请移步社区

“https://bbs.csdn.net/topics/614309405?spm=1001.2014.3001.6377”

【第十一届“泰迪杯”数据挖掘挑战赛】泰迪杯c题爬虫采集数据(源码+数据)相关推荐

  1. 2017第八届蓝桥杯省赛JAVA C组真题解析(带源码及解析)

    蓝桥杯历年真题及解析. 目录: 蓝桥杯历年真题及解析. A:外星日历(难度:★) 题目: 分析: 代码: B:兴趣小组(难度:★) 题目: 分析: 代码: C:纸牌三角形(难度:★★★) 题目: 分析 ...

  2. 第十一届泰迪杯数据挖掘挑战赛-产品订单数据分析B题(完整代码)--数据处理--第一部分(下一部分请看下一博客)

    需要解决的问题 1. 请对附件中的训练数据(order_train1.csv)进行深入地分析,可参照但不限于下述主题. (1) 产品的不同价格对需求量的影响: (2) 产品所在区域对需求量的影响,以及 ...

  3. 第十一届泰迪杯数据挖掘挑战赛-产品订单数据分析B题(完整代码)--数据处理--第一部分

     完整代码链接需要的请私我获取. 需要解决的问题 1. 请对附件中的训练数据(order_train1.csv)进行深入地分析,可参照但不限于下述主题. (1) 产品的不同价格对需求量的影响: (2) ...

  4. 第十一届泰迪杯数据挖掘挑战赛-产品订单数据分析B题(完整代码)--数据分析--第二部分

    完整代码需要的请私我获得. import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.style.us ...

  5. 第十一届泰迪杯数据挖掘挑战赛-产品订单数据分析B题(完整代码)--数据分析--第三部分

    完整代码有需要的请私我获得. 导入所需要的库 import pandas as pd import numpy as np import matplotlib.pyplot as plt from d ...

  6. 2020第十一届蓝桥杯国赛JAVA B组真题解析(带源码及解析)

    蓝桥杯历年真题及解析. 目录 蓝桥杯历年真题及解析. A: 美丽的 2 题目: 分析: AC代码: B: 扩散 题目: 分析: AC代码: C: 阶乘约数 题目: 分析: AC代码: D: 本质上升序 ...

  7. 【第十一届泰迪杯数据挖掘挑战赛】A 题:新冠疫情防控数据的分析 思路+代码(持续更新)

    [第十一届泰迪杯数据挖掘挑战赛]A 题:新冠疫情防控数据的分析 思路+代码(持续更新) 问题背景 解决问题 代码下载 数据分析 Task1 Task2 Task 3 问题背景 自 2019 年底至今, ...

  8. 第十一届“泰迪杯”数据挖掘挑战赛携“十万”大奖火热来袭

    第十一届"泰迪杯"数据挖掘挑战赛 竞赛组织 主办单位: 泰迪杯数据挖掘挑战赛组织委员会 承办单位: 广东泰迪智能科技股份有限公司 人民邮电出版社 协办单位: 重庆市工业与应用数学学 ...

  9. 第十一届“泰迪杯”数据挖掘挑战赛成绩公示

    第十一届"泰迪杯" 数据挖掘挑战赛成绩公示 第十一届"泰迪杯"数据挖掘挑战赛历时两个月顺利结束.竞赛采用盲审(屏蔽参赛者信息:评审专家只能评阅非本区域作品:三位 ...

  10. 【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 23页论文及实现代码

    [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 23页论文及实现代码 相关链接 (1)建模方案 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预 ...

最新文章

  1. 在linux CentOS 上安装chrome 谷歌浏览器
  2. 利用计算机提高数学课堂教学,计算机技术在数学课堂教学中的应用微探
  3. 科大星云诗社动态20220104
  4. 吴恩达《Machine Learning》精炼笔记 3:回归问题和正则化
  5. 【最小生成树】路线规划(nowcoder 217603)
  6. aws eks_在生产中配置和使用AWS EKS
  7. html自动按键,VBS脚本和HTML DOM自动操作网页
  8. 东南亚再造天猫 Lazada品牌商城LazMall举办第二届品牌未来论坛
  9. 数据结构之图的应用:拓扑排序
  10. 引用计数器法 可达性分析算法_面试官:你说你熟悉jvm?那你讲一下并发的可达性分析...
  11. 数据库decimal对应java什么类型_mysql decimal(10,2)对应java类型
  12. oracle11g 日期型,Oracle11g: datetime
  13. 轻量级linux iso,antiX 17.2 发布,基于Debian的轻量级Linux发行版
  14. 19【推荐系统2】矩阵分解算法——协同过滤的进化
  15. cornerstone图标含义
  16. python猜单词游戏_python 猜单词游戏 代码
  17. python3数据科学入门与实战技巧_Python3数据科学入门与实战
  18. 基于ARM处理器的U-BOOT详细移植总结
  19. KMS验证 错误码ERROR CODE0xC004F074
  20. IM方案技术调研报告

热门文章

  1. 燃太TN901红外测温模块LCD1602显示
  2. 斗破苍穹文字页游php_浅谈斗破影视化下的网络文学二次创作
  3. 职业规划 (很不错的文章)
  4. 汉澳sinox2014最佳硬件配置
  5. Springboot 参数校验@Valid @Validated(最新最全)
  6. 文心一言 新闻发布会 , 你怎么看这款产品?
  7. 电脑被黑客远程入侵了,该怎么办?
  8. 基于SSH开发HR(人力资源管理系统)简单工作流程系统 课程设计 大作业 毕业设计
  9. c语言二重循环实现九九乘法表
  10. 数字IC设计自学到底有多难?