文章目录

  • 基于协同过滤的电影推荐系统
  • 数据集
  • HTML页面分析
  • 爬虫代码
  • 运行时间
  • 百度网盘链接

基于协同过滤的电影推荐系统

用这个数据集实现了一个小型的电影推荐网站,GitHub代码

数据集

数据集是MovieLens提供的ml-latest-small

https://grouplens.org/datasets/movielens/

试了几个数据集,这个数据集效果比较好

10万条评分记录,3600个用户对电影打的标签,9000部电影,600个用户

数据集的格式是这样的

link.csv :存放电影的imdb id和tmdb id

movies.csv :存放电影的id 名称 类型

ratings.csv :用户对电影的评分,范围是0.5~5

tags.csv :用户对电影打的标签

link.csv文件是这样的格式:

HTML页面分析

我刚看的时候不明白imdbID是什么意思,后面访问IMBD网站发现,这里的imdbID就是URL里面的标识符
有了link.csv文件里面的imdbID,我们就可以访问到这部电影在IMDB上面的详情页面了(这个数据集也太爽了

从IMDB上爬取MovieLens数据集中的详细电影信息相关推荐

  1. Matlab 从怀俄明大学上爬取探空数据

    function sounding %设置爬取时间  49行可以选取早八晚八,默认是都下载 start_year       =2019     ; start_month      =06     ...

  2. 从IMDB上爬取MovieLens-1m的补充数据(电影海报和简介)

    文章主要内容 本人是想做推荐算法相关的一名在校生,目前想做多模态融合,而MovieLens-1m数据集只有电影信息和用户信息,于是有想法能否在原有的电影推荐公开数据集中而外获取电影海报(图片信息)和电 ...

  3. imdb文本爬取及数据清理

    imdb电影爬取代码 import requests from bs4 import BeautifulSoup import pandas as pd import time import nump ...

  4. 爬取豆瓣评分前50的电影信息

    文章目录 项目描述 内容模块 代码区 运行测试 项目描述 根据豆瓣评分排名,获取豆瓣评分前50的电影信息.主要包括:电影名称.电影评分.评价人数和电影短评信息,并存储到本地表格文件. 内容模块 使用r ...

  5. 爬取94神马网的电影信息

    1.程序如下 import requests from lxml import etree import json Base_download='http://www.9rmb.com'#后期每一电影 ...

  6. node爬取app数据_从零开始写一个node爬虫(上)—— 数据采集篇

    爬虫相信大家都知道,这里我们从一个空的文件夹开始,也来写一写我们自己的爬虫程序吧. github入口 下一篇--数据分析篇入口 爬虫毕竟涉及到数据的爬取,所以其实有一个道德的约束,那就是Robots协 ...

  7. 利用python编写爬虫程序,从招聘网站上爬取数据,将数据存入到MongoDB数据库中,将存入的数据作一定的数据清洗后做数据分析,最后将分析的结果做数据可视化

    教程演示 创建爬虫项目 编写需要爬取的字段(items.py) 编写spider文件(wuyou.py) 编写数据库连接(pipelines.py) 编写反爬措施(settings.py) Mongo ...

  8. boss直聘账号异常登不上_python爬虫Scrapy:爬取boss数据

    一.概述 学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...

  9. 从小说网站上爬取数据

    首先安装环境,在setting里面的project interpreter里面安装requests和lxml 首先第一步:抓取网页 从url开始 在url里面输入要爬取的网站 第一种方法 通过lxml ...

最新文章

  1. Livox 开源分享:关于激光雷达去畸变的那些事儿
  2. Gatling教程系列一简单GET请求测试(二)
  3. python学了有什么用处-python用处广吗
  4. Mysql学习总结(5)——MySql常用函数大全讲解
  5. JDK5.0环境下配置PKCS#11
  6. android 6.0 logcat机制(二)logcat从logd中获取log保存到文件中
  7. log4j 源码解析_Log4j配置详解
  8. 小技巧:Chrome开发者工具里的Alt+单击
  9. JavaScript | 创建对象并通过JavaScript函数在表中显示其内容
  10. csdn 到底怎么了?不准转载?
  11. 无盘服务器回写盘intel,无盘回写盘碎片清理工具 完美解决无盘回写盘碎片
  12. php 替换指定标签中的内容,php如何根据不同的条件替换html代码中的img标签
  13. Hexo搭建自己的专属博客,连接github数据仓库
  14. opencv移植到ubuntu
  15. 第二章 西门子数控机床采集方案
  16. STM32单片用什么编程?如何学习STM32单片机开发
  17. 江在川上曰:vue-Router学习笔记
  18. 学完了Hadoop,我总结了这些重点
  19. 用数学思想演绎的一些系统概念
  20. 部署ServletContext的时候报错 Class com.xxxxx.ContextServlet is not a Servlet

热门文章

  1. proxmox ve 7.2 AMD显卡直通 网卡驱动 调度器
  2. Markdown书写软件Typora的使用 -- 渲染(让你的Typora更上档次)
  3. 想要快乐陪伴左右吗?多种提高多巴胺的方法送给你
  4. 12.23网络嗅探实验记录
  5. 解决win10点击开始按钮无反应
  6. android dss 流媒体开发,DSS流媒体服务器搭建
  7. windows系统erlang和rabbitMQ安装教程(附网盘下载地址)
  8. [转载]命令行也强大之下载迅雷资源的方法
  9. 04741计算机网络原理2018年版-第八章 网络安全基础 知识要点
  10. K8s 之 ReadinessProbe(就绪探针)使用的迷惑