工作中要用到一点爬虫相关的,以前都是用python写的,最近研究golang(主要是工作中一些API需要用golang),才在研究,后续研究完了有可能写个整的文章,这次用colly爬去豆瓣电影 TOP250(好像所有爬虫入门都是用这个网站,感谢豆瓣),简单记录代码如下,主要使用了colly和goquery

func TestColly(t *testing.T){type data struct {Title string `json:"title"`Other string `json:"other"`Href string `json:"href"`Img string `json:"img"`}var datas []datac := colly.NewCollector()c.OnResponse(func(r *colly.Response) {dom,err:=goquery.NewDocumentFromReader(strings.NewReader(string(r.Body)))if err!=nil{fmt.Println(err)}dom.Find("ol[class=grid_view]>li").Each(func(i int, selection *goquery.Selection) {d:=data{}d.Title=selection.Find("li>div>.info>div>a>.title").First().Text()d.Img,_=selection.Find("li>div>.pic>a>img").Attr("src")d.Href,_=selection.Find("li>div>.info>.hd>a").Attr("herf")d.Other=selection.Find("li>div>.info>.hd>a>.other").Text()datas=append(datas, d)})fmt.Printf("%s",datas[1])})c.OnHTML("div.item", func(e *colly.HTMLElement) {})c.OnRequest(func(r *colly.Request) {r.Headers.Set("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.113 Safari/537.36")})c.Visit("https://movie.douban.com/top250")
}

golang爬虫colly 抓取豆瓣前250电影相关推荐

  1. 爬取豆瓣前250电影数据

    1.导入包 import requests from bs4 import BeautifulSoup import pandas as pd 2. 构造分页数字列表 page_indexs = li ...

  2. requests爬取豆瓣前250部高分电影

    这两天又写了一个爬取豆瓣前250部高分电影的爬虫,并把电影名字和图片保存到本地. 用的是requests和BeautifulSoup. @requires_authorization import r ...

  3. 第一次写爬虫程序爬取豆瓣5W条电影数据

    第一次写爬虫程序爬取豆瓣5W条电影数据 最近工作比较不是很忙,想到之前使用httpclient和jsoup爬取过一次豆瓣电影TOP250,但总觉得数据量太小,不过瘾.于是趁着最近不是很忙的机会,重新写 ...

  4. 【爬取豆瓣前 250 部电影】Python 爬虫和数据可视化(上篇)

    文章目录 一.学习内容 二.任务介绍 三.爬虫知识 四.基本流程 五.准备工作 5.1 获取数据 5.2 解析数据 5.3 保存数据 一.学习内容 Python 语言的基础知识 网络爬虫的技术实现 数 ...

  5. 爬虫如何翻页 爬取豆瓣排名250电影

    1.爬虫翻页问题: 正在做爬虫练习:爬取豆瓣电影排名前250的电影,但一页只显示排名前25的电影,爬取250部电影就遇到了爬虫翻页的问题.记录下,希望帮助到正在学习的小伙伴! 2.爬虫翻页解决思路: ...

  6. 网络爬虫--python抓取豆瓣同城北京地区活动信息

    感谢主赐予我们时光. 本内容只涉及技术探讨,不作为商业用途. 背景 作为入门级的爬虫,其实不需要了解复杂的正则表达式匹配,高深的网络协议.只需要了解一些基本的python语法和html请求/响应原理就 ...

  7. Scrapy 爬虫实例 抓取豆瓣小组信息并保存到mongodb中

    这个框架关注了很久,但是直到最近空了才仔细的看了下 这里我用的是scrapy0.24版本 先来个成品好感受这个框架带来的便捷性,等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来. ...

  8. 爬取豆瓣Top 250电影信息、下载图片、存储到Excel,快来试试吧!

    写的第一个还算有点复杂的Python的程序,有点意思,感觉Python的实用性和开发效率实在很优秀,O(∩_∩)O哈哈~ 源代码在最后,有兴趣的可以试试跑一下. 爬虫地址豆瓣电影 Top 250. 文 ...

  9. 简单的爬虫例子——爬取豆瓣Top250的电影的排名、名字、评分、评论数

    爬取思路: url从网页上把代码搞下来 bytes decode ---> utf-8 网页内容就是我的待匹配的字符串 ret = re.findall(正则,待匹配的字符串), ret 是所有 ...

最新文章

  1. 【多标签文本分类】融合CNN-SAM与GAT的多标签文本分类模型
  2. 设计模式总结——代理模式以及java的动态代理
  3. c executable和c library_双功能超薄Fe-Nx-C单原子催化剂用于同时制备乙烯和芳基氯化物...
  4. ubuntu系统声音_今日热闻 | 小米11有望首发骁龙875、折叠iPhone测试、新规禁止网购忽悠打折、印度真米粉、M1 Mac运行Ubuntu...
  5. Python描述性统计示例
  6. [攻防世界 pwn]——forgot
  7. ASP.NET MVC中的模型装配 封装方法 非常好用
  8. 文档和元素的几何滚动
  9. 蜗居6个月,苹果漏洞神猎手亮绝招:展示零点击 iOS exploit
  10. linux sudo 命令
  11. TD041S485H完全兼容ISO3080, ISO3086 ISO3082, ISO3088
  12. 睡觉觉睡觉睡觉计算机手机,晚上睡觉时,电脑放在头部旁边有什么危害吗?
  13. 游戏音乐制作、游戏音效制作、游戏配音【奇亿音乐】
  14. 如何快速增长支付宝会员成长值
  15. 谷歌浏览器 performance 详解
  16. 基于RT1052 Aworks 测试PXP图像混合功能(十三)
  17. The server time zone value ‘锟叫癸拷锟斤拷\u05FC时锟斤拷‘ is unrecognized or represents more than one time zone
  18. 应用电路笔记(1)-三极管8550和8050应用
  19. Unreal Engine 4 —— Smear Frame效果的实现与分析
  20. mysql useing查询_mysql explain语法详解--优化你的查询

热门文章

  1. 蓝桥杯python:天干地支
  2. 机器学习K均值聚类 python
  3. 微信小程序—仿淘宝热搜词在搜索框中轮播功能
  4. 澳洲纽卡斯尓大学计算机排名,澳洲纽卡斯尔大学计算机科学computer science专业排名第251~300名(2020THE泰晤士高等教育世界大学排名)...
  5. 基于51单片机实现继电器控制照明设备(Proteus仿真)
  6. java并发编程实战wwj----------第二阶段-------------Active Object-----------------38-39-40
  7. 延缓写入失败计算机硬件,WinXP提示windows写入延缓失败怎么办?写入延缓失败解决方法...
  8. 【报告分享】2020年K12在线教育行业数据研究报告-极光(附下载)
  9. STM32 定时器 中断(内有PWM Mode、CH Ploarity解释)
  10. 图像压缩 动态规划C语言实现