PartⅠ: Instagram(以下称为Ins)指定用户的图片爬取

  Ins的图片没有办法像很多图片一样可以右键点击进行保存,很多时候是使用截屏的方式进行保存。不过在Python中,有对Ins数据进行抓取并保存的库,使用起来非常方便快捷。

       对Ins数据进行抓取的库为instagram-scraper,其下载地址为:https://pypi.python.org/pypi/instagram-scraper

    (当然啦,爬取Ins数据的前提是网络能够访问到Ins,Ins是属于Facebook的~So......)

     对于该库的安装,可以使用python自带的pip工具,安装命令如图所示(我已经安装,所以显示信息与安装过程不同):

安装成功后,可以通过命令行:

instagram-scraper stanford

(stanford可以用任何想要爬取的用户名代替)

这样,爬取的图片会存储在一个新创建的文件夹中,新建的文件夹为打开命令行时所在的目录(一般通过win + R 输入【cmd】打开,默认的目录为C:\Users\用户名)

详细的安装和爬取目录,可以在instagram-scraper这个项目的github地址上查阅:https://github.com/rarcega/instagram-scraper

Part Ⅱ: 使用python专用库——pytesseract将图片中的文字转化为可以进行复制粘贴的文本

tesseract按照Quora上一个用户的回答(下图所示),有两种使用方式,一种呢,是作为应用直接进行使用;另外一种是作为Python的一个库(个人感觉这种方式会比较好,因为可以使用Python的图像处理,来对要提取的文本进行突出,这个提取文本的库,是有点烂,待会儿图片吐槽,有图有真相~)

       图片中,两个超链接为: tesseract-ocr ,pytesseract 0.1.6

pytesseract库的安装,也是使用python自带的pip工具,输入命令:

pip install pytesseract

安装完成后,可以直接导入pytesseract库,对图片进行识别,进行识别的代码如下:

#-*- coding:utf-8 -*-
import pytesseract
from PIL import Image# 使用pytesseract对英文进行识别
print(pytesseract.image_to_string(Image.open('textEng.png')))
# 使用pytesseract对中文进行识别
print(pytesseract.image_to_string(Image.open('textCh.png'), lang='chi_sim'))# 使用pytesseract对中文和英文进行识别(使用的函数参数与上面相同,中文兼容英文)
print(pytesseract.image_to_string(Image.open('textench.png'), lang='chi_sim'))

进行识别的图片为:

图1 英文图片

图2 中文图片

图3 中英混搭图片

识别的结果为:

背景还算干净整洁,不过识别的结果却不尽如人意,不过比人手动输入要快多了呢~~~~~

最后,附上pytesseract的链接:

https://pypi.python.org/pypi/pytesseract

Python爬取Instagram数据Python将图片转化为文字相关推荐

  1. 如何用python爬取网页数据,python爬取网页详细教程

    大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...

  2. python爬取游戏数据,Python 爬虫之好游快爆游戏排行信息爬取

    爬取思路 1.获取人气排行榜信息页面,从中提取到每个游戏url 2.把获取到的url加入到队列中 3.从队列中获取url 进行请求获取详情页 4.从详情页获取信息,提取到游戏的信息以及评论信息 代码实 ...

  3. python爬取Instagram上偶像的帖子(包括图片和视频)

    python爬取Instagram上偶像的帖子(包括图片和视频) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 目录 python爬取Instagram上偶像的帖子(包 ...

  4. python爬取微博数据词云_用Python爬取微博数据生成词云图片

    原标题:用Python爬取微博数据生成词云图片 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智能BI.大数 ...

  5. Python爬取京东商品评论和图片下载

    Python爬取京东商品评论和图片下载 代码仅供学习使用,切勿扩散并且频繁爬取网站 贴上代码和注释,方便自己下次看 import requests import time import json im ...

  6. 教你用python爬取王者荣耀英雄皮肤图片,并将图片保存在各自英雄的文件夹中。(附源码)

    教你用python爬取王者荣耀英雄皮肤图片,并将图片保存在各自英雄的文件夹中.(附源码) 代码展示: 保存在各自的文件夹中 美么? 让我们开始爬虫之路 开发环境 windows 10 python3. ...

  7. 如何使用Python爬取基金数据,并可视化显示

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于Will的大食堂,作者打饭大叔 前言 美国疫情越来越严峻,大选也进入 ...

  8. python爬取网页公开数据_如何用Python爬取网页数据

    使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...

  9. 编程python爬取网页数据教程_实例讲解Python爬取网页数据

    一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...

最新文章

  1. 复旦教授:在一般院校里,我可能连当副教授都不够格
  2. hive安装报错如何解决?
  3. Centos7 上配置 java JDK1.8
  4. 听说过Netflix的Chaos Monkey吗?不用羡慕,我们.NET也有
  5. Fraction Construction Problem(拓展欧几里德)
  6. 统计信息在数据库中的作用_统计在行业中的作用
  7. mysql连表查询on条件_mysql 外连接的时候,条件在on后面和条件在where后面的区别...
  8. 想Get热搜同款?GitHub开源神器让父亲重返18岁!
  9. mysql关于索引的一些零碎知识点(持续更新)
  10. JavaScript 基础一
  11. 【优化算法】粒子群优化模拟器【含Matlab源码 1553期】
  12. 使用c语言的多学科协同仿真软件,一种多学科协同仿真系统及方法与流程
  13. 电气工程学计算机有用吗,我是学计算机的,因为一直喜欢电气,所以想考个注..._电气工程师_帮考网...
  14. 好玩的Java塔防游戏,根本停不下来!五款经典又好玩的塔防游戏推荐
  15. 树莓派高阶课程7:树莓派博通BCM2835芯片手册导读
  16. 刀片机服务器虚拟化方案,IBM刀片服务器虚拟化方案
  17. Java:获取字符串长度(length())
  18. 计算机科学引论精编版,2021计算机科学引论(英文精编版)
  19. 学好数据库,看这9本书就够了
  20. 更轻量的百度百舸,CCE Stack智算版发布

热门文章

  1. 百度地图,开启marker点拖拽,并监听拖拽后的坐标位置
  2. LeetCode 2021 力扣杯全国秋季编程大赛(第384名)
  3. lvds 共模电感_一文了解共模电感/共模信号/差分信号
  4. 软件测试/自动化测试/测试开发/性能测试经典好书推荐
  5. FAL:Flash 抽象层的使用
  6. 【深度】人工智能或重演 2002 互联网泡沫 ! 95% 的企业会倒闭?
  7. 计算机辅助光学设计 code v s2,计算机辅助光学设计-code-v-s2复习进程.ppt
  8. usb插入检测系统、支持实时日志记录、邮箱报警
  9. day12_继承(继承-抽象类-代码块)
  10. android源生Browser分析(二)---APP层基本架构