Python爬取Instagram数据Python将图片转化为文字
PartⅠ: Instagram(以下称为Ins)指定用户的图片爬取
Ins的图片没有办法像很多图片一样可以右键点击进行保存,很多时候是使用截屏的方式进行保存。不过在Python中,有对Ins数据进行抓取并保存的库,使用起来非常方便快捷。
对Ins数据进行抓取的库为instagram-scraper,其下载地址为:https://pypi.python.org/pypi/instagram-scraper
(当然啦,爬取Ins数据的前提是网络能够访问到Ins,Ins是属于Facebook的~So......)
对于该库的安装,可以使用python自带的pip工具,安装命令如图所示(我已经安装,所以显示信息与安装过程不同):
安装成功后,可以通过命令行:
instagram-scraper stanford
(stanford可以用任何想要爬取的用户名代替)
这样,爬取的图片会存储在一个新创建的文件夹中,新建的文件夹为打开命令行时所在的目录(一般通过win + R 输入【cmd】打开,默认的目录为C:\Users\用户名)
详细的安装和爬取目录,可以在instagram-scraper这个项目的github地址上查阅:https://github.com/rarcega/instagram-scraper
Part Ⅱ: 使用python专用库——pytesseract将图片中的文字转化为可以进行复制粘贴的文本
tesseract按照Quora上一个用户的回答(下图所示),有两种使用方式,一种呢,是作为应用直接进行使用;另外一种是作为Python的一个库(个人感觉这种方式会比较好,因为可以使用Python的图像处理,来对要提取的文本进行突出,这个提取文本的库,是有点烂,待会儿图片吐槽,有图有真相~)
图片中,两个超链接为: tesseract-ocr ,pytesseract 0.1.6
pytesseract库的安装,也是使用python自带的pip工具,输入命令:
pip install pytesseract
安装完成后,可以直接导入pytesseract库,对图片进行识别,进行识别的代码如下:
#-*- coding:utf-8 -*-
import pytesseract
from PIL import Image# 使用pytesseract对英文进行识别
print(pytesseract.image_to_string(Image.open('textEng.png')))
# 使用pytesseract对中文进行识别
print(pytesseract.image_to_string(Image.open('textCh.png'), lang='chi_sim'))# 使用pytesseract对中文和英文进行识别(使用的函数参数与上面相同,中文兼容英文)
print(pytesseract.image_to_string(Image.open('textench.png'), lang='chi_sim'))
进行识别的图片为:
图1 英文图片
图2 中文图片
图3 中英混搭图片
识别的结果为:
背景还算干净整洁,不过识别的结果却不尽如人意,不过比人手动输入要快多了呢~~~~~
最后,附上pytesseract的链接:
https://pypi.python.org/pypi/pytesseract
Python爬取Instagram数据Python将图片转化为文字相关推荐
- 如何用python爬取网页数据,python爬取网页详细教程
大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...
- python爬取游戏数据,Python 爬虫之好游快爆游戏排行信息爬取
爬取思路 1.获取人气排行榜信息页面,从中提取到每个游戏url 2.把获取到的url加入到队列中 3.从队列中获取url 进行请求获取详情页 4.从详情页获取信息,提取到游戏的信息以及评论信息 代码实 ...
- python爬取Instagram上偶像的帖子(包括图片和视频)
python爬取Instagram上偶像的帖子(包括图片和视频) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 目录 python爬取Instagram上偶像的帖子(包 ...
- python爬取微博数据词云_用Python爬取微博数据生成词云图片
原标题:用Python爬取微博数据生成词云图片 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业智能BI.大数 ...
- Python爬取京东商品评论和图片下载
Python爬取京东商品评论和图片下载 代码仅供学习使用,切勿扩散并且频繁爬取网站 贴上代码和注释,方便自己下次看 import requests import time import json im ...
- 教你用python爬取王者荣耀英雄皮肤图片,并将图片保存在各自英雄的文件夹中。(附源码)
教你用python爬取王者荣耀英雄皮肤图片,并将图片保存在各自英雄的文件夹中.(附源码) 代码展示: 保存在各自的文件夹中 美么? 让我们开始爬虫之路 开发环境 windows 10 python3. ...
- 如何使用Python爬取基金数据,并可视化显示
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于Will的大食堂,作者打饭大叔 前言 美国疫情越来越严峻,大选也进入 ...
- python爬取网页公开数据_如何用Python爬取网页数据
使用Python爬取网页数据的方法: 一.利用webbrowser.open()打开一个网站:>>> import webbrowser >>> webbrowse ...
- 编程python爬取网页数据教程_实例讲解Python爬取网页数据
一.利用webbrowser.open()打开一个网站: >>> import webbrowser >>> webbrowser.open('http://i.f ...
最新文章
- 复旦教授:在一般院校里,我可能连当副教授都不够格
- hive安装报错如何解决?
- Centos7 上配置 java JDK1.8
- 听说过Netflix的Chaos Monkey吗?不用羡慕,我们.NET也有
- Fraction Construction Problem(拓展欧几里德)
- 统计信息在数据库中的作用_统计在行业中的作用
- mysql连表查询on条件_mysql 外连接的时候,条件在on后面和条件在where后面的区别...
- 想Get热搜同款?GitHub开源神器让父亲重返18岁!
- mysql关于索引的一些零碎知识点(持续更新)
- JavaScript 基础一
- 【优化算法】粒子群优化模拟器【含Matlab源码 1553期】
- 使用c语言的多学科协同仿真软件,一种多学科协同仿真系统及方法与流程
- 电气工程学计算机有用吗,我是学计算机的,因为一直喜欢电气,所以想考个注..._电气工程师_帮考网...
- 好玩的Java塔防游戏,根本停不下来!五款经典又好玩的塔防游戏推荐
- 树莓派高阶课程7:树莓派博通BCM2835芯片手册导读
- 刀片机服务器虚拟化方案,IBM刀片服务器虚拟化方案
- Java:获取字符串长度(length())
- 计算机科学引论精编版,2021计算机科学引论(英文精编版)
- 学好数据库,看这9本书就够了
- 更轻量的百度百舸,CCE Stack智算版发布
热门文章
- 百度地图,开启marker点拖拽,并监听拖拽后的坐标位置
- LeetCode 2021 力扣杯全国秋季编程大赛(第384名)
- lvds 共模电感_一文了解共模电感/共模信号/差分信号
- 软件测试/自动化测试/测试开发/性能测试经典好书推荐
- FAL:Flash 抽象层的使用
- 【深度】人工智能或重演 2002 互联网泡沫 ! 95% 的企业会倒闭?
- 计算机辅助光学设计 code v s2,计算机辅助光学设计-code-v-s2复习进程.ppt
- usb插入检测系统、支持实时日志记录、邮箱报警
- day12_继承(继承-抽象类-代码块)
- android源生Browser分析(二)---APP层基本架构