12种文本数据采集方法
10种AI训练数据采集工具排行榜
- 12种文本数据采集方法
- 1、目前常用的12种数据网站
- 2、如何写Python爬虫:
- 3、人生第一个 爬虫代码示例:
- 另外:
12种文本数据采集方法
如何收集文本数据,来实现数据分析、数据训练、数据拓客使用,是目前所有人面临的一个技术问题。如果市场上有个技术或者有个工具可以聚合这些数据的话,我觉得将会促进大数据+AI的发展。数据采集根据采集数据的类型可以分为不同的方式,主要方式有:传感器采集、爬虫、录入。对于新闻资讯类、行业互联网和政府开放的数据,可以通过编写网络爬虫,设置好数据源后进行有目标性的爬取数据。下面是我对除了文本数据外,把平时大家接用比较多各种数据源的网址、开放类型、采集方法进行整理分类,希望可以帮助到大家快速找到时候自己的方法。
1、目前常用的12种数据网站
名称 | 种类 | 网址 | 公开方式 | 获取方式 |
---|---|---|---|---|
工商网 | 工商信息 | http://www.gsxt.gov.cn | 工商局免费公示 | 1.通过自己写python爬虫,自动爬取(需要采用图像识别技术识别处理验证码)2.通过下载近探拓客这种工具自动采集3.通过调用百度 阿里云那种接口付费 |
天眼查网 | 工商信息 | http://www.tianyancha.com | 免费查询会员收费下载 | 1.通过注册会员付费下载2.通过写爬虫采集(模拟VIP登录技术,可以用pythonselenium等技术采集) |
企查查网 | 工商信息 | http://www.qichacha.com | 免费查询会员收费下载 | 1.通过注册会员付费下载2.通过写爬虫采集(模拟VIP登录技术,可以用python、selenium等技术采集) |
企信宝网 | 工商信息 | https://www.qixin.com/ | 免费查询会员收费下载 | 1.通过注册会员付费下载2.通过写爬虫采集(模拟VIP登录技术,可以用python、selenium等技术采集) |
淘宝网 | 电商信息 | http://www.taobao.com | 开放搜索 | 1.这种只有通过自己写爬虫代码采集,可以用python、selenium等技术采集 |
虎赢 | 工商信息电商信息外贸信息行业信息 | http://data.itdakaedu.com | 数据库打包查询 | 1.可以通过近探拓客工具直接下载2.通过接口调取 |
天猫 | 电商信息 | https://www.tmall.com/ | 开放搜索 | 1.这种只有通过自己写爬虫代码采集,可以用python、selenium等技术采集 |
美团网 | 外卖信息 | https://www.meituan.com/ | 开放搜索 | 1.这种只有通过自己写爬虫代码采集,可以用python、selenium等技术采集 |
商标网 | 商标信息 | http://sbj.cnipa.gov.cn/ | 商标局免费公开 | 1.自己用python写代码采集(需要处理反爬)2.下载近探拓客这些工具下载3.可以调取像虎赢、阿里、京东云接口付费下载 |
专利网 | 专利信息 | https://www.cnipa.gov.cn/ | 知识产权局免费公开 | 1.可自己写python爬虫采集2.可以调取像虎赢接口付费下载 |
58网 | 租房信息 | http://www.58.com | 公开搜索 | 1.通过自己写python爬虫可实现采集2.虎赢postMan工具也可以采集 |
智联网 | 招聘信息 | http://www.zhaopin.com | 公开搜索 | 1.通过自己写爬虫可实现采集 |
2、如何写Python爬虫:
下面给大家提供我们用python采集数据时候,需要安装的环境和如何写一个python爬虫给大家做个详细介绍。
(1)爬虫的流程描述:
爬虫就是通过模拟人打开浏览器方式去打开网站 然后把网页的数据采集下来,只是人通过浏览器打开网页比较慢,比如您打开1万页的数据,估计需要1天时间,但是爬虫是代码自己循环打开,估计就10秒钟就扫描网了,所以爬虫其实没有什么高难度,就是通过代码技术解决人力效率问题
(2)爬虫需要解决问题:
因为爬虫是模仿人的行为像操作浏览器一样去打开网站,但是毕竟不是人的真实行为,他打开网站的速度太卡,会被网站的反爬机制识别出来是机器访问,就会进行拦截或者屏蔽,所以您在写爬虫打开某个网站的时候估计就会面临 IP被封或者出现验证码 或者出现需要vip登录。这个就是所有爬虫必须要解决的三座大山。其实要解决这个很简单, 就采用代理IP池解决封IP,采用图像识别进行验证码处理,采用模拟登录cookie池解决需要账号登录问题。
(3)写爬虫需要安装的环境和工具:
1 安装 selenium工具(专门模仿浏览器的)
2 安装python3.7
3 安装 xml 库 (python解析网页时候用的)
4 安装 bs4 (解析网页数据用)
5 安装 request (模拟请求网站的时候 核心库)
3、人生第一个 爬虫代码示例:
当您安装完上面基本的爬虫环境和工具后,我们可以开始一个用request方法采集天眼的试一试。
from bs4 import BeautifulSoup
import os
import requests
#定义您要爬取哪个网站
url = 'http://www.tianyancha.com'
#开始采集这个地址
data = requests.get(url)
#打印看看采集结果
print(data.text)
#后面就是 通过bs4解析网页结构 得到数据即可
Print(data)
另外:
这只是简单第一步request示例代码,高级的爬虫架构还有 scrapy、cookie池搭建、代理IP池搭建、分布式多进程等、,像这种采集微信、微信加人、商标、工商、专利、电商、外贸等网站真正采集起来都是需要处理绕过验证码、需要解决封IP、需要解模拟决账号登录等问题,解决这种问题需要根据每个网站的情况来写不同的爬虫策略的,我现在主要是聚合数据来做AI训练和分析,还要标记各种数据训练集,比如我2021年光工商的就有1.5亿数、商标的就有4000万、外贸的有600亿,还有各种音频、视频、文本海量的这些数据都采集下来后,下面就是就需要构建图谱和做AI训练,或者做数据分析,有任何问题技术可以与我交流,扣**扣是2805195685。
12种文本数据采集方法相关推荐
- 数字图像处理——12种常用图像处理方法对比
数字图像处理--12种常用图像处理方法对比 1.图像反转 2.对数变换 3.幂次变换 4.分段函数 5.直方图均衡化 6.直方图规定化 7.直方图匹配 8.线性滤波 9.中值滤波与均值滤波 10.拉普 ...
- dropout层_DNN,CNN和RNN的12种主要dropout方法的数学和视觉解释
深入研究DNN,CNN和RNNDropout方法以进行正则化,蒙特卡洛不确定性和模型压缩 动机 在(深度)机器学习中训练模型时的主要挑战之一是协同适应. 这意味着神经元彼此非常依赖. 它们彼此之间影响 ...
- java面向对象使用字符串_java面向对象中的String类中12种常用的方法
1.字符串与字符数组的转换 字符串可以使用toCharArray()方法变成一个字符数组,也可以使用String类的构造方法把一个字符数组变成一个字符串. public class StringAPI ...
- 瓷砖铺贴方法_瓷砖的12种铺贴方法
1)菱形铺法 在正铺的基础上45°旋转的效果,注意因为后期切割的关系,损耗会略大,建议多买几片备用. 2)工宇铺(砖形铺贴) 最近几年比较流行的正方形工字铺,相较正铺,给人感觉线条更多变有趣. 3)人 ...
- javascript中的12种循环遍历方法1
1:for循环 let arr = [1,2,3]; for(let i =0;i<arr.length;i++){ console.log(i,arr[i]) } //for循环是js中最常用 ...
- chatgpt赋能python:Python断句:一种快速且便利的文本处理方法
Python 断句:一种快速且便利的文本处理方法 Python作为一种通用编程语言,在文本处理方面也有很强的能力.其中,断句是在Python中应用广泛的一种文本处理方法.本篇文章将介绍如何使用Pyth ...
- 12种降维方法终极指南(含Python代码)
12种降维方法终极指南(含Python代码) 你遇到过特征超过1000个的数据集吗?超过5万个的呢?我遇到过.降维是一个非常具有挑战性的任务,尤其是当你不知道该从哪里开始的时候.拥有这么多变量既是一个 ...
- 12种降维方法及python实现
你遇到过特征超过1000个的数据集吗?超过5万个的呢?我遇到过.降维是一个非常具有挑战性的任务,尤其是当你不知道该从哪里开始的时候.拥有这么多变量既是一个恩惠--数据量越大,分析结果越可信:也是一种诅 ...
- 【机器学习】图解机器学习中的 12 种交叉验证技术
今天我给大家盘点下机器学习中所使用的交叉验证器都有哪些,用最直观的图解方式来帮助大家理解他们是如何工作的. 数据集说明 数据集来源于kaggle M5 Forecasting - Accuracy[1 ...
最新文章
- jsp指令元素与动作元素
- Qt Creator连接裸机设备
- 全球 android手机排行 2013,全球Android手机性能排行 三星Note 3夺魁
- eclipse手动安装alibaba代码规范插件
- spark.yarn.archive 的正确设置方法
- 交叉编译android版htop
- cp 过程中目录突然挂了_怎么解决管材激光切割机切管过程中出现的过烧及挂渣...
- Java作业-多线程
- 与时俱进的治疗策略不断提高RA无药缓解机会[EULAR2015_SAT0058]
- yii2环境搭建(ubuntu下nginx+php+mysql+yii2)
- MAC安装Securecrt
- 安装VMware,主机键盘不能用解决方法
- 浪漫的c语言程序6,【2021跨年】最浪漫的烟花程序,送给新的一年的自己!(源码)...
- 南开大学c语言100题,计算机二级C语言上机(南开大学)100题.doc
- Ps UI设计如何简单快捷切图
- 国内硕士申请加拿大计算机博士难度,加拿大硕士和博士真的那么难申请吗?
- 借助Writage,将 Word 转换为 Markdown发表csdn博客
- 同洲电子营收连续四年下滑 机顶盒市场遭蚕食
- springboot admin自定义监控里的info信息
- 怎么用计算机编写文件,怎样在电脑上写作文做文件
热门文章
- Android MVVM封装,MVVM: 这是一个android MVVM 框架,基于谷歌dataBinding技术实现
- 乖乖不得了,这款数字机器人竟然能够识别发票扫描信息!
- 高通平台开发系列讲解(系统篇)高通平台启动流程
- devm_ioremap_resource devm_ioremap 区别
- colab常见问题解答
- c++怎么取消换行或回到上一行
- IT项目经理应具备的十大软技能
- inter处理器 至强e5与i7有什么区别?Inter(R) Xeon(R) CPU E5-2660 v4@2.0GHz 2.00GHz
- 通讯型高清视频会议摄像机
- Linux协议栈--NAPI机制