php获取抖音数据,抖音数据采集
/**
* 抖音链接url
*/
private function douyin ($url){
$number_maps = [
0 => ['', '', ''],
1 => ['', '', ''],
2 => ['', '', ''],
3 => ['', '', ''],
4 => ['', '', ''],
5 => ['', '', ''],
6 => ['', '', ''],
7 => ['', '', ''],
8 => ['', '', ''],
9 => ['', '', ''],
];
$opts = [
'http' => [
'header' => "User-Agent: Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Mobile Safari/537.36",
]
];
$context = stream_context_create($opts);
$html = file_get_contents($url, false, $context);
if (!$html) {
return [];
}
$data = [];
// 封面图
preg_match('/id="videoPoster"\s*style="background-image:url\((.*?)\)">/i', $html, $match);
$data['cover_url'] = $match[1];
//抖音昵称
preg_match('/class="user-info-name">\@(.*?)
$data['douyin_name'] = $match[1];
//抖音ID
preg_match('/.*?ID:(.*?)/i', $html, $match);
$data['douyin_uid'] = str_replace(' ', '', strip_tags($match[1]));
//点赞数
preg_match('/.*?(.*?)/i', $html, $match);
$data['thumb_times'] = str_replace(' ', '', strip_tags($match[1]));
// 评论数
preg_match('/.*?(.*?)/i', $html, $match);
$data['comment_times'] = str_replace(' ', '', strip_tags($match[1]));
// $data_str = json_encode($data);
foreach ($number_maps as $k => $v) {
$data = str_replace($v, $k, $data);
}
$thumb_times_unit = strtolower(substr($data['thumb_times'], -1));
if ($thumb_times_unit == 'w') {
$data['thumb_times'] = intval(floatval($data['thumb_times']) * 10000);
} else if ($thumb_times_unit == 'k') {
$data['thumb_times'] = intval(floatval($data['thumb_times']) * 1000);
}
$comment_times_unit = strtolower(substr($data['comment_times'], -1));
if ($comment_times_unit == 'w') {
$data['comment_times'] = intval(floatval($data['comment_times']) * 10000);
} else if ($comment_times_unit == 'k') {
$data['comment_times'] = intval(floatval($data['comment_times']) * 1000);
}
preg_match('/itemId\s*:\s*"(\d+)"/i', $html, $match);
$data['douyin_item_id'] = $match[1];
preg_match('/uid:\s*"(\d+)"/i', $html, $match);
$user_id = $match[1];
$html = file_get_contents('http://www.iesdouyin.com/share/user/' . $user_id, false, $context);
$data['user_id'] = $user_id;
//粉丝数
preg_match('/.*?(.*?)/i', $html, $match);
$data['fans_times'] = str_replace(' ', '', strip_tags($match[1]));
//关注数
preg_match('/.*?(.*?)/i', $html, $match);
$data['like_times'] = str_replace(' ', '', strip_tags($match[1]));
foreach ($number_maps as $k => $v) {
$data = str_replace($v, $k, $data);
}
$fans_times_unit = strtolower(substr($data['fans_times'], -1));
if ($fans_times_unit == 'w') {
$data['fans_times'] = intval(floatval($data['fans_times']) * 10000);
} else if ($fans_times_unit == 'k') {
$data['fans_times'] = intval(floatval($data['fans_times']) * 1000);
}
$like_times_unit = strtolower(substr($data['like_times'], -1));
if ($like_times_unit == 'w') {
$data['like_times'] = intval(floatval($data['like_times']) * 10000);
} else if ($like_times_unit == 'k') {
$data['like_times'] = intval(floatval($data['like_times']) * 1000);
}
return $data;
}
php获取抖音数据,抖音数据采集相关推荐
- 抖音数据 - 网民评论数据采集,分析
人民网抖音号 发布视频的评论分析 数据抓取主要软件/工具:python3.6, Mitmproxy, xposed, Justtrustme 数据采集范围: 2019 - 2020 数据获取技术难点: ...
- 怎么获取codeforces的数据_飞瓜数据5大功能盘点,帮你抓住2019抖音新一波涨粉红利期!...
在过去的一年中,短视频产业全面进入高速运作的模式,我们飞瓜数据为了更好的服务抖音短视频运营,覆盖抖音各个方面的数据,为抖音运营者提供从内容到电商运营整个产业链过程中所涉及的服务数据平台. 如何让更多用 ...
- charles把抖音数据保存到本地处理
目前抖音的加密难度较高,对于只需要获取一些指定数据的工作任务来说 代价太大. 所以可以采用 模拟器加抓包工具 ,将数据保存到本地,再用python来提取,处理数据. 下面做一个案例示范: 抖音APK的 ...
- 爬取抖音数据实践方案《进阶版》
这篇文章是续上一篇(爬取抖音数据实践方案<基础版>).根据实际情况,落地的方案是:mitmdump+模拟器+python脚本+mysql数据库. 最终达到的效果截图: 接下来我把上面方案拆 ...
- 5款类蝉妈妈抖音数据工具推荐
担心蝉妈妈数据不准怎么办?作为一个在电商培训行业摸爬滚打10多年的老兵,大头今天给大家推荐其它五个类似蝉妈妈的抖音数据分析网站. 一.飞瓜数据 飞瓜比蝉妈妈做的更早,抖快,B站.小红书.淘宝.微博等主 ...
- 26万条抖音数据背后的推荐逻辑以及严重失调的男女比例
数据洞察 1.数据介绍 数据区间是2018年2月1日-5月10日,历时两个月,累计260968条. 采集过程中,对作者做了去重处理,也就是说每个作者只取了TA的一条视频数据. 这也代表着我们拥有26W ...
- 2019年抖音数据报告趣味解读(附PDF完整版下载)
昨天(2020.01.06)抖音发布了2019年的抖音数据报告,从2019.1到2020.1一年的时间,日活从2.5亿到4亿,增长1.5亿,这速度也没谁了,怪不得微信慌了. 铲屎官的行业里,以后可能还 ...
- 2020抖音数据报告,日活破6亿
2020抖音数据报告,日活破6亿,螺蛳粉成为最热门实物. - END - 本文为转载分享&推荐阅读,若侵权请联系后台删除 ----------------- 长按识别下方二维码,并关注公众号1 ...
- python抓取抖音数据
最近是出于兴趣,在网络上搜集了相关资料,实现了抓取抖音数据的流程,本内容只讲大致思路,具体的实现内容,csdn上有很多优秀的教程,在此我们也感谢先驱做出的贡献. 下方参考资料中,1号参考资料中通过模拟 ...
最新文章
- java 年计算_JAVA计算年/周的问题
- 取某个日期所在周的任意一天日期
- 利剑无意之JAVA面试题(二)
- Codeforces Round #661 (Div. 3)
- 【渝粤题库】国家开放大学2021春1020国际私法题目
- 点击文本框后页面变大
- c语言程序中return的作用,单片机C语言程序中return dat 什么意思
- docker mysql命令大全_Docker命令大全
- Python常见数据结构整理,分享给你们
- php 回调通知 连连支付_连连支付,或微信或支付宝支付,商品名称最后一个字乱码,php解决...
- python中绝对角度是什么意思_Python中的角度转换功能
- 拓端tecdat|R语言中敏感性和特异性、召回率和精确度作为选型标准的华夫图案例
- 应用统计学学什么科目_统计学考研初试都要考哪些科目?
- 永久关闭wps热点新闻的办法
- 《计算机网络》读书笔记
- 大数据难吗?如何快速掌握大数据开发技能
- python代码画樱花-python画樱花树代码 具体代码介绍
- Ubuntu使用gzip与bzip2与rar和tar压缩解压
- CatDriver 小米 猫盘 Boot Info
- 内存替换算法——LRU
热门文章
- 编译postgres exporter遇到的问题解决
- MATLAB中a(1,2:4)的含义、意思
- python开发3d游戏renpy_使用Python进行3DEXPERIENCE的COM开发的测试
- UE接入LTE网络协议架构
- 求两个文件的相对路径
- 毛边效果 html,详解Html5 Canvas画线有毛边解决方法
- 线性回归(课堂记录)
- 快速认识 PFR (Platform Firmware Resiliency)
- uni-app分享小程序页面
- html+css基础笔记_CSS样式_part1_2