php 抓取 wordpress 文字内容,如何抓取WordPress文章
抓取WordPress文章可以使用抓取插件来完成,如使用WP-AutoPost插件。
启用WP-AutoPost插件然后创建新的任务,然后对插件进行设置即可。
文章抓取设置
在该选项卡下, 我们需要设置文章标题和文章内容的匹配规则,提供两种方式进行设置,推荐使用CSS选择器方式,使用该方式更为简单,精确。
我们只需要设置文章标题CSS选择器和文章内容CSS选择器,即可准确抓取文章标题和文章内容。
在文章来源设置里,我们以采集”新浪互联网新闻“为例,这里还是以该例子讲解,通过查看列表网址http://roll.tech.sina.com.cn/internet_worldlist/index.shtml下某一篇文章的源代码即可轻松设置,例如,我们通过查看某篇具体文章http://tech.sina.com.cn/i/2013-10-18/22298831229.shtml的源代码,如下所示:
可以看到,文章标题在id为“artibodyTitle”的标签内部,因此文章标题CSS选择器只需要设置为 #artibodyTitle 即可;
同样的,找到文章内容的相关代码:
可以看到,文章内容在id为“artibody”的标签内部,因此文章内容CSS选择器只需要设置为 #artibody 即可;如下所示:
设置完成之后,可点击测试按钮,输入测试地址,如果设置正确,将显示出文章标题和文章内容,方便检查设置是否正确。
更多wordpress相关技术文章,请访问wordpress教程栏目进行学习!
php 抓取 wordpress 文字内容,如何抓取WordPress文章相关推荐
- PHPcurl抓取AJAX异步内容(转载)
PHPcurl抓取AJAX异步内容 其实抓ajax异步内容的页面和抓普通的页面区别不大.ajax只不过是做了一次异步的http请求,只要使用firebug类似的工具,找到请求的后端服务url和传值的参 ...
- 如何制定WordPress SEO 内容营销策略
做网站都想能快速被搜索引擎抓取,那么就离不开SEO,那么如何制定WordPress SEO 内容营销策略 ? WordPress本身就有受到搜索引擎喜爱的插件,很容易被抓取和收录,那么WordPres ...
- scrapy xpath获得a标签内的br em标签文字内容
scrapy xpath获得a标签内的br em标签文字内容 需要爬取的标签 实例 需要爬取的标签 <a title="[完整版]大哥别杀我" href="//ww ...
- Web scraper使用教程-进阶用法(二)-爬取二级页面内容
进阶用法(二)-爬取二级页面内容 1. 爬取网址 https://docs.microsoft.com/en-us/officeupdates/update-history-microsoft365- ...
- 抓取android ui原理,Android抓取文字、文字位置的分析
引文: 因为我弃用原来ATX框架中的uiautomator的东西,所以现在要把 UiSelector().text("XXX")这部分的功能给重新实现下. 所以这篇文章介绍的是抓取 ...
- 安居客检测到网页抓取_原创内容不收录 解决网站抓取异常的有效分析方法
有的网站明明内容优质原创,用户可以正常访问,但偏偏网络蜘蛛无法正常访问抓取导致无法被收录,搜索结果覆盖率偏低,对搜索引擎和网站都是一种损失,这种情况就是抓取异常.对于大量内容无法正常抓取的网站,搜索引 ...
- python爬虫搜特定内容的论文_python基于BeautifulSoup实现抓取网页指定内容的方法...
python基于BeautifulSoup实现抓取网页指定内容的方法 更新时间:2015年07月09日 10:12:50 作者:光索与诺 这篇文章主要介绍了python基于BeautifulSoup实 ...
- PHP PDF内容识别 抓取信息 方法
PHP PDF内容识别 抓取信息 方法 PDF Parser 使用 PDF Parser 参考:http://www.pdfparser.org/ (注意:composer.json 更新 pdfpa ...
- python 抓取天涯帖子内容并保存
python 抓取天涯帖子内容并保存 作者:大捷龙 csdn : http://blog.csdn.net/koanzhongxue ** 分析:天涯的帖子下载可以分为以下几个步骤 手动传入一个帖子首 ...
最新文章
- 百度高德位置定位服务器,调用百度、高德地图App,百度地图网页版,App定位
- DF以某一列的元素筛选其中属于某个集合的元素的所有行(2个版本函数)
- 解决ssh7.4升级8.5后环境变量失效和无法登录问题
- Github霸榜月余,原来是阿里技术官的千亿级并发系统设计手册上线了
- 在床上玩手机,千万不能把手机放下!
- 华为怎么删除自带的音乐_华为手机独有的这个模式,让睡觉更舒畅
- intellij 专业版 TomCat9
- 简单说几个常见的数据结构
- Atitit jsr规范化分类 attilax总结
- Jep 解析字符串数学公式
- 【UOS统信】安装谷歌浏览器
- Android TextToSpeech简单使用
- PID算法优化之积分器抗饱和处理
- 移动支付的方式有哪些拾方易告诉你
- jenkins+svn+脚本实现CIDI
- i78700k配什么显卡好_2K分辨率极致吃鸡 i7-8700K配GTX1070Ti吃鸡配置推荐 (全文)
- java获取异常信息
- 如何理解假设检验中的假设设计?
- PyQT从入门到出门-001
- React 基础----1
热门文章
- 计算机网络中什么叫总衰耗_计算机网络中的“带宽”,为什么是指“在单位时间内...
- 获取android com包名,Android系统中获取进程(和顶端包名)
- EOS源码分析:transaction的一生
- 最大连续1的个数 三 窗口大小固定,逻辑连续但实际上并不连续的滑动窗口
- python常用第三方库(转载)
- 使用git初始化本地仓库并提交到远程分支
- 萌龙大乱斗 合成表 持续更新
- winform登录时,在密码框按下回车,直接登陆
- Chap-3 Section 3.3 ELF文件头
- debian关闭开机自动启动时候的gui