抓取WordPress文章可以使用抓取插件来完成,如使用WP-AutoPost插件。

启用WP-AutoPost插件然后创建新的任务,然后对插件进行设置即可。

文章抓取设置

在该选项卡下, 我们需要设置文章标题和文章内容的匹配规则,提供两种方式进行设置,推荐使用CSS选择器方式,使用该方式更为简单,精确。

我们只需要设置文章标题CSS选择器和文章内容CSS选择器,即可准确抓取文章标题和文章内容。

在文章来源设置里,我们以采集”新浪互联网新闻“为例,这里还是以该例子讲解,通过查看列表网址http://roll.tech.sina.com.cn/internet_worldlist/index.shtml下某一篇文章的源代码即可轻松设置,例如,我们通过查看某篇具体文章http://tech.sina.com.cn/i/2013-10-18/22298831229.shtml的源代码,如下所示:

可以看到,文章标题在id为“artibodyTitle”的标签内部,因此文章标题CSS选择器只需要设置为 #artibodyTitle 即可;

同样的,找到文章内容的相关代码:

可以看到,文章内容在id为“artibody”的标签内部,因此文章内容CSS选择器只需要设置为 #artibody 即可;如下所示:

设置完成之后,可点击测试按钮,输入测试地址,如果设置正确,将显示出文章标题和文章内容,方便检查设置是否正确。

更多wordpress相关技术文章,请访问wordpress教程栏目进行学习!

php 抓取 wordpress 文字内容,如何抓取WordPress文章相关推荐

  1. PHPcurl抓取AJAX异步内容(转载)

    PHPcurl抓取AJAX异步内容 其实抓ajax异步内容的页面和抓普通的页面区别不大.ajax只不过是做了一次异步的http请求,只要使用firebug类似的工具,找到请求的后端服务url和传值的参 ...

  2. 如何制定WordPress SEO 内容营销策略

    做网站都想能快速被搜索引擎抓取,那么就离不开SEO,那么如何制定WordPress SEO 内容营销策略 ? WordPress本身就有受到搜索引擎喜爱的插件,很容易被抓取和收录,那么WordPres ...

  3. scrapy xpath获得a标签内的br em标签文字内容

    scrapy xpath获得a标签内的br em标签文字内容 需要爬取的标签 实例 需要爬取的标签 <a title="[完整版]大哥别杀我" href="//ww ...

  4. Web scraper使用教程-进阶用法(二)-爬取二级页面内容

    进阶用法(二)-爬取二级页面内容 1. 爬取网址 https://docs.microsoft.com/en-us/officeupdates/update-history-microsoft365- ...

  5. 抓取android ui原理,Android抓取文字、文字位置的分析

    引文: 因为我弃用原来ATX框架中的uiautomator的东西,所以现在要把 UiSelector().text("XXX")这部分的功能给重新实现下. 所以这篇文章介绍的是抓取 ...

  6. 安居客检测到网页抓取_原创内容不收录 解决网站抓取异常的有效分析方法

    有的网站明明内容优质原创,用户可以正常访问,但偏偏网络蜘蛛无法正常访问抓取导致无法被收录,搜索结果覆盖率偏低,对搜索引擎和网站都是一种损失,这种情况就是抓取异常.对于大量内容无法正常抓取的网站,搜索引 ...

  7. python爬虫搜特定内容的论文_python基于BeautifulSoup实现抓取网页指定内容的方法...

    python基于BeautifulSoup实现抓取网页指定内容的方法 更新时间:2015年07月09日 10:12:50 作者:光索与诺 这篇文章主要介绍了python基于BeautifulSoup实 ...

  8. PHP PDF内容识别 抓取信息 方法

    PHP PDF内容识别 抓取信息 方法 PDF Parser 使用 PDF Parser 参考:http://www.pdfparser.org/ (注意:composer.json 更新 pdfpa ...

  9. python 抓取天涯帖子内容并保存

    python 抓取天涯帖子内容并保存 作者:大捷龙 csdn : http://blog.csdn.net/koanzhongxue ** 分析:天涯的帖子下载可以分为以下几个步骤 手动传入一个帖子首 ...

最新文章

  1. 百度高德位置定位服务器,调用百度、高德地图App,百度地图网页版,App定位
  2. DF以某一列的元素筛选其中属于某个集合的元素的所有行(2个版本函数)
  3. 解决ssh7.4升级8.5后环境变量失效和无法登录问题
  4. Github霸榜月余,原来是阿里技术官的千亿级并发系统设计手册上线了
  5. 在床上玩手机,千万不能把手机放下!
  6. 华为怎么删除自带的音乐_华为手机独有的这个模式,让睡觉更舒畅
  7. intellij 专业版 TomCat9
  8. 简单说几个常见的数据结构
  9. Atitit jsr规范化分类 attilax总结
  10. Jep 解析字符串数学公式
  11. 【UOS统信】安装谷歌浏览器
  12. Android TextToSpeech简单使用
  13. PID算法优化之积分器抗饱和处理
  14. 移动支付的方式有哪些拾方易告诉你
  15. jenkins+svn+脚本实现CIDI
  16. i78700k配什么显卡好_2K分辨率极致吃鸡 i7-8700K配GTX1070Ti吃鸡配置推荐 (全文)
  17. java获取异常信息
  18. 如何理解假设检验中的假设设计?
  19. PyQT从入门到出门-001
  20. React 基础----1

热门文章

  1. 计算机网络中什么叫总衰耗_计算机网络中的“带宽”,为什么是指“在单位时间内...
  2. 获取android com包名,Android系统中获取进程(和顶端包名)
  3. EOS源码分析:transaction的一生
  4. 最大连续1的个数 三 窗口大小固定,逻辑连续但实际上并不连续的滑动窗口
  5. python常用第三方库(转载)
  6. 使用git初始化本地仓库并提交到远程分支
  7. 萌龙大乱斗 合成表 持续更新
  8. winform登录时,在密码框按下回车,直接登陆
  9. Chap-3 Section 3.3 ELF文件头
  10. debian关闭开机自动启动时候的gui