百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

如何实现火车头采集规则,一键批量自动采集发布(图文详解)

haoteby 2024-11-13 11:27 8 浏览

火车头采集规则,是很多站长在网站采集的时候需要用到的一种方式。但是随着互联网的发展,通过自定义写采集规则会显得越来越麻烦以及低效率。使用火车头采集规则的站长一定是对网站采集有着强烈的需求,那么怎么完成网站内容的采集呢?就是接下里我要说的,火车头采集规则实现方法,免规则,简单高效,无需看全文,着重看文章内的图片就好了。【看图一,火车头采集规则,永久免费】


使用火车头采集规则采集有分页的数据 分页就是目标网站上一个文章分为好几页,我们需要设置规则将其全部采到。火车头采集规则采集要点:采集规则要对每个分页都适用,分页规则如果是全部列出,只要第一个页面的分页规则就可以了。如果是上下页,每个页面的分页规则也要都适用。【看图二,火车头采集规则,批量自动采集发布】


我们先看一下,如果分页有两个,前一页[1] [2]下一页,火车头采集规则要做的是要使所写的规则在两个页面中都可以正常采到内容,写个规则,测试第一页,成功获取内容,然后改写网址为第二个,测试,同样可以获得我们要的内容,那么,说明这一步你已经成功了。进入下一步。火车头采集规则是这样来写的,两个页面都通过。【看图三,火车头采集规则,一键设置,高效简单】


现在我们看分页这里的火车头采集规则设置,全部列出是在第一页或每一页上都有全部的颁布文章的网址,上下页是没有将全部的列出。我们这个规则里全部列出。因此,我们只要在火车头采集规则第一页里找好包含所有网址的区域就可以了。【看图四,火车头采集规则,采集必备】


<td width="555" colspan="3" align="CENTER">

<span style="color:#999999">前一页</span>

<a href="/graphics/hq/gz/0802/1226877.html" >

[<span style="font-weight: bold">1</span>]</a>

<a href="/graphics/hq/gz/0802/1226877_1.html" >[2]

</a> <a href="/graphics/hq/gz/0802/1226877_1.html" >

下一页</a> </td>


注意,火车头采集规则只能采集代码,不能下载文件.因为这个标签数据是在网址列表里获得的,在测试规则时无法对它进行编辑,也就是无法执行一些过滤替换操作,设置完成后,文章内容采集界面就自动列出我们在列表页设置好的标签。

火车头采集规则就不多说了,比较简单,今天关于火车头采集规则的采集和设置就写到这里。这里就不说更多采集规则了,只是说一下火车头采集规则采集文件的具体配置该如何设置,具体操作主要是在“内容采集规则”里面进行设置,可以通过图片内来结合阅读。

相关推荐

JAVA零基础入门:JDK的概述及安装(jdk完整安装教程)

一.什么是jdkJDK(JavaDevelopmentToolKit)是Java开发工具包,JDK是整个JAVA的核心,包括了Java运行环境(JavaRuntimeEnvirnment),一...

开源、强大的工作流引擎:camunda入门介绍

原创不易,请多多支持!对Java技术感兴趣的童鞋请关注我,后续技术分享更精彩。简介CamundaisaJava-basedframeworksupportingBPMNforwork...

Centos8搭建Java环境(JDK1.8+Nginx+Tomcat9+Redis+Mysql)

一、开篇1.1目的每次换新的服务器,都要找资料配下环境,所以我写这篇文章,重新梳理了一下,方便了自己,希望也能给大家带来一些帮助。安装的软件有:JDK1.8+Nginx+Tomcat9+...

记录一次tomcat的升级过程(tomcat6升级tomcat8)

原因:ApacheTomcat资源管理错误漏洞(CVE-2021-42340)版本:ApacheTomcat/9.0.46,tomcat解决方法:升级tomcat9到最新版本9.0.581.官...

Tomcat10安装与配置图文教程(tomcat安装及配置)

Tomcat10安装与配置图文教程1、百度搜索“tomcat下载”,进入官网下载https://tomcat.apache.org/index.html...

VS2022配置x86/x64调用32位和64位汇编语言动态库环境

配置X86MASM汇编环境1.创建项目打开VS2022创建新项目,新建asm文件(注意要手动修改cpp文件后缀名为asm文件后缀名)。2.设置入口点选择菜单栏中的“调试”-“demo调试属性”-...

ARM版Win10用户狂喜 微软全新补丁让应用不再不兼容

Windows10onARM仅支持模拟32位的X86应用程序,这意味着大多数的桌面应用是无法在这一平台上运行的,这在很大程度上限制该平台的发展。为了解决这一问题,微软在内部开发频道推出可用于AR...

分享收藏的 oracle 11.2.0.4各平台的下载地址

概述oracle11.2.0.4是目前生产环境用的比较多的版本,同时也是很稳定的一个版本。目前官网上已经找不到下载链接了,有粉丝在头条里要求分享一下下载地址。一、各平台下载地址...

Android-x86现已基于5.1.1 Lollipop:支持UEFI和64位内核

采用Linux内核的Android-x86,旨在为PC带来最新的Android移动操作系统体验。而近日,该操作系统已经发布了Android-x865.1的首个候选发布(RC)版本。发行说明中提到:A...

Linux Kernel源码阅读: x86-64 系统调用实现细节(二)

特别说明:该文章前两天发布过,但一直在审核中。看头条网友说字数太多可能一直处于审核中状态,我把该文章拆分成几个章节发布,如影响阅读体验还请见谅。五、系统调用编号...

树莓派4B安装win10后实测,CPU秒杀AMD Athlon64 3200+

在上一篇文章介绍了如何给树莓派4B安装win10系统,这篇就简单对系统进行测试,上一篇文章链接https://www.toutiao.com/i7015518822056886821/因为树莓派是a...

一键离线部署x86、arm64 RabbitMQ,花了2天去验证整理,直接拿去

最近有一个项目,客户是内网网络,只能离线部署,采用的麒麟ARM64服务器系统,不能远程部署,需要提前准备离线部署包让客户IT拷备上去再现场部署,部署时间就只有1天。自家系统采用的vue+springb...

Linux软件包管理(linux系统软件包的安装方法,并简要说明其特点)

Linux系统如果需要安装软件怎么办?如何安装,大概有以下几种方式1.二级制软件包管理(RPM、YUM)...

Tachyum要做全球最强64位处理器:性能比X86强,面积比ARM小

全球半导体芯片研发、生产最强的国家非美国莫属,如果有某家美国公司宣布要开发性能超强的芯片,大家不会意外,但要是一家斯洛伐克初创公司宣布要研发超级芯片呢?Tachyum公司就是这样一家公司,成立于201...

Android L 64位模拟器终于来了:x86独享

GoogleI/O2014大会已经过去了很久,64位的AndroidL依然停留在纸面上,但现在至少可以让开发者们先行品尝品尝了:64位的AndroidL模拟器已经发布。这次公布的模拟器镜像是专...