领航下载站 / 汇聚当下最新最酷的软件下载站!
领航下载站
您的位置: 首页 >软件频道 > 应用软件 > 文件处理 > 火车采集器
火车采集器 v9.9 / 网页数据采集软件
  • 软件大小:29.83MB
  • 软件语言:中文
  • 软件类型:国产软件
  • 软件授权:免费版
  • 更新时间:2019-07-05
  • 软件类别:文件处理
  • 软件官网://www.locoy.com/
  • 应用平台:WinXP/Vista/Win7/Win8

分数 软件星级:4

下载地址 收藏该页

标签: 数据采集

火车采集器是一款出色的网页数据采集软件。它能够识别很多的系统,不仅速度快而且十分安全。即使人不在电脑旁,它也能自动执行采集工作,很人性化。采集的内容和数量没有任何限制。

火车采集器

火车采集器是什么

火车采集器是一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。火车采集器历经十二年的升级更新,积累了大量用户和良好口碑,是目前最受欢迎的网页数据采集软件。

功能特点

1、多线程高速并行采集系统

任务分配至多个客户端,同时运行采集,效率倍增。

2、多识别系统

配备正文识别、中文分词识别、任意编码识别等多种识别系统,智能识别操作更轻松。

3、可选验证方式

可选择是否使用加密狗,随时保障数据安全。

4、全自动运行

无需人工值守操作,任务完成后自动关机

5、替换功能

同义,近义词替换、参数替换,伪原创必备技能。

6、任意文件格式下载

图片、压缩文件、视频等任意格式的文件都能轻松下载。

7、支持多数据库

支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。

8、无限级多页采集

支持包含ajax请求数据在内的多个页面信息的无限级采集。

火车采集器的插件如何用

采集器提供了插件机制,来增强数据采集、数据处理的能力。 目前插件按照功能分为3种:HTTP请求插件、内容数据插件、文件下载插件,下面介绍下C#源码类型的插件。

HTTP请求插件

可以修改HTTP请求前的请求数据(http header)和HTTP完成后的返回数据(response),这个插件包含了2个处理方法。

BeforeRequest(RequestEntry request)

这个方法会在所有HTTP请求前的调用,包括网址采集、内容采集请求,可以通过修改请求来应对一些复杂的网站抓取。

参数介绍:

request 参数中包含Url、Referer、Cookie、Headers、页面类型等,除HTTP基本属性外,还有包含一些特殊值

request.Properties["PageType"], 这个属性是页面类型,值为整数类型,包含6种类型

0:起始地址; 1:列表页面; 2:列表页的分页; 3:内容页面; 4:关联多页; 5:内容页的分页;

request.Properties["JobName"],任务名称

request.Properties["JobID"],任务ID

request.Properties 属性最好只做读取操作,不要修改,不然会造成无法预料的结果。其他的RequestEntry字段请参考 [文章最后]

AfterResponse(ResponseEntry response)

这个方法在所有HTTP请求完成后调用,可以修改为自己想要的数据,然后交给采集器来处理。

参数介绍:

response中包含HTTP响应数据,如返回HTML、响应Header

response.RawText`,是返回的HTML代码

response.Url`,请求的Url地址

和 request 一样,response 也包含了 response.Properties["PageType"]、request.Properties["JobName"]、request.Properties["JobID"],含义相同。

其他的ResponseEntry字段请参考 [文章最后]

示例插件代码:

火车采集器

火车采集器使用教程

网址采集规则

采集规则制作的第一步骤,点击向导添加,①➯②,出现如图界面。

分3种方式:普通网址,批量网址,文本导入。

火车采集器

a.普通网址:以一行一个的形式直接加入网址,不做任何解析。

b.批量网址:以通用的表达式批量生成网址。

c.文本导入:以文本导入的形式,文本为一行一个的网址。

获取内容网址

[常规模式]a.自动获取地址链接

自动获取地址链接:自动获取该级列表页中所有的a标签内的URL链接

火车采集器

更新内容

1、优化效率修复运行大量任务时运行卡顿问题

2、修复大量代理时配置文件锁死程序退出问题

3、修复部分情况下mysql链接不上问题

4、修复极少云规则规则显示不了的问题

5、修复ie版本号显示不正常的问题

6、修复多页处理&问题

7、搜索增加按任务id搜索功能

8、修复下载文件filename*=的bug处理

9、其它界面和功能优化

火车采集器下载

回顶部 去下载