网页数据采集解决方案

你在这里

您有没有这样的需求:

1、定时采集新闻、文章等任何您想采集的内容,并自动发布到您的网站。

2、从指定网站抓取所需数据,通过分析和处理后保存到您的数据库。

3、通过自动采集,可以监控论坛等社区类网站,让您第一时间发现您所关注的内容。

4、可以批量下载PDF、RAR、图片等各种文件,并同时采集其相关信息。

  还有更多您想到,我们却没有想到的信息抓取功能,等待着您去发掘。

您有没有遇到过这样的困惑:

使用Java开发的采集器、火车头采集器,数据采集下来无法直接发布到CMS系统中去,两者集成真是费事。

您有没有在采集的过程中,遇到这样的问题,无法定时定点的监控对应的信息?

采集下来的数据,发布的时候,需要人工的标引数据,费事费力?

一个企业版的信息监控系统,动辄几十万,上百万,投入大,产出小,还不好用。

 

基于Drupal+ Feeds模块的网页数据采集方案::

1,RSS数据订阅与收割,我们可以做到收割全文,而不仅仅局限于默认的RSS摘要

2,任意的HTML列表页面,只要路径存在规则,我们都可以将它收割抓取下来,我们采用业内流行的Xpath规则。

3,支持任意的编码格式,实现智能转码。中文的编码格式是不统一的,不同网站采用不同的编码格式,我们能够智能转换

4,支持定时更新,采用Drupal的定时任务,周期性的爬取最新内容。

5,基于种子的元数据,能够对收割的文章,进行自动标引,节省大量的人工著录成本。

6,与Solr相集成,抓取的内容,能够通过Solr进行分面搜索,对于搜索结果,能以RSS的方式呈现出来,方便终端用户的订阅。

7,完善的后台管理,对于全文抓取,可以追踪每篇文章的抓取状态,未抓取,抓取成功,抓取失败,对于未抓取成功的文章,可以批量重新抓取。

8,与Drupal的内容发布相集成,抓取和发布无缝集成,Drupal强大的工作流机制,给人无限的想象空间。

9,4年的Drupal抓取经验,10+多个真实项目的锤炼,让我们的方案更成熟。

 

我们的目标是成为中国的Lullabot,帮助更多的个人、企业、机构使用Drupal,用好Drupal。