解决方案

网页数据采集解决方案

您有没有这样的需求:

       1、定时采集新闻、文章等任何您想采集的内容,并自动发布到您的网站。

       2、从指定网站抓取所需数据,通过分析和处理后保存到您的数据库。

       3、通过自动采集,可以监控论坛等社区类网站,让您第一时间发现您所关注的内容。

       4、可以批量下载PDF、RAR、图片等各种文件,并同时采集其相关信息。

 

  还有更多您想到,我们却没有想到的信息抓取功能,等待着您去发掘。

 

您有没有遇到过这样的困惑:

       使用Java开发的采集器、火车头采集器,数据采集下来无法直接发布到CMS系统中去,两者集成真是费事。

       您有没有在采集的过程中,遇到这样的问题,无法定时定点的监控对应的信息?

       采集下来的数据,发布的时候,需要人工的标引数据,费事费力?

       一个企业版的信息监控系统,动辄几十万,上百万,投入大,产出小,还不好用。

 

基于Drupal+ Feeds模块的网页数据采集方案:

       1、RSS数据订阅与收割,我们可以做到收割全文,而不仅仅局限于默认的RSS摘要。

       2、任意的HTML列表页面,只要路径存在规则,我们都可以将它收割抓取下来,我们采用业内流行的Xpath规则。

       3、支持任意的编码格式,实现智能转码。中文的编码格式是不统一的,不同网站采用不同的编码格式,我们能够智能转换。

       4、支持定时更新,采用Drupal的定时任务,周期性的爬取最新内容。

       5、基于种子的元数据,能够对收割的文章,进行自动标引,节省大量的人工著录成本。

       6、与Solr相集成,抓取的内容,能够通过Solr进行分面搜索,对于搜索结果,能以RSS的方式呈现出来,方便终端用户的订阅。

       7、完善的后台管理,对于全文抓取,可以追踪每篇文章的抓取状态,未抓取,抓取成功,抓取失败,对于未抓取成功的文章,可以批量重新抓取。

       8、与Drupal的内容发布相集成,抓取和发布无缝集成,Drupal强大的工作流机制,给人无限的想象空间。

       9、4年的Drupal抓取经验,10+多个真实项目的锤炼,让我们的方案更成熟。