您有没有这样的需求:
1、定时采集新闻、文章等任何您想采集的内容,并自动发布到您的网站。
2、从指定网站抓取所需数据,通过分析和处理后保存到您的数据库。
3、通过自动采集,可以监控论坛等社区类网站,让您第一时间发现您所关注的内容。
4、可以批量下载PDF、RAR、图片等各种文件,并同时采集其相关信息。
…
还有更多您想到,我们却没有想到的信息抓取功能,等待着您去发掘。
您有没有遇到过这样的困惑:
使用Java开发的采集器、火车头采集器,数据采集下来无法直接发布到CMS系统中去,两者集成真是费事。
您有没有在采集的过程中,遇到这样的问题,无法定时定点的监控对应的信息?
采集下来的数据,发布的时候,需要人工的标引数据,费事费力?
一个企业版的信息监控系统,动辄几十万,上百万,投入大,产出小,还不好用。
基于Drupal+ Feeds模块的网页数据采集方案:
1、RSS数据订阅与收割,我们可以做到收割全文,而不仅仅局限于默认的RSS摘要。
2、任意的HTML列表页面,只要路径存在规则,我们都可以将它收割抓取下来,我们采用业内流行的Xpath规则。
3、支持任意的编码格式,实现智能转码。中文的编码格式是不统一的,不同网站采用不同的编码格式,我们能够智能转换。
4、支持定时更新,采用Drupal的定时任务,周期性的爬取最新内容。
5、基于种子的元数据,能够对收割的文章,进行自动标引,节省大量的人工著录成本。
6、与Solr相集成,抓取的内容,能够通过Solr进行分面搜索,对于搜索结果,能以RSS的方式呈现出来,方便终端用户的订阅。
7、完善的后台管理,对于全文抓取,可以追踪每篇文章的抓取状态,未抓取,抓取成功,抓取失败,对于未抓取成功的文章,可以批量重新抓取。
8、与Drupal的内容发布相集成,抓取和发布无缝集成,Drupal强大的工作流机制,给人无限的想象空间。
9、4年的Drupal抓取经验,10+多个真实项目的锤炼,让我们的方案更成熟。