50 công cụ quét dữ liệu web (web crawler) nguồn mở tốt nhất hiện nay

Công cụ quét dữ liệu web (web crawler) hay còn gọi là ant, bộ index tự động, bot, web spider, web robot hay web scutter là những chương trình tự động quét nội dung trên các website, tạo index dữ liệu nhằm thu thập các thông tin theo yêu cầu, cập nhật các thông tin mới nhất trên thế giới mạng phục vụ cho nghiên cứu, phân tích dữ liệu.

Có rất nhiều các công cụ quét dữ liệu trên thị trường hiện nay, trong đó có những công cụ nguồn mở hiệu quả và hoàn toàn miễn phí. Dưới đây là bảng thống kê các công cụ hàng đầu theo bigdata madesimple thống kê:

NameLanguagePlatform
HeritrixJavaLinux
NutchJavaCross-platform
ScrapyPythonCross-platform
DataparkSearchC++Cross-platform
GNU WgetCLinux
GRUBC#, C, Python, PerlCross-platform
ht://DigC++Unix
HTTrackC/C++Cross-platform
ICDL CrawlerC++Cross-platform
mnoGoSearchCWindows
Norconex HTTP CollectorJavaCross-platform
Open Source ServerC/C++, Java PHPCross-platform
PHP-CrawlerPHPCross-platform
YaCyJavaCross-platform
WebSPHINXJavaCross-platform
WebLechJavaCross-platform
AraleJavaCross-platform
JSpiderJavaCross-platform
HyperSpiderJavaCross-platform
ArachnidJavaCross-platform
SpindleJavaCross-platform
SpiderJavaCross-platform
LARMJavaCross-platform
MetisJavaCross-platform
SimpleSpider>JavaCross-platform
GrunkJavaCross-platform
CAPEKJavaCross-platform
ApertureJavaCross-platform
Smart and Simple Web CrawlerJavaCross-platform
Web HarvestJavaCross-platform
AspseekC++Linux
BixoJavaCross-platform
crawler4jJavaCross-platform
EbotErlandLinux
HounderJavaCross-platform
Hyper EstraierC/C++Cross-platform
OpenWebSpiderC#, PHPCross-platform
PavukCLunix
SphiderPHPCross-platform
XapianC++Cross-platform
Arachnode.netC#Windows
CrawwwlerC++Java
Distributed Web CrawlerC, Java, PythonCross-platform
iCrawlerJavaCross-platform
pycreepJavaCross-platform
OpeseC++Linux
AndjingJava
CcrawlerC#Windows
WebEaterJavaCross-platform
JoBoJavaCross-platform