خزنده های وب جزئ جدایی ناپذیر دنیای اینترنت بوده و به صورت مداوم در حال خزش بین سایتهای اینترنتی و جمع آوری اطلاعات موجود در آنها می باشند. از طرف دیگر، بخش قابل توجهی از صفحات وبرا محتوای تکراری تشکیل داده است. تشخیص اسناد و صفحات تقریبا یکسان یکی از الگوریتم های پرکاربرد در زمینه خزنده های وب می باشد.