Bo boty to odkurzacze.
Jak człowiek zakłada stronę w internecie, to sobie wyobraża, że wchodzi tam pani Kasia z pracy, jakiś random z Wykopu albo jeszcze ktoś przypadkowy. A potem patrzysz w logi i widzisz ruch z dziwnych sieci komórkowych, operatorów z drugiego końca świata i egzotycznych ASN-ów.
Oficjalne raporty z ostatnich lat mówią, że około połowa globalnego ruchu w sieci pochodzi od botów - w 2023 było to mniej więcej 49-50%, a w 2024 automatyczny ruch pierwszy raz przebił ruch ludzki i dobił do 51%. Jeżeli skupimy się na konkretnych miejscach w internecie, to ten udział jest jeszcze wyższy: blogi = 65%, punkty API = nawet 90%! I to mówimy tylko o tym, co da się względnie łatwo rozpoznać na podstawie źródeł IP i charakterystyki ruchu. Czyli: statystycznie rzecz biorąc, co drugi gość na twojej stronie.. to skrypt.
robots.txt
Stary internet opierał się na dość prostym założeniu, że jak jest sobie bot, to umie czytać. Od tego był plik robots.txt - zwykły tekst w katalogu głównym strony: "tu nie wchodzimy". Porządne roboty - indeksatory wyszukiwarek, archiwa, różne uczelniane pajęczyny - faktycznie ten plik czytają i mniej więcej się do niego stosują, ale nowa generacja skryptów ma do tego podejście bardzo osiedlowe: "nie ma krat w oknie, to znaczy, że wolno" - więc jeśli w robots.txt napiszesz "tu nie wchodzić", to możesz być prawie pewien, że właśnie tam zajrzą w pierwszej kolejności.
I to nie są już proste pajacyki z data center, które można jednym filtrem zablokować; bardzo często te skrypty przychodzą z IP mieszkaniowych, sieci komórkowych, egzotycznych operatorów, wyglądają w logach jak normalni użytkownicy, tylko trochę za bardzo kochają czytać wszystko, łącznie z paginacją kategorii sprzed pięciu lat.
A robots.txt? To jest plik-ozdoba, który istnieje chyba głównie po to, żebyś miał poczucie, że coś kontrolujesz. Nowe boty wchodzą wszędzie, bo jak coś jest w internecie, to znaczy, że można wziąć.
Koniec filozofii.
robots.txt i proof-of-work
Wszystkie te boty-odkurzacze są jednak niezwykle wrażliwe na jedno słowo, które w świecie kryptowalut wywołuje od razu wojnę na argumenty - Proof of Work. Pojawił się jakiś czas temu projekt o nazwie Anubis, który robi bardzo prostą rzecz: zanim wpuści kogoś na stronę, podsuwa mu małą łamigłówkę obliczeniową do rozwiązania.
Dla normalnego użytkownika różnica jest żadna - przeglądarka przez milisekundę coś przemieli w tle, nikt tego nawet nie zauważy; dla bota, który próbuje odwiedzić tysiące URL‑i na minutę, ta sama łamigłówka nagle zamienia się z pierdoły w bardzo konkretny koszt energii i czasu.
Autor Anubisa opisuje to w logach z rozbrajającą prostotą: był sobie endpoint, który dostawał setki tysięcy żądań dziennie od botów; po włączeniu PoW na najniższym poziomie trudności, liczba requestów spadła w ciągu doby do.. około jedenastu.
Efekt był powtarzalny - za każdym razem, gdy pojawiało się obowiązkowe mikro‑zadanie obliczeniowe, boty odkrywały, że jednak wcale nie są aż tak zainteresowane tą konkretną stroną. Czyli boty nie lubią PoW.
Tarpit - cyfrowe bagno
Anubis to dość nowy projekt, do kompletu są jeszcze tzw. tarpit'y - strony, które z punktu widzenia człowieka są mało ciekawe, ale z punktu widzenia botów wyglądają jak raj: pełno tekstu, pełno znaków, żadnych reklam, żadnych pop‑upów, tylko czyste litery do wessania. Ruch idzie tam w milionach żądań, a serwer odpowiada długimi, rozwlekłymi odpowiedziami - z punktu widzenia autora to tanie linijki tekstu, z punktu widzenia scrappera to gigantyczna ilość bezużytecznego balastu, który zajmuje miejsce w magazynie danych, zużywa pasmo, prąd i uwagę wszystkich procesów, które muszą to potem przeczytać i zdecydują, że może jednak nie wszystko było warte zachodu.
To jest taki ładny, cichy rodzaj odwetu: skoro ignorujesz moje robots.txt, skoro udajesz, że jesteś zwykłym użytkownikiem, to proszę bardzo - dostajesz tyle liter, ile tylko zdołasz unieść, nic z tego nie wynika, ale za to każdy twój request kosztuje cię odrobinę więcej niż poprzednio.
A może blockchain?
Można jednak pójść krok dalej i zamiast tylko sprawdzać, czy ktoś jest w stanie wykonać mały dowód pracy na CPU, sprawdzać też, czy jest gotów wrzucić do wspólnego licznika symboliczny żeton. Protokół HTTP ma do tego nawet przewidziany osobny numer - 402 Payment Required - ten sam rodzaj kodu, co znane z życia 404 (nie ma takiej strony) albo 302 (przenieśliśmy to gdzie indziej), tylko z innym komunikatem: "zasób istnieje, ale zanim go dostaniesz, brakuje jednej rzeczy - płatności".
Przez lata 402 był martwym znakiem w tabelce ale w ostatnich latach zaczęły się pojawiać pierwsze sensowne eksperymenty, które traktują go serio: serwer odpowiada na żądanie komunikatem np.: "zapłać mi 1/100 grosza" Podaje w odpowiedzi typ tokena, kwotę, adres i sieć, a przeglądarka albo agent AI wykonuje w tle mikropłatność i dopiero wtedy ponawia request z dodatkowym nagłówkiem potwierdzającym, że transakcja faktycznie przeszła.
Technicznie wygląda to jak normalny HTTP‑owy ping‑pong z jednym ekstra krokiem: najpierw dostajesz 402 Payment Required plus parametry płatności, potem klient odpalany przez człowieka lub maszynę wysyła drobną transakcję na blockchainie i ponawia żądanie, tym razem już z nagłówkami w stylu X-402-* czy innymi proofami, a serwer po weryfikacji odsyła treść, jakby nigdy nic się nie stało.
Na poziomie implementacji widać to już bardzo wyraźnie choćby w ekosystemie Bitcoin SV, który od kilku lat pozycjonuje się jako platforma właśnie do mikropłatności i nano‑płatności: standardy takie jak BRC‑41 PacketPay opisują dokładnie, jak serwer ma w odpowiedzi 402 odesłać nagłówek x-bsv-payment-satoshis-required z liczbą wymaganych satoshi. Dzięki bardzo niskim opłatom i dużej przepustowości BSV da się tam zejść do poziomu kwot rzędu tysięcznych czy nawet dziesięciotysięcznych części centa - realnie da się zapłacić 0,00001 dolara za pojedyncze wywołanie API, pojedynczy odczyt z sensora czy jeden strzał do modelu AI.
Dla człowieka, który wchodzi na stronę dwa razy dziennie, koszt 0,00001 PLN/USD może być kompletnie pomijalny - jednorazowy depozyt kilku groszy w BSV albo innym tanim tokenie, z którego schodzą kolejne wizyty, jest praktycznie niewyczuwalny, ale dla bota, który chce zasysać tysiące URL‑i z twojej domeny na godzinę, nagle każde kolejne żądanie staje się realnym kosztem. Dokładnie o to chodziło w oryginalnych koncepcjach Proof‑of‑Work i "płatnego" maila: sprawić, żeby masowe nadużywanie czy to skrzynki pocztowej, czy strony www, przestało być opłacalne, a normalne, pojedyncze użycie prawie nic nie kosztowało.
Czy taki model da się wdrożyć wszędzie i dla każdego? Oczywiście, że nie - mamy problemy z prywatnością, z dostępnością w biedniejszych krajach, z różnicami mocy sprzętu, z tym, że nie każdy chce podpinać portfel do każdej strony, którą odwiedza; ale sama idea, że w świecie, w którym ponad połowa ruchu w sieci generowana jest już przez automaty, można zacząć myśleć o małym, mierzalnym koszcie za każde wejście z botem-odkurzaczem.
Zaczyna przypominać to całkiem rozsądny mechanizm hamujący.
Cześć!
**Gwarantuję Ci niezmienność moich treści**
Hash artykułu:
ID transakcji: sprawdź OP_RETURN i porównaj jego hash
Komentarze
Prześlij komentarz