2022-08-250 komment
Mi az a robot a weben? És hogyan tartsd távol őket a weboldaladtól?
Az esetek nagy részében a botok ártalmatlanok, sőt kifejezetten várhatod is őket, ha például azt szeretnéd, hogy a Google minden oldalad indexelje. Ugyanakkor akadnak olyan esetek, amikor a botok problémát és felesleges forgalmat jelentenek a weboldalad számára.
Először is nézzük meg, hogy pontosan mi is az a bot, hogy védekezni tudj ellene és megakadályozd, hogy feltérképezze az oldalad. A bot a „robot” szó rövidítése, egy olyan szoftver, melyet egy meghatározott, ismétlődő feladat elvégzésére programoztak.
A robotoknak két típusa van a neten: jóindulatú és rosszindulatú botok. Nem minden robot rossz, vagyis nem kell ádáz küzdelmet folytatva, távol tartani mindegyiket a weboldaladtól. A Google is botokat használ a weboldalak feltérképezésére, így ha blokkolod, akkor nem fog megjelenni a weboldalad a keresőben. Emellett nagyon sok más robot járja a webet, melyek megkönnyítik emberek munkáját azzal, hogy az ismétlődő feladatokat fáradhatatlanul elvégzik helyettük. Ezek a botok hasznos adatokat szednek össze, melyek alapján automatizálhatók és elvégezhetők feladatok.
A jó botok a háttérben futnak, nem támadnak meg felhasználókat vagy a weboldalt. A rossz botok ezzel szemben fenyegethetik a weboldal biztonságát, a nagyobb botnetek pedig DDOS támadást is indíthatnak. A rossz robotok segítenek személyes adatok ellopásában, káros linkeket helyeznek el a weboldaladon, spammelik az űrlapjaidat, esetleg leállítják az oldalt.
De ha nem is támadnak meg, milyen problémákat okozhatnak ezek a botok?
- Bizonytalanná teszik az adatokat
- Nem tudod, honnan érkezik a forgalom
- A jelentések megalapozatlanná válnak
- Terhelik a szervert, foglalják a sávszélességet
A gond csak az, hogy nem olyan könnyű minden robotot felfedezni, amely feltérképezheti a weboldaladat. Ehhez mélyre kell ásni, és ki kell szűrni a rosszindulatú példányokat. (Ha csak az analitikát akarod megtisztítani a botoktól, akkor a Google Analyticsről szóló anyagunkban erről ejtettünk néhány szót.)
A robotok alapvetően kétféle úton blokkolhatók. Az egyik a robots.txt, mely egy olyan fájl, ami a szervered gyökérkönyvtárában található (már ha be van állítva), és amelynek segítségével letiltható sokféle bot az oldalról. Tehát, ha például azt akarod, hogy a Google távol maradjon a weboldaladtól, akkor a robots.txt-ben ezt a két sort helyezed el:
User-agent: Googlebot
Disallow: /
Ebben az esetben a Google nem fogja indexelni a weboldalad. Ez akkor lehet indokolt, ha egy adott oldal mondjuk kétszer van jelen a weben és nem akarsz a duplikált tartalom hibájába esni. Természetesen nem csak a Googlebotot tilthatod ki, hanem bármely más botot is, melynek ismered a nevét. Ez nem mindig egyszerű, lehet, hogy sokat kell keresgélni utána.
Ha viszont minden botot ki akarsz tiltani a webhelyedről, akkor így fog kinézni a két sor:
User-agent: *
Disallow: /
Ez használható például abban az esetben, ha még nem akarod nyilvánosságra hozni a weboldalad. Gyakoribb, hogy csak egy bizonyos mappát akar a weboldaltulajdonos elérhetetlenné tenni, akkor meg kell adnia a mappa nevét a /…/ jelek között.
Nagyjából ennyi lenne, amit a botokról első körben tudni érdemes, az nyilván látszik, hogy a rossz botok kiszűrése nem megy könnyen, illetve nem egy automatikus folyamat. Próbálkozni mindenesetre lehet és talán érdemes is.