Mi az a robot a weben? És hogyan tartsd távol őket a weboldaladtól?

2022-08-250 komment

Mi az a robot a weben? És hogyan tartsd távol őket a weboldaladtól?

Az esetek nagy részében a botok ártalmatlanok, sőt kifejezetten várhatod is őket, ha például azt szeretnéd, hogy a Google minden oldalad indexelje. Ugyanakkor akadnak olyan esetek, amikor a botok problémát és felesleges forgalmat jelentenek a weboldalad számára.

Először is nézzük meg, hogy pontosan mi is az a bot, hogy védekezni tudj ellene és megakadályozd, hogy feltérképezze az oldalad. A bot a „robot” szó rövidítése, egy olyan szoftver, melyet egy meghatározott, ismétlődő feladat elvégzésére programoztak.

A robotoknak két típusa van a neten: jóindulatú és rosszindulatú botok. Nem minden robot rossz, vagyis nem kell ádáz küzdelmet folytatva, távol tartani mindegyiket a weboldaladtól. A Google is botokat használ a weboldalak feltérképezésére, így ha blokkolod, akkor nem fog megjelenni a weboldalad a keresőben. Emellett nagyon sok más robot járja a webet, melyek megkönnyítik emberek munkáját azzal, hogy az ismétlődő feladatokat fáradhatatlanul elvégzik helyettük. Ezek a botok hasznos adatokat szednek össze, melyek alapján automatizálhatók és elvégezhetők feladatok.

A jó botok a háttérben futnak, nem támadnak meg felhasználókat vagy a weboldalt. A rossz botok ezzel szemben fenyegethetik a weboldal biztonságát, a nagyobb botnetek pedig DDOS támadást is indíthatnak. A rossz robotok segítenek személyes adatok ellopásában, káros linkeket helyeznek el a weboldaladon, spammelik az űrlapjaidat, esetleg leállítják az oldalt.

De ha nem is támadnak meg, milyen problémákat okozhatnak ezek a botok?

Bizonytalanná teszik az adatokat
Nem tudod, honnan érkezik a forgalom
A jelentések megalapozatlanná válnak
Terhelik a szervert, foglalják a sávszélességet

A gond csak az, hogy nem olyan könnyű minden robotot felfedezni, amely feltérképezheti a weboldaladat. Ehhez mélyre kell ásni, és ki kell szűrni a rosszindulatú példányokat. (Ha csak az analitikát akarod megtisztítani a botoktól, akkor a Google Analyticsről szóló anyagunkban erről ejtettünk néhány szót.)

A robotok alapvetően kétféle úton blokkolhatók. Az egyik a robots.txt, mely egy olyan fájl, ami a szervered gyökérkönyvtárában található (már ha be van állítva), és amelynek segítségével letiltható sokféle bot az oldalról. Tehát, ha például azt akarod, hogy a Google távol maradjon a weboldaladtól, akkor a robots.txt-ben ezt a két sort helyezed el:

User-agent: Googlebot
Disallow: /

Ebben az esetben a Google nem fogja indexelni a weboldalad. Ez akkor lehet indokolt, ha egy adott oldal mondjuk kétszer van jelen a weben és nem akarsz a duplikált tartalom hibájába esni. Természetesen nem csak a Googlebotot tilthatod ki, hanem bármely más botot is, melynek ismered a nevét. Ez nem mindig egyszerű, lehet, hogy sokat kell keresgélni utána.

Ha viszont minden botot ki akarsz tiltani a webhelyedről, akkor így fog kinézni a két sor:

User-agent: *
Disallow: /

Ez használható például abban az esetben, ha még nem akarod nyilvánosságra hozni a weboldalad. Gyakoribb, hogy csak egy bizonyos mappát akar a weboldaltulajdonos elérhetetlenné tenni, akkor meg kell adnia a mappa nevét a /…/ jelek között.

Nagyjából ennyi lenne, amit a botokról első körben tudni érdemes, az nyilván látszik, hogy a rossz botok kiszűrése nem megy könnyen, illetve nem egy automatikus folyamat. Próbálkozni mindenesetre lehet és talán érdemes is.

Kategória: Fejlesztés | Címke: bot

Németh Krisztián

Főleg írok. Főleg blogot és közösségi médiát, de tágabb perspektívában: online marketing, úgyhogy van benne bőven SEO, laza AdWords, webdesign-okoskodás, és még ami belefér.

Comments are closed.

Webshark Blog

Webshark Blog

Mi az a robot a weben? És hogyan tartsd távol őket a weboldaladtól?

Németh Krisztián

LEGUTÓBBI BEJEGYZÉSEK

Kategóriák

Cimkék