Keresés
Header Háttér

Webshark Blog

… jquery, ajax, design, psd, plugin, modul, web2, social, miegymás…

2022-08-250 komment

Mi az a robot a weben? És hogyan tartsd távol őket a weboldaladtól?

Az esetek nagy részében a botok ártalmatlanok, sőt kifejezetten várhatod is őket, ha például azt szeretnéd, hogy a Google minden oldalad indexelje. Ugyanakkor akadnak olyan esetek, amikor a botok problémát és felesleges forgalmat jelentenek a weboldalad számára.

Először is nézzük meg, hogy pontosan mi is az a bot, hogy védekezni tudj ellene és megakadályozd, hogy feltérképezze az oldalad. A bot a „robot” szó rövidítése, egy olyan szoftver, melyet egy meghatározott, ismétlődő feladat elvégzésére programoztak.

A robotoknak két típusa van a neten: jóindulatú és rosszindulatú botok. Nem minden robot rossz, vagyis nem kell ádáz küzdelmet folytatva, távol tartani mindegyiket a weboldaladtól. A Google is botokat használ a weboldalak feltérképezésére, így ha blokkolod, akkor nem fog megjelenni a weboldalad a keresőben. Emellett nagyon sok más robot járja a webet, melyek megkönnyítik emberek munkáját azzal, hogy az ismétlődő feladatokat fáradhatatlanul elvégzik helyettük. Ezek a botok hasznos adatokat szednek össze, melyek alapján automatizálhatók és elvégezhetők feladatok.

A jó botok a háttérben futnak, nem támadnak meg felhasználókat vagy a weboldalt. A rossz botok ezzel szemben fenyegethetik a weboldal biztonságát, a nagyobb botnetek pedig DDOS támadást is indíthatnak. A rossz robotok segítenek személyes adatok ellopásában, káros linkeket helyeznek el a weboldaladon, spammelik az űrlapjaidat, esetleg leállítják az oldalt.

De ha nem is támadnak meg, milyen problémákat okozhatnak ezek a botok?

  • Bizonytalanná teszik az adatokat
  • Nem tudod, honnan érkezik a forgalom
  • A jelentések megalapozatlanná válnak
  • Terhelik a szervert, foglalják a sávszélességet

A gond csak az, hogy nem olyan könnyű minden robotot felfedezni, amely feltérképezheti a weboldaladat. Ehhez mélyre kell ásni, és ki kell szűrni a rosszindulatú példányokat. (Ha csak az analitikát akarod megtisztítani a botoktól, akkor a Google Analyticsről szóló anyagunkban erről ejtettünk néhány szót.)

A robotok alapvetően kétféle úton blokkolhatók. Az egyik a robots.txt, mely egy olyan fájl, ami a szervered gyökérkönyvtárában található (már ha be van állítva), és amelynek segítségével letiltható sokféle bot az oldalról. Tehát, ha például azt akarod, hogy a Google távol maradjon a weboldaladtól, akkor a robots.txt-ben ezt a két sort helyezed el:

User-agent: Googlebot
Disallow: /

Ebben az esetben a Google nem fogja indexelni a weboldalad. Ez akkor lehet indokolt, ha egy adott oldal mondjuk kétszer van jelen a weben és nem akarsz a duplikált tartalom hibájába esni. Természetesen nem csak a Googlebotot tilthatod ki, hanem bármely más botot is, melynek ismered a nevét. Ez nem mindig egyszerű, lehet, hogy sokat kell keresgélni utána.

Ha viszont minden botot ki akarsz tiltani a webhelyedről, akkor így fog kinézni a két sor:

User-agent: *
Disallow: /

Ez használható például abban az esetben, ha még nem akarod nyilvánosságra hozni a weboldalad. Gyakoribb, hogy csak egy bizonyos mappát akar a weboldaltulajdonos elérhetetlenné tenni, akkor meg kell adnia a mappa nevét a /…/ jelek között.

Nagyjából ennyi lenne, amit a botokról első körben tudni érdemes, az nyilván látszik, hogy a rossz botok kiszűrése nem megy könnyen, illetve nem egy automatikus folyamat. Próbálkozni mindenesetre lehet és talán érdemes is.

Kategória: Fejlesztés | Címke:

Főleg írok. Főleg blogot és közösségi médiát, de tágabb perspektívában: online marketing, úgyhogy van benne bőven SEO, laza AdWords, webdesign-okoskodás, és még ami belefér.

Comments are closed.

kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet kubet