Keresés
Header Háttér

Webshark Blog

… jquery, ajax, design, psd, plugin, modul, web2, social, miegymás…

2017-07-130 komment

Mi az a duplikált tartalom? Büntet-e miatta a Google? És mi a megoldás?

A web 25-30 százaléka duplikált tartalom. És habár a Google nem büntet a duplikált tartalmakért, mégsem igazán hasznos, ha ilyenekkel van tele a weboldalad.

Matt Cutts, a Google egyik szakembere 2013-ban még azt jelezte, hogy a web 25-30 százaléka duplikált tartalom. A helyzet azóta sem javult, hiszen a Raven Tools egy nemrég közzétett tanulmányában 29 százalékról beszélt. De kezdjük ott, hogy

mi az a duplikált tartalom?

A Google definíciója szerint:

Ismétlődő tartalmon általánosságban olyan tartalmi blokkot értünk, amely egy ugyanazon vagy más domainen belül található másik tartalmi blokkal pontosan megegyezik, vagy arra észrevehetően hasonlít.” Ebből kiderül, hogy a duplikált tartalomnak két fajtája van, az egyik domainen belüli, a másik viszont olyan, ami több különböző domain alatt fordul elő.

Duplikált tartalom az olyan szabványos szöveg is, mely a weboldaladon a fejlécben, a láblécben vagy az oldalsó menüben található meg többször. De az is előfordul, hogy például a főoldaladon megjelennek a legolvasottabb vagy legfrissebb bejegyzéseidből részletek. Ez a fajta duplikáció azonban nem gond, nem is fogsz hátrányt szenvedni miatta SEO szempontból. A keresőrobotok ugyanis már vannak annyira kifinomultak, hogy megértik, mik a szándékaid ezekkel az ismétlődő tartalmakkal, és hogy nem áll mögöttük semmiféle manipulációs törekvés. Emiatt tehát ne aggódj!

Az viszont már gondot okoz, amikor a weboldalad több URL alatt is megjelenik. Olyasmikre gondolunk, mint a weboldalad www és www nélküli URL-je, a http és a https verzió, és ezek kombinációi. Az ilyen URL-eket a robotok különállóként értelmezik, a rajtuk található tartalom duplikált tartalomnak számít.

Ezután persze ott van annak is számtalan variációja, amikor azonosak a tartalmak különböző domainek alatti oldalakon. Például, ha átmásolsz valahonnan egy szöveget. Ha az egész weboldalad ilyen másolt tartalmakból áll, akkor ne nagyon reménykedj jó helyezésben a találati oldalakon. Ez nem büntetést jelent, egyszerűen az oldalad minősége nem megfelelő a Google szerint, és ebben igaza van, hiszen a tartalomnak nyilván van egy eredeti forrása.

Az is előfordul, hogy mondjuk csak idézel a tartalmaidon belül más weboldalak szövegeiből. Emiatt azonban nem kell, hogy fájjon a fejed, mert ezt nem tekinti spamnek a Google. Ugyanakkor a tartalmaknak van egy olyan szelete, amikor például egy teljes cikked megjelenik más weboldalon, mert engedélyezed számukra. Ilyenkor persze megjelensz forrásként, linkkel. Ezek ugyan szintén duplikált tartalomnak számítanak, de a Google megint csak nem büntet miatta.

Mi az, amit biztosan nem számít annak?

Ilyen például a lefordított tartalom, legyen szó mondjuk arról, hogy több nyelvű a weboldalad, és különböző ország TLD-k alatt jelenik meg a tartalom. Persze ez csak akkor igaz, ha nem egy szoftverrel, mondjuk a Google fordítóval fordítod le másik nyelvre, tehát amikor hiányzik a minőség a tartalomból. Ha a Google úgy ítéli meg, hogy annak nyelve nem hangzik természetesen, nem érezhető benne a személyes közreműködés, akkor az negatívan fog hatni.

Ugyancsak nem számít duplikált tartalomnak a mobilos weboldaladon megjelenő tartalom sem. Tehát, ha van egy szeparált mobiloldalad, és azon ugyanaz a tartalom, mint a desktopon megjelenő oldalé. A kettőt ugyanis nem ugyanazok a robotok fésülik át, így nem kell aggódni.

Nem büntet a duplikált tartalmak miatt a Google

Sokan tartanak attól, hogy a duplikált tartalom miatt megbünteti a weboldalukat a Google. Vagy, hogy az azonos szövegeket tartalmazó oldalaik egymással versenyeznek, így lerontva összességében a weboldalt. Ez azonban nem így működik. Pedig a Google már 2008-ban megpróbálta eloszlatni a tévhiteket a duplikált tartalom kapcsán. Susan Moska, akkor azt írta a Google Webmestereszközök blogba: “nincs olyan dolog, hogy duplikált tartalom miatti büntetés. Vagy legalábbis, nem úgy, ahogy azt a legtöbb ember érti, amikor erről beszélnek.”

A Google tájékoztatásában ez olvasható:

A webhelyeken szereplő ismétlődő tartalom miatt önmagában még nem teszünk lépéseket, csak akkor, ha úgy tűnik, hogy az ismétlődő tartalom megtévesztő, és a keresőmotorok eredményeinek manipulálására törekszik. Ha a webhelyén az ismétlődő tartalom miatti problémák merültek fel, és nem követi a fenti tanácsokat, akkor bevált módszereinkkel mi magunk választjuk ki a keresési eredmények között megjelenítendő verziót.

Valójában a Google csak úgy “büntet” a duplikált tartalom miatt, hogy szűri a keresési eredményeket. Ez Te is megnézheted, ha hozzáadod egy találati oldal URL-jének a végéhez a “&filter=0” kifejezést. Ezzel el tudod távolítani a szűrést. Ilyenkor megjelennek a duplikált tartalmak, melyek nincsenek megfelelően kezelve, vagyis, amikor rossz munkát végeztünk az oldalunkon.

Ez viszont nem jelenti azt, hogy a duplikált tartalom önmagában bármiféle kárt okozna a weboldalnak. Annyiban jelent mégis gondot, hogy a Google-nek kell kiválasztania valamelyik oldalt a sok azonos tartalmú közül. Hiszen az emberek nem szeretnék azt látni, hogy egymás alatt teljesen azonos tartalmú találatok sorakoznak.

Miért baj a duplikált tartalom?

Ha viszont a Google nem büntet, akkor mégis mi a baj a duplikált tartalmakkal? – teheted fel a kérdést. Az egyik oka az, hogy felhigítod vele a linkjeidet. Tehát a backlinkek a különböző verziójú URL-ekre mutatnak. Az egyik a www-vel kezdődőre, a másik az anélkülire, stb. Így pedig a linkek nem egyetlen weboldalnak fogják javítani a megítélését.

A Google módszere az, hogy az algoritmus csoportokba szervezi a duplikált tartalmú oldalakat, és ebből a csoportból mindig kiválasztja az adott felhasználónak a “legjobbat”. Ha viszont Te nem szeretnéd, hogy a Google-nek kelljen választania az oldalaid közül, akkor ezt azzal előzheted meg, hogy nem gyártasz dupikált tartalmakat, vagy megfelelően kezeled őket.

Akadnak olyan vélemények is, hogy a Google megpróbálja meghatározni az eredeti, a legelső tartalmat és azt mutatja az embereknek. Ebben van logika, hiszen ha egy tartalom több domain alatt is megjelenik, azaz bizonyos weboldalok egymásról másolják a szöveget, akkor az első verziót illeti a megjelenés joga a találati oldalon. Ez persze a gyakorlatban nem mindig működik, vagy nem pont így.

Azt is tudni kell, hogy a Google bizonyos időközönként végigfuttatja a robotjait az oldalaidon. Ennek sűrűsége függ attól, hogy milyen gyakran frissíted a tartalmaidat. Ha viszont a robotok mondjuk öt új oldaladat átfésülik, és azt találják, hogy mindegyiken ugyanaz a tartalom, akkor elvesztegetsz egy ilyen szakaszt. Ez nem csak a robotoknak jelent felesleges munkát, hanem SEO szempontból sem szerencsés.

A duplikált tartalom ellenőrzése

  • Hogyan azonosítsd a duplikált tartalmakat? Például úgy, hogy végrehajtasz egy Google-keresést egy olyan kulcsszóra, melyre jobb helyen szerepelsz a találati oldalon. Majd hozzáadod a “&filter=0” szűrőt a találati oldal URL-jéhez. A találati oldalon láthatod, hogy vannak-e azonos tartalmaid.
  • Emellett persze a Search Console-t is érdemes figyelned a duplikált tartalom ellenőrzése során, hogy vajon felbukkannak-e duplikált tartalomra vonatkozó figyelmeztetések. Ugyanitt vess egy pillantást a “Feltérképezési statisztikák” menüpontra! Ha itt valamiért megemelkedtek az értékek, akkor ellenőrizned kellene az URL-jeid felépítését, mert lehet, hogy valami problémáról van szó.
  • Emellett nagyon hasznos lehetőség a szoftverként létező Screaming Frog használata, mely ugyanúgy átfésüli a weboldalad, mint a Google robotjai. Ezzel megtalálhatsz néhány duplikált tartalmat, külön a címeket, a leírásokat, stb. vizsgálva.
  • Azt is lehet ellenőrizni, hogy a tartalmaid esetleg más oldalakon megjelennek-e. Ehhez mindössze annyit kell tenni, hogy kimásolsz néhány mondatnyi tartalmat a gyanús szövegből és rákeresel a Google-ben. Ha azt látod, hogy a tartalmad más oldalakon is megjelenik, akkor itt a duplikáció problémája. Kérdés, hogy Te voltál-e aki másolt, vagy Téged másoltak.

És mi a megoldás?

Egyrészt meg kell határozni a Google számára, hogy melyik URL-verzió a preferált, és ezt be kell állítani a Search Console-ban a Webhelybeállításoknál az Előnyben részesített domain résznél a megfelelő verzió kiválasztásával. Ezután be kell állítani a 301-es átirányításokat az összes nem előnyben részesített URL-verzióról a preferált verzióra (a linken erről már részletesen írunk). Ez szintén segít a keresőmotoroknak abban, hogy tudják, melyik az előnyben részesített verziód. Ugyanakkor abban is következetesnek kell lenned, hogy a linkeléseknél mindig ez a preferált URL-struktúra jelenjen meg mindenhol.

Emellett még lehetőséged van élni a noindex metataggel is, ami azt üzeni a robotoknak, hogy ne indexeljék az adott oldalt. Használhatod a hreflang taget is, mely a lefordított tartalmaid közötti választást könnyíti meg a keresőmotor számára. Az is elfordul, hogy követő paramétereket használsz az URL-edben, azért, hogy lássad, melyik csatorna hogyan teljesít. Itt javasolt a kérdőjel helyett # jelet használni, mert ez a robotok számára azt jelzi, hogy ne vizsgálják az URL maradék részét, így nem is fogják duplikáltként értékelni az alatta lévő tartalmat.

És van még egy fontos eszköz:

A canonical URL tag használata

Ha több oldaladon is ugyanazt a tartalmat használod, akkor jelezned kell a Google felé, hogy melyik az “eredeti” tartalom, melyiket szánod annak. Ezt a canonical URL tag alkalmazásával teheted meg. A rel=”canonical” attribútum nem is olyan régóta van velünk, még 2009-ben vezette be közösen a Google, a Bing és a Yahoo.

A canonical linkelem egy HTML elem, mely abban segít a weboldalak tulajdonosainak, hogy a keresők számára ne okozzanak problémát a duplikált tartalmak. A canonical jelöléssel ugyanis meghatározhatjuk, hogy melyik az előnyben részesített, eredeti oldalunk.

Ezt a Google figyelembe veszi, vagyis a canonical oldalt fogja megmutatni a felhasználóknak. Ilyenkor az azonos tartalmú, de nem canonical oldalaidra mutató linkek is olyannak számítanak, mintha a canonical oldaladra mutatnának. Olyan ez, mint egy 301-es átirányítás, csak éppen átirányítás nélkül.

De nem csak akkor használható a canonical URL, ha saját oldalaidon belül duplikációk vannak, hanem külső oldalak esetében is. Tehát például, ha valaki átveszi egy tartalmadat, akkor ott jelöli a Te oldaladra mutató linkkel, hogy a Tiéd a canonical verzió, ezzel pedig a Te helyezésedet fogja erősíteni.

Melyik oldalad legyen canonical?

Az elsődleges szempont az, hogy Te melyik oldaladat tekinted a legfontosabbnak az azonos tartalmúak közül. Ha mindegy, akkor a választás során vedd figyelembe, hogy melyik oldalra hány link mutat, és az legyen a canonical, amelyikre több link irányul, vagy amelyiknek több a látogatója. Ha nem tudod, mi alapján válaszd ki, hogy melyik weboldalad legyen canonical az azonos tartalmúak közül, akkor is válassz egyet, mert sokkal jobb, mint ha egyáltalán nincs megjelölve.

A gyakorlati kivitelezés úgy néz ki, hogy egy canonical linket teszel arra az oldaladra, amelyik nem canonical, vagyis a nem canonical oldaladról linkeld be a canonical oldalt a kódban a rel=”canonical” jelöléssel, annak URL-jével kiegészítve. Ez a kereső szempontjából azt jelenti, hogy egyesítetted a két oldalt, vagyis a két URL innentől kezdve egynek számít.

Mi történik, ha sok oldaladról egyetlen oldalra mutat a canonical?

A valóságban előfordulhat, hogy több weboldaladnál is azt szeretnéd, ha egyetlen oldalra mutatna. Például abban az esetben, ha olyan paraméterezett vagy nyomkövető URL-eket is használsz, melyekből több is van. Ilyenkor mindegyiken azonos a tartalom, de azt szeretnéd, ha a Google a tiszta URL-ű weboldaladat jelenítené meg. Lehet ebből gond?

A kérdést feltették a Google szakemberének John Muellernek, aki úgy válaszolt, hogy nem feltétlenül probléma. Egyetlen esetben okozhat gondot, akkor ha az URL-ek mind a főoldalra mutatnak. Ilyenkor a Google rendszere azt feltételezi, hogy a weboldaltulajdonos valamit elrontott a canonical használatánál. Emiatt azonban nem büntetnek, hanem egyszerűen figyelmen kívül hagyják ezt a beállítást az oldalakon.

Gyakorlati példa is van a rossz használatra: ilyen, amikor egy nagy amerikai webáruház minden belső kategóriaoldalán egy főoldalra mutató canonicalt helyezett el. Ebben az esetben hibásan használták a canonicalt, ezért a Google valamennyi kategóriaoldalát rangsorolta, és megjelenítette a találati oldalakon. Vagyis egyszerűen ignorálta a canonical jelzést.

Azzal viszont egyáltalán nincs gond, amikor számos azonos tartalmú, de eltérő URL-ű oldalad egyetlen oldalra mutat. Ez a canonical megfelelő használata – szögezte le John Mueller. Fontos tehát, hogy a Google nem büntet – direkt vagy véletlen – rossz használat esetében, hanem próbálja a helyzetet menteni. Erre kerül sor, amikor a hivatkozó és a hivatkozott oldal tartalma nem azonos vagy legalább közel azonos.

Önmagára mutató canonical használata

Egy további kérdés, hogy van-e értelme annak, hogy valamely weboldalad önmagára hivatkozzon, mint canonical oldalra. Itt arról van szó, hogy megjelenik egy vadonatúj, eredeti tartalmú weboldalad, és egyből elhelyezed benne a canonical taget az oldal linkjével. Tehát nem másik oldalra irányítasz, hanem ugyanazon oldalt jelölöd meg.

Ebben a kérdésben a SEO-szakemberek között sincs egyetértés. Akadnak, akik automatikusan minden egyes oldalukat ellátják az önmagára hivatkozó canonical jelzéssel, mások viszont csak akkor használják, ha azonos vagy hasonló tartalmú oldalakat kell kezelniük. Ugyanakkor úgy tűnik, hogy nincs gond abból, ha minden weboldaladat ellátod canonical jelöléssel egy önmagára mutató link kíséretében, sőt előnyös lehet.

Erről John Mueller, a Google szakembere beszélt 2017. július 11-én a webmestereknek. Mint kiderült, a Google kifejezetten azt javasolja, hogy használják a weboldalak az önmagukra hivatkozó canonicalokat, még akkor is, ha csak egyetlen oldalból áll a weboldal.

Mint mondta: azért javasolja elsősorban az önmagára hivatkozó canonical tag használatát, mert ez világossá teszi a Google számára, hogy melyik weboldalad akarod vele indexeltetni, illetve, hogy mi legyen az az URL, amelyet indexel.

Még ha egyetlen oldalad is van, annak lehetnek különféle variációi. Például paraméterek jelennek meg a végén, esetleg kis- vagy nagybetűs verziói léteznek, illetve lehet neki www vagy www nélküli változata is. Minden ilyen dolog tisztázható a megfelelő canonical tag használatával – tette hozzá.

A legtöbb esetben az emberek www és www nélküli oldalaknál, illetve a http és https változatoknál használják a canonicalt, ugyanakkor persze ilyen esetekben jobb megoldás a 301-es átirányítások alkalmazása.

Azt viszont nem említette meg John Mueller az önmagára hivatkozó canonical alkalmazásának előnyei között, hogy néha a tartalmad újra-megjelentetésre kerül, és ilyenkor az önmagára mutató canonical tag érintetlen marad az újra megjelentetett változatban. Ez pedig segít a Google-nek abban, hogy megállapítsa, honnan származik a tartalom, mely által elkerülhetők a duplikált tartalommal kapcsolatos problémák. És egy további előnye, hogy az önmagára mutató canonicallel megelőzhető az, hogy bárki más canonicalként jelölje az adott tartalmat egy másik oldalon.

Akad néhány olyan WordPress SEO-plugin, amely az önmagára mutató canonical taget már automatikusan elhelyezi a weboldalon, úgyhogy az is lehet, hogy már használod is, vagy csak néhány beállítást kell módosítanod, hogy használni tudjad.

A közösségi oldalak is használják

A canonical URL tagról érdemes még tudni, hogy a közösségi média oldalak is figyelembe veszik. Ez azt jelenti, hogy ha Te egy olyan oldalt osztasz meg a Facebook-on, amelyiknek a kódjában van egy másik weboldalra mutató canonical tag, akkor az onnan származó részleteket fogja megosztani a Facebook. Vagy ha egy olyan weboldalra teszel like-gombot, amelyikben másik oldalra mutató canonical link van, akkor ahhoz az oldalhoz fogja számítani a lájkokat.

Akadhat, aki megpróbál visszaélni a canonical jelöléssel és nem azonos tartalmak esetén is alkalmazza, vagyis valamelyik oldalára akarja terelni a keresőből az embereket. Ez egészen addig nem gond, amíg a Google rá nem jön. Onnantól kezdve viszont nem fog megbízni a canonical jelöléseidben.

Amit viszont ne tegyél

a duplikált tartalom elkerülésére:

  • Ne blokkold az URL-t a robots.txt-ben, mert ezt az oldalt attól még a robotok egyedinek tekintik, és ha más oldalak linkelik, akkor nem lesz SEO-értéke számodra.
  • Ne próbálkozz szövegek újrafogalmazásával, mert a Google ezeket is felismerheti és duplikált tartalomnak tekinti.
  • Ne használd az “URL-ek eltávolítása” funkciót a Search Console-ban, mert ez csak ideiglenes távolítja el az URL-t, amíg meg nem oldod ténylegesen a problémát.
Kategória: SEO | Címke: ,

Főleg írok. Főleg blogot és közösségi médiát, de tágabb perspektívában: online marketing, úgyhogy van benne bőven SEO, laza AdWords, webdesign-okoskodás, és még ami belefér.