2018-10-170 komment
Mi az a duplikált tartalom? Büntet-e miatta a Google? És mi a megoldás? (Frissítve, 2023.01.04.)
Tartalomjegyzék
A web 25-30 százaléka duplikált tartalom. És habár a Google nem büntet a duplikált tartalmakért, mégsem igazán hasznos, ha ilyenekkel van tele a weboldalad. (Frissítés, 2023.01.04. – Egy új fejezettel bővítettünk: Algoritmusokkal vadászik a Google a másolt tartalmakra a weben)
Matt Cutts, a Google egyik szakembere 2013-ban még azt jelezte, hogy a web 25-30 százaléka duplikált tartalom. A helyzet azóta sem javult, hiszen a Raven Tools egy tanulmányában 29 százalékról beszélt. De kezdjük ott, hogy
Mi az a duplikált tartalom?
A Google definíciója szerint:
“Ismétlődő tartalmon általánosságban olyan tartalmi blokkot értünk, amely egy ugyanazon vagy más domainen belül található másik tartalmi blokkal pontosan megegyezik, vagy arra észrevehetően hasonlít.” Ebből kiderül, hogy a duplikált tartalomnak két fajtája van, az egyik domainen belüli, a másik viszont olyan, ami több különböző domain alatt fordul elő.
Duplikált tartalom az olyan szabványos szöveg is, mely a weboldaladon a fejlécben, a láblécben vagy az oldalsó menüben található meg többször. De az is előfordul, hogy például a főoldaladon megjelennek a legolvasottabb vagy legfrissebb bejegyzéseidből részletek. Ez a fajta duplikáció azonban nem gond, nem is fogsz hátrányt szenvedni miatta SEO szempontból. A keresőrobotok ugyanis már vannak annyira kifinomultak, hogy megértik, mik a szándékaid ezekkel az ismétlődő tartalmakkal, és hogy nem áll mögöttük semmiféle manipulációs törekvés. Emiatt tehát ne aggódj!
Az viszont már gondot okoz, amikor a weboldalad több URL alatt is megjelenik. Olyasmikre gondolunk, mint a weboldalad www és www nélküli URL-je, a http és a https verzió, és ezek kombinációi. Az ilyen URL-eket a robotok különállóként értelmezik, a rajtuk található tartalom duplikált tartalomnak számít.
Ezután persze ott van annak is számtalan variációja, amikor azonosak a tartalmak különböző domainek alatti oldalakon. Például, ha átmásolsz valahonnan egy szöveget. Ha az egész weboldalad ilyen másolt tartalmakból áll, akkor ne nagyon reménykedj jó helyezésben a találati oldalakon. Ez nem büntetést jelent, egyszerűen az oldalad minősége nem megfelelő a Google szerint, és ebben igaza van, hiszen a tartalomnak nyilván van egy eredeti forrása.
Az is előfordul, hogy mondjuk csak idézel a tartalmaidon belül más weboldalak szövegeiből. Emiatt azonban nem kell, hogy fájjon a fejed, mert ezt nem tekinti spamnek a Google. Ugyanakkor a tartalmaknak van egy olyan szelete, amikor például egy teljes cikked megjelenik más weboldalon, mert engedélyezed számukra. Ilyenkor persze megjelensz forrásként, linkkel. Ezek ugyan szintén duplikált tartalomnak számítanak, de a Google megint csak nem büntet miatta.
Mi az, amit biztosan nem számít annak?
Ilyen például a lefordított tartalom, legyen szó mondjuk arról, hogy több nyelvű a weboldalad, és különböző ország TLD-k alatt jelenik meg a tartalom. Persze ez csak akkor igaz, ha nem egy szoftverrel, mondjuk a Google fordítóval fordítod le másik nyelvre, tehát amikor hiányzik a minőség a tartalomból. Ha a Google úgy ítéli meg, hogy annak nyelve nem hangzik természetesen, nem érezhető benne a személyes közreműködés, akkor az negatívan fog hatni.
Ugyancsak nem számít duplikált tartalomnak a mobilos weboldaladon megjelenő tartalom sem. Tehát, ha van egy szeparált mobiloldalad, és azon ugyanaz a tartalom, mint a desktopon megjelenő oldalé. A kettőt ugyanis nem ugyanazok a robotok fésülik át, így nem kell aggódni.
Ugyanaz a tartalom eltérő formátumban duplikált tartalomnak számít?
A lényeg: azonos tartalom kétféle formátumban nem számít duplikált tartalomnak. Az eltérő formátum alatt pedig azt értjük, hogy mondjuk az egyik tartalmi formátum a szöveg, a másik pedig a videó.
Ez tehát azt jelenti, hogy a weboldaltulajdonosok nyugodtan készíthetnek szöveges változatot is a videós tartalmaikból, azt nem fogja a Google duplikált tartalomnak tekinteni.
A kérdés egyébként 2021. január 22-én merült fel egy Google Search Central office hours során, mégpedig egy olyan weboldaltulajdonos részéről, aki egy YouTube csatornát is működtet. Megfigyelése szerint ugyanis, amikor egy blogbejegyzést videós formátumba alakít át – ugyanazzal a szöveggel -, akkor azt általában nem rangsorolja a bejegyzését a Google. Ezeket a bejegyzéseid ugyan indexeli a Google, azonban nem kerültek fel a találati oldalakra. Ezzel szemben az olyan blogposztjai, melyeknek nincs videós változatuk, felbukkannak a keresőben.
John Mueller, a Google szakembere válaszában ugyanakkor felhívta a figyelmet arra, hogy a Google nem képes videók szövegelemzésére, majd összehasonlítására weboldalak szövegével. Ezért, ha egy videó akár szóról szóra ugyanazt tartalmazza, mint egy leírt szöveg, azt két eltérő tartalomként értékelik.
Már csak azért sem üti ki egyik tartalmi típus a másikat, mert az emberek különböző időpontokban eltérő tartalmi típusokat keresnek. Tehát néha el akarnak olvasni egy cikket, ugyanakkor máskor inkább egy videót néznek meg a témában. A Google pedig nem fog ezek közül választani az emberek helyett, csak azért, mert azonos a tartalmuk.
Mueller szerint tehát ez a gyakorlat továbbvihető, és arra biztatta a weboldaltulajdonosokat, hogy nyugodtan dolgozzák fel videóban is a szöveges tartalmaikat.
A szakértő azt is megjegyezte, hogy a duplikált tartalmak egyébként sem okoznak akkora problémát: ha duplikált tartalommal találkozik a keresőmotor, akkor választ a két azonos tartalom közül, és nem ejti ki mind a kettőt a találati oldalakról. Ennek oka, hogy nem akarják ugyanazt többször is megmutatni a felhasználóknak.
Milyen főbb típusai vannak a duplikált tartalomnak?
1. Másolt tartalom
A másolt tartalom egy olyan, nem eredeti tartalom, amit más weboldalról veszel át vagy vesznek át tőled engedély nélkül. A Google ráadásul nem feltétlenül tudja megmondani melyik az eredeti és melyik a másolat, így sokszor a weboldaltulajdonosok feladata, hogy vadásszanak a weben az engedély nélkül másolókra. Tehát nem vagy biztonságban akkor sem, ha a Te tartalmad másolja le valaki. Ha ilyet találsz, és nem tudsz vagy nem akarsz megállapodni a tartalmadat felhasználóval, akkor bejelentheted a Google-nek is a szerzői jog megsértését, és kérheted az eltávolítást.
2. Továbbközölt tartalom
Ez ugyanúgy másolt tartalom mint az előbbi, azzal a különbséggel, hogy itt a tartalom tulajdonosa engedélyt adott annak újraközlésére. És habár ebben az esetben jogilag minden rendben van, a SEO-t tekintve lehetnek problémák. Ezért a tartalom közzétevőjének canonical címkét kellene használnia a továbbközölt tartalomnál, mely a Te eredeti tartalmadat jelzi canonicalként. A másik lehetőség, ha a noindex jelzést használja, így a Google nem fogja indexelni és ezáltal nem is jelenik meg a találati oldalakon a másolt tartalom.
3. A HTTP és a HTTPS oldalak
Az egyik leggyakoribb, mondhatni tipikus probléma a belső duplikációs problémákra, amikor egy url-nek létezik http és https verziója is. Ez előfordulhat akkor, ha a weboldalad csak részben https, például a bejelentkezés vagy a kosár egy webáruháznál, a többi részén azonban nem. Ha relatív url-eket használsz, akkor az nem tartalmazza a protokollra vonatkozó információkat. Így a Google ezeket https-ként fogja indexelni, ugyanakkor miközben térképezi fel a teljes weboldalt, eljut majd ehhez az oldalhoz, ahol http-ként is indexeli. Ezzel máris két verziód van az oldalakból.
A másik eshetőség, amikor ugyan a teljes weboldal átállt https-re, de a http még mindig hozzáférhető, mert nem működik megfelelően az átirányítás. Ilyenkor, ha egy külső vagy egy belső link a régi verzióra mutat, akkor azt jelenik meg a felhasználó számára. Megoldásként 301-es átirányítás használata javasolt valamennyi http-oldal esetében, és célszerű a belső linkeknél relatív url-eket használni.
4. Www és nem-www oldalak
A másik tipikus hiba, amikor egy weboldal a www és a www nélküli url-eken is elérhető. Ez ugyanúgy mint a http/https-nél 301-es átirányításokkal orvosolható. Emellett jó megoldás, ha a Google Search Console-ban beállításra kerül az előnyben részesített domain.
5. Dinamikusan generált URL-paraméterek
A dinamikusan generált paraméterek gyakran valamilyen információt tartalmaznak a felhasználóról, vagy egy adott oldalnak a némileg eltérő verzióit jelenítik meg. Ugyanakkor az ilyen oldalaknak vagy pont ugyanolyan vagy nagyon hasonló a tartalmuk. Ráadásul a dinamikus paraméterek nem kettő, hanem akár több tucat verziót is előállíthatnak egy adott oldalból. Ez pedig már a feltérképezési büdzsét is alaposan megterheli. Ezért a Google felé a Search Console-on keresztül jelezni kell a használt URL-paraméterek célját. Ezáltal meghatározható, hogy mely paramétereket hagyjon figyelmen kívül a keresőmotor.
6. Hasonló tartalmak
A duplikált tartalmak alatt sokan azt értik, amikor két tartalom teljesen azonos. Pedig a Google már a hasonló tartalmakat is kezelheti akként. Ez nagyon gyakran előfordul webáruházaknál, ahol a termékleírások a hasonló termékeknél csak egy-két paraméternél térnek el.
7. Nyomtatóbarát oldalak
Ha a weboldalaid nyomtatóbarát verziója eltérő URL alatt érhető el, akkor azokat a Google indexeli. Pedig a két oldal tartalma azonos. A legegyszerűbb, amit tehetsz, hogy noindex címkével látod el a nyomtatóbarát oldalaidat. Ha ezek egy könyvtárban találhatók, akkor az egész könyvtár esetében letilthatod a hozzáférést a robots.txt-ben.
A nagyon hasonló URL alatt található oldalakat duplikált tartalomként azonosíthatja a Google, és nem indexeli
Érdemes tisztában lenni azzal, hogy miként azonosítja a Google a duplikált tartalmakat. Sokan azt gondolhatják, hogy feltérképezi, indexeli, majd összehasonlítja két oldal tartalmát, és ha azonosnak találja azt, akkor duplikáltként kezeli.
Ez valóban így van, de ez csak az egyik megoldása a Google-nek a duplikált tartalmak azonosítására. Megpróbál ugyanis jobban takarékoskodni az erőforrásaival, azaz próbálja elkerülni a felesleges feltérképezést és indexelést, ezért „előrejelző módszert” alkalmaz a duplikált tartalmak kiszűrésére. Mi ez az előrejelző módszer? Az URL-ek vizsgálata.
A gyakorlatban ez úgy néz ki, hogy amikor a Google hasonló URL-struktúrájú weboldalakat térképez fel és azonos tartalmat talál náluk, akkor a többi, hasonló URL-ű oldalt már úgy fogja azonosítani, mint duplikált tartalmakat. Ilyenkor egyáltalán nem fogja az oldalt átnézni, vagyis feltérképezni és indexelni.
Ez azt is jelenti a weboldaltulajdonosok számára, hogy ha hasonló URL-ű weboldalaikon eltérő és egyedi tartalom szerepel, akkor is duplikáltként azonosíthatja azokat a Google, így pedig kikerülnek az indexből, vagyis nem jelennek meg a találati oldalakon.
A probléma egyébként akkor merült fel, amikor egy weboldaltulajdonos az oldalai indexelésére panaszkodott. John Mueller, a Google szakembere szerint az adott esetben az történhetett, hogy az előrejelzési rendszere alapján duplikált tartalomnak tekinthették az oldalak jelentős részét.
Egy példát is mondott erre, mely által talán könnyebben érthető, hogyan is néz ki ez a gyakorlatban. Ha például egy weboldalon az egyes aloldalak eseményeket tartalmaznak, és mondjuk ezek az események csak annyiban térnek el, hogy más városban zajlanak, akkor a Google ezt a tényt nem értékeli olyan fontosságúként, hogy indexelje a más városnevet tartalmazó oldalakat.
Tehát ilyenkor előfordulhat az, hogy tíz ilyen esemény oldal URL-jét átnéz a Google, és azt látja, hogy mindegyikben ugyanaz a tartalom, kivéve a városnevet, akkor ezek nem fognak megjelenni a találati oldalakon. Mindezt maga a weboldaltulajdonos is megelőzheti azzal, hogy a hasonló oldalakat duplikált tartalmakként kezeli és canonical címkét helyez el rajtuk egyetlen oldalra mutatva.
Nem büntet a duplikált tartalmak miatt a Google
Sokan tartanak attól, hogy a duplikált tartalom miatt megbünteti a weboldalukat a Google. Vagy, hogy az azonos szövegeket tartalmazó oldalaik egymással versenyeznek, így lerontva összességében a weboldalt. Ez azonban nem így működik. Pedig a Google már 2008-ban megpróbálta eloszlatni a tévhiteket a duplikált tartalom kapcsán. Susan Moska, akkor azt írta a Google Webmestereszközök blogba: “nincs olyan dolog, hogy duplikált tartalom miatti büntetés. Vagy legalábbis, nem úgy, ahogy azt a legtöbb ember érti, amikor erről beszélnek.”
A Google tájékoztatásában ez olvasható:
“A webhelyeken szereplő ismétlődő tartalom miatt önmagában még nem teszünk lépéseket, csak akkor, ha úgy tűnik, hogy az ismétlődő tartalom megtévesztő, és a keresőmotorok eredményeinek manipulálására törekszik. Ha a webhelyén az ismétlődő tartalom miatti problémák merültek fel, és nem követi a fenti tanácsokat, akkor bevált módszereinkkel mi magunk választjuk ki a keresési eredmények között megjelenítendő verziót.”
Valójában a Google csak úgy “büntet” a duplikált tartalom miatt, hogy szűri a keresési eredményeket. Ez Te is megnézheted, ha hozzáadod egy találati oldal URL-jének a végéhez a “&filter=0” kifejezést. Ezzel el tudod távolítani a szűrést. Ilyenkor megjelennek a duplikált tartalmak, melyek nincsenek megfelelően kezelve, vagyis, amikor rossz munkát végeztünk az oldalunkon.
Ez viszont nem jelenti azt, hogy a duplikált tartalom önmagában bármiféle kárt okozna a weboldalnak. Annyiban jelent mégis gondot, hogy a Google-nek kell kiválasztania valamelyik oldalt a sok azonos tartalmú közül. Hiszen az emberek nem szeretnék azt látni, hogy egymás alatt teljesen azonos tartalmú találatok sorakoznak.
Hogy lehet, hogy egy másolt tartalom jobb helyezést ér el, mint az eredeti?
Sokszor panaszkodnak a weboldaltulajdonosok arra, hogy más oldalak ellopják és felhasználják szöveges tartalmaikat, és teszik ezt akár minden változtatás nélkül. Ez különösen akkor bosszantó, ha a másolt tartalom aztán jobb helyezést ér el a keresőben, mint az eredeti.
Ilyenkor sokakban felmerül a kérdés, hogy miként védjék az oldalukat a tartalomlopás ellen, és hogyan előzzék meg azt, hogy a másolt tartalom jobb pozícióba kerüljön a találati oldalakon, mint az eredeti.
John Mueller egy 2021 március 12-i Google Search Central Hangouton adott választ erre a kérdésre. Ami viszont nem biztos, hogy tetszeni fog a weboldaltulajdonosoknak, hiszen a lényege az, hogy ha ez nem egyszer fordul elő egy oldal esetében, akkor ott az eredeti tartalmat közlő oldal minőségével lehet gond.
Természetesen a másolt tartalom miatt a Google-hoz is lehet fordulni – bár itt alapvetően egy jogi problémáról van szó -, azaz bejelenteni nekik, hogy melyik oldalunk esetében történt lopás. Ha bebizonyosodik, hogy engedély nélkül történt másolás, akkor a Google eltávolíthatja a másolatot a találati eredmények közül.
Ez persze nem jelenti azt, hogy ilyen lopás ne következhetne be a jövőben. Ha pedig bekövetkezik, és megint azt látod, hogy a másolt tartalom a keresőben túlszárnyalja az eredetit, akkor John Mueller szerint az oldalad minőségét érdemes megvizsgálni.
A szakértő szerint ilyenkor a weboldal általános minőségét kellene elemezni, mert ezzel lehet gondja a Google algoritmusainak. A Google ugyanis általában az alapján határozza meg, hogy melyik az eredeti közlő oldal, hogy a két oldal közül melyiknek jobb a minősége.
Ez egy olyan dolog, ahol érdemes egy lépést hátralépni és átgondolni, hogy általánosságban milyen képet mutat a weboldalad, majd olyan megoldásokat találni, melyek számottevően javítják az oldal minőségét – magyarázta John Mueller.
A nehézséget ilyenkor az okozza, hogy az oldalminőségre nincs egy konkrét mutató, nincs eszköz, mely kiszámolná, hogy a Google milyen minőségűnek látja az oldalad, majd javaslatokat tenne, hogy a minőség hogyan javítható. Nyilván az egy jelzés, ha mások a másolt tartalmakkal túlszárnyalnak, ilyenkor a jogi út mellett érdemes nagyobb figyelmet szentelni az oldal rendbe tételére.
Frissítés, 2023.01.04.:
Algoritmusokkal vadászik a Google a másolt tartalmakra a weben
A Google-nek vannak olyan algoritmusai, melyek másolt – akár mesterséges intelligencia által átdolgozott – tartalmakra vadásznak a weben. Ezt Duy Nguyen, a Google keresési minőséggel foglalkozó csapatának tagja mondta egy kérdésre válaszolva egy Google office hours során.
A kérdés, ami felmerült, úgy hangzott, hogy mit kellene tenniük a tartalomkészítőknek, ha olyan oldallal találkoznak, mely mesterséges intelligencia segítségével plagizál tartalmakat, módosítva azt, ráadásul túlszárnyalva az eredeti tartalom helyezését a találati oldalakon.
Duy Nguyen ennek kapcsán egyrészt kijelentette, hogy a tartalom másolása – még ha némi módosítással történik is – szembe megy a Google irányelveivel. Ezért több olyan algoritmusuk is van, mely plagizált tartalmakat keres a weben, illetve leértékeli azokat az oldalakat, melyek tartalmakat másolnak.
Ugyanakkor azt is elismerte, hogy a Google algoritmusai nem mindig ismerik fel a plagizált tartalmakat. Ezért, ha találsz olyan weboldalakat, melyek rendszeresen tartalmakat másolnak és azok jól teljesítenek a keresőben, akkor érdemes jelenteni azt a Google felé. Ennek segítségével javítani tudnak a rendszeren: nem csak a spam tartalmak felfedezésében, hanem a összességében a rangsorolást tekintve is.
De akkor mégis, miért baj a duplikált tartalom?
Ha viszont a Google nem büntet, akkor mégis mi a baj a duplikált tartalmakkal? – teheted fel a kérdést.
Linkek felhígítása
Az egyik probléma az, hogy ha a saját oldaladon jelenítesz meg duplikált tartalmakat, akkor felhígítod vele a linkjeidet. Tehát a backlinkek a különböző verziójú URL-ekre mutatnak. Az egyik a www-vel kezdődőre, a másik a www nélkülire, stb. Így pedig a linkek nem egyetlen weboldalnak fogják javítani a megítélését.
A Google módszere az, hogy az algoritmus csoportokba szervezi a duplikált tartalmú oldalakat, és ebből a csoportból mindig kiválasztja az adott felhasználónak a “legjobbat”. Ha viszont Te nem szeretnéd, hogy a Google-nek kelljen választania az oldalaid közül, akkor ezt azzal előzheted meg, hogy nem gyártasz dupikált tartalmakat, vagy megfelelően kezeled őket.
Romlik az eredeti tartalom helyezése
A másik probléma viszont akkor jelentkezik, ha nem a Te weboldaladon találhatók a duplikált tartalmak, hanem másik weboldalon jelenik meg a Te tartalmaddal azonos tartalom. Hogy mikor kerülhet erre sor, azt már az előző fejezetben kifejtettük: ha ellopják a tartalmad, vagy ha Te magad engedélyezed a továbbközlését.
A gond itt nem az, mint amit sokan hisznek, hogy a Google elkezdi „büntetni” akár az eredeti, akár a másoló oldalt. A probléma egyszerűen az, hogy elképzelhető: a másoló oldalon lévő tartalom jobb helyezést ér el, mint az eredeti.
Márpedig ez egyáltalán nincs kizárva, és a Google részéről John Mueller is úgy vélekedett, hogy nem lehet előre megmondani egy-egy duplikálás eredményét a találati oldalakra nézve.
A lényeg itt az, hogy hiába másolt a tartalom, ha az nincs jelezve a Google felé a következő fejezetben részletezett módszerekkel, akkor a másolt tartalom fel fog kerülni a találati oldalakra, akár jobb helyre is, mint az eredeti tartalom. Ezt persze nem lehet biztosra állítani, függ a keresőkifejezésről, a tartalomtól, és a SEO rengeteg egyéb tényezőjétől.
Akadnak olyan vélemények is, hogy a Google megpróbálja meghatározni az eredeti, a legelső tartalmat és azt mutatja az embereknek, a Google nyilatkozataiból azonban az derül ki, hogy nem igazán ez a helyzet. Danny Sullivan, aki szintén a Google szakembere, ezért azt javasolja, hogy az átvett tartalom esetén canonicallel jelezni kell az eredeti tartalmat. Arra mindjárt kitérünk, hogy mi ez, és miként működik.
De még egy tényező, ami miatt nem árt figyelni a duplikált tartalmakra, az az, hogy a Google bizonyos időközönként végigfuttatja a robotjait az oldalaidon. Ennek sűrűsége függ attól, hogy milyen gyakran frissíted a tartalmaidat. Ha viszont a robotok mondjuk öt új oldaladat átfésülik, és azt találják, hogy mindegyiken ugyanaz a tartalom, akkor elvesztegetsz egy ilyen szakaszt. Ez nem csak a robotoknak jelent felesleges munkát, hanem SEO szempontból sem szerencsés.
Hogyan azonosítsd a duplikált tartalmakat?
- Például úgy, hogy végrehajtasz egy Google-keresést egy olyan kulcsszóra, melyre jobb helyen szerepelsz a találati oldalon. Majd hozzáadod a „&filter=0” szűrőt a találati oldal URL-jéhez. A találati oldalon láthatod, hogy vannak-e azonos tartalmaid.
- Emellett persze a Search Console-t is érdemes figyelned a duplikált tartalom ellenőrzése során, hogy vajon felbukkannak-e duplikált tartalomra vonatkozó figyelmeztetések. Ugyanitt vess egy pillantást a “Feltérképezési statisztikák” menüpontra! Ha itt valamiért megemelkedtek az értékek, akkor ellenőrizned kellene az URL-jeid felépítését, mert lehet, hogy valami problémáról van szó.
- Emellett nagyon hasznos lehetőség a szoftverként létező Screaming Frog használata, mely ugyanúgy átfésüli a weboldalad, mint a Google robotjai. Ezzel megtalálhatsz néhány duplikált tartalmat, külön a címeket, a leírásokat, stb. vizsgálva.
- Azt is lehet ellenőrizni, hogy a tartalmaid esetleg más oldalakon megjelennek-e. Ehhez mindössze annyit kell tenni, hogy kimásolsz néhány mondatnyi tartalmat a gyanús szövegből és rákeresel a Google-ben. Ha azt látod, hogy a tartalmad más oldalakon is megjelenik, akkor itt a duplikáció problémája. Kérdés, hogy Te voltál-e aki másolt, vagy Téged másoltak.
Mit tegyél a duplikált tartalmaiddal?
Ha duplikált tartalmak vannak a weboldaladon, akkor négy megoldás közül választhatsz.
- 301-es átirányítás
- Canonical alkalmazása
- Meta indexben jelölés
- Tartalmi korrekció
1. 301-es átirányítás
Az első megoldás a 301-es átirányítás beállítása. Ez akkor segít, ha változik egy aldomain, esetleg a http-ből https lesz, de akkor is, ha új tartalmú verziót készítesz, és nem akarod, hogy a régi tartalommal találkozzanak a felhasználók.
Az átirányítást meg kell tenned az összes nem előnyben részesített URL-verziónál, ahol átirányítasz a preferált verzióra (a linken elérhető anyagban erről már részletesen írunk). Ez segít a keresőmotoroknak abban, hogy tudják, melyik az előnyben részesített verziód. Ugyanakkor abban is következetesnek kell lenned, hogy a linkeléseknél mindig ez a preferált URL-struktúra jelenjen meg mindenhol.
2. A canonical URL tag használata
Ha több oldaladon is ugyanazt a tartalmat használod, akkor jelezned kell a Google felé, hogy melyik az “eredeti” tartalom, melyiket szánod annak. Ezt a canonical URL tag alkalmazásával teheted meg. A rel=”canonical” attribútum nem is olyan régóta van velünk, még 2009-ben vezette be közösen a Google, a Bing és a Yahoo.
A canonical linkelem egy HTML elem, mely abban segít a weboldalak tulajdonosainak, hogy a keresők számára ne okozzanak problémát a duplikált tartalmak. A canonical jelöléssel ugyanis meghatározhatjuk, hogy melyik az előnyben részesített, eredeti oldalunk.
Ezt a Google figyelembe veszi, vagyis a canonical oldalt fogja megmutatni a felhasználóknak. Ilyenkor az azonos tartalmú, de nem canonical oldalaidra mutató linkek is olyannak számítanak, mintha a canonical oldaladra mutatnának. Olyan ez, mint egy 301-es átirányítás, csak éppen átirányítás nélkül.
De nem csak akkor használható a canonical URL, ha saját oldalaidon belül duplikációk vannak, hanem külső oldalak esetében is. Tehát például, ha valaki átveszi egy tartalmadat, akkor ott jelöli a Te oldaladra mutató linkkel, hogy a Tiéd a canonical verzió, ezzel pedig a Te helyezésedet fogja erősíteni.
Melyik oldalad legyen canonical?
Az elsődleges szempont az, hogy Te melyik oldaladat tekinted a legfontosabbnak az azonos tartalmúak közül. Ha mindegy, akkor a választás során vedd figyelembe, hogy melyik oldalra hány link mutat, és az legyen a canonical, amelyikre több link irányul, vagy amelyiknek több a látogatója. Ha nem tudod, mi alapján válaszd ki, hogy melyik weboldalad legyen canonical az azonos tartalmúak közül, akkor is válassz egyet, mert sokkal jobb, mint ha egyáltalán nincs megjelölve.
A gyakorlati kivitelezés úgy néz ki, hogy egy canonical linket teszel arra az oldaladra, amelyik nem canonical, vagyis a nem canonical oldaladról linkeld be a canonical oldalt a kódban a rel=”canonical” jelöléssel, annak URL-jével kiegészítve. Ez a kereső szempontjából azt jelenti, hogy egyesítetted a két oldalt, vagyis a két URL innentől kezdve egynek számít.
Mi történik, ha sok oldaladról egyetlen oldalra mutat a canonical?
A valóságban előfordulhat, hogy több weboldaladnál is azt szeretnéd, ha egyetlen oldalra mutatna. Például abban az esetben, ha olyan paraméterezett vagy nyomkövető URL-eket is használsz, melyekből több is van. Ilyenkor mindegyiken azonos a tartalom, de azt szeretnéd, ha a Google a tiszta URL-ű weboldaladat jelenítené meg. Lehet ebből gond?
A kérdést feltették a Google szakemberének John Muellernek, aki úgy válaszolt, hogy nem feltétlenül probléma. Egyetlen esetben okozhat gondot, akkor ha az URL-ek mind a főoldalra mutatnak. Ilyenkor a Google rendszere azt feltételezi, hogy a weboldaltulajdonos valamit elrontott a canonical használatánál. Emiatt azonban nem büntetnek, hanem egyszerűen figyelmen kívül hagyják ezt a beállítást az oldalakon.
Gyakorlati példa is van a rossz használatra: ilyen, amikor egy nagy amerikai webáruház minden belső kategóriaoldalán egy főoldalra mutató canonicalt helyezett el. Ebben az esetben hibásan használták a canonicalt, ezért a Google valamennyi kategóriaoldalát rangsorolta, és megjelenítette a találati oldalakon. Vagyis egyszerűen ignorálta a canonical jelzést.
Azzal viszont egyáltalán nincs gond, amikor számos azonos tartalmú, de eltérő URL-ű oldalad egyetlen oldalra mutat. Ez a canonical megfelelő használata – szögezte le John Mueller. Fontos tehát, hogy a Google nem büntet – direkt vagy véletlen – rossz használat esetében, hanem próbálja a helyzetet menteni. Erre kerül sor, amikor a hivatkozó és a hivatkozott oldal tartalma nem azonos vagy legalább közel azonos.
Önmagára mutató canonical használata
Egy további kérdés, hogy van-e értelme annak, hogy valamely weboldalad önmagára hivatkozzon, mint canonical oldalra. Itt arról van szó, hogy megjelenik egy vadonatúj, eredeti tartalmú weboldalad, és egyből elhelyezed benne a canonical taget az oldal linkjével. Tehát nem másik oldalra irányítasz, hanem ugyanazon oldalt jelölöd meg.
Ebben a kérdésben a SEO-szakemberek között sincs egyetértés. Akadnak, akik automatikusan minden egyes oldalukat ellátják az önmagára hivatkozó canonical jelzéssel, mások viszont csak akkor használják, ha azonos vagy hasonló tartalmú oldalakat kell kezelniük. Ugyanakkor úgy tűnik, hogy nincs gond abból, ha minden weboldaladat ellátod canonical jelöléssel egy önmagára mutató link kíséretében, sőt előnyös lehet.
Erről John Mueller, a Google szakembere beszélt 2017. július 11-én a webmestereknek. Mint kiderült, a Google kifejezetten azt javasolja, hogy használják a weboldalak az önmagukra hivatkozó canonicalokat, még akkor is, ha csak egyetlen oldalból áll a weboldal.
Mint mondta: azért javasolja elsősorban az önmagára hivatkozó canonical tag használatát, mert ez világossá teszi a Google számára, hogy melyik weboldalad akarod vele indexeltetni, illetve, hogy mi legyen az az URL, amelyet indexel.
Még ha egyetlen oldalad is van, annak lehetnek különféle variációi. Például paraméterek jelennek meg a végén, esetleg kis- vagy nagybetűs verziói léteznek, illetve lehet neki www vagy www nélküli változata is. Minden ilyen dolog tisztázható a megfelelő canonical tag használatával – tette hozzá.
A legtöbb esetben az emberek www és www nélküli oldalaknál, illetve a http és https változatoknál használják a canonicalt, ugyanakkor persze ilyen esetekben jobb megoldás a 301-es átirányítások alkalmazása.
Azt viszont nem említette meg John Mueller az önmagára hivatkozó canonical alkalmazásának előnyei között, hogy néha a tartalmad újra-megjelentetésre kerül, és ilyenkor az önmagára mutató canonical tag érintetlen marad az újra megjelentetett változatban. Ez pedig segít a Google-nek abban, hogy megállapítsa, honnan származik a tartalom, mely által elkerülhetők a duplikált tartalommal kapcsolatos problémák. És egy további előnye, hogy az önmagára mutató canonicallel megelőzhető az, hogy bárki más canonicalként jelölje az adott tartalmat egy másik oldalon.
Akad néhány olyan WordPress SEO-plugin, amely az önmagára mutató canonical taget már automatikusan elhelyezi a weboldalon, úgyhogy az is lehet, hogy már használod is, vagy csak néhány beállítást kell módosítanod, hogy használni tudjad.
A közösségi oldalak is használják
A canonical URL tagról érdemes még tudni, hogy a közösségi média oldalak is figyelembe veszik. Ez azt jelenti, hogy ha Te egy olyan oldalt osztasz meg a Facebook-on, amelyiknek a kódjában van egy másik weboldalra mutató canonical tag, akkor az onnan származó részleteket fogja megosztani a Facebook. Vagy ha egy olyan weboldalra teszel like-gombot, amelyikben másik oldalra mutató canonical link van, akkor ahhoz az oldalhoz fogja számítani a lájkokat.
Akadhat, aki megpróbál visszaélni a canonical jelöléssel és nem azonos tartalmak esetén is alkalmazza, vagyis valamelyik oldalára akarja terelni a keresőből az embereket. Ez egészen addig nem gond, amíg a Google rá nem jön. Onnantól kezdve viszont nem fog megbízni a canonical jelöléseidben.
3. Meta noindex
Emellett még lehetőséged van élni a noindex metataggel is, ami azt üzeni a robotoknak, hogy ne indexeljék az adott oldalt. Ez olyan, mint amikor egy könyvből van két kiadásod, és mondjuk csak az egyik kiadást olvasod, abba jegyzetelsz, jelölgetsz, stb., ugyanakkor továbbra sem akarod kidobni a másik kiadást sem.
A meta noindex címke azt jelzi a keresőrobotoknak, hogy fel tudják térképezni a duplikált oldalakből mindkettőt, azonban az egyik nem kellene berakni az indexükbe. Ez jellemzően olyan duplikált tartalommal kapcsolatos esetekben hasznos, mint amikor lapozókat használsz.
4. Tartalmi bővítés
Az a helyzet is elképzelhető, hogy van két oldalad, melyek valójában nem duplikációi egymásnak, csak azonos a tartalmuk, például két nagyon hasonló termék termékoldala esetében. Itt nyilván mindkét oldalra szükség van. Ilyenkor érdemes jelentősebb tartalmi bővítéseket – nem csak átírogatni néhány szót vagy mondatot – eszközölni valamelyik oldalon, hogy a keresőmotorok ne jöjjenek zavarba, amikor teljesen egyforma tartalmú oldalakat látnak.
Amit viszont ne tegyél
a duplikált tartalom elkerülésére:
- Ne blokkold az URL-t a robots.txt-ben, mert ezt az oldalt attól még a robotok egyedinek tekintik, és ha más oldalak linkelik, akkor nem lesz SEO-értéke számodra.
- Ne próbálkozz szövegek újrafogalmazásával, mert a Google ezeket is felismerheti és duplikált tartalomnak tekinti.
- Ne használd az “URL-ek eltávolítása” funkciót a Search Console-ban, mert ez csak ideiglenes távolítja el az URL-t, amíg meg nem oldod ténylegesen a problémát.
Frissítés, 2022.10.18.:
Büntet-e a Google amiatt, ha két oldal közel vagy teljesen egyforma?
Duplikált tartalom kapcsán felmerülhet az a kérdés is, hogy mi van, ha nem egy oldal tartalma duplikált, hanem az oldal designja? Tehát, hogyan kezeli a Google azokat a helyzeteket, amikor két weboldal HTML-kódja teljesen megegyezik? És csak tartalmában különbözik, vagy épp abban sem.
Ilyen fordulhat elő abban az esetben például, amikor egy cégnek több márkája is van, melyeknél a backend és a frontend is megegyezik, tehát ugyanaz a HTML-struktúra található mindkét oldalnál, ugyanazok az elemek, elrendezés, és alapvetően a logók, a betűtípusok és a színek különböznek, hiszen két különböző márkáról van szó.
Ennek kapcsán John Mueller, a Google szakembere kifejtette, hogy ha két weboldal egyformán néz ki, akkor az nem eredményez semmilyen büntető intézkedést a Google részéről, mely érintené a két oldal helyezését.
Ugyanakkor, ha a két oldalnak az URL-struktúrája és a tartalma is megegyezik, akkor a Google kiválasztja valamelyiket ezek közül, melyre canonical oldalként tekint. Ez azt jelenti, hogy a feltérképezésnél, indexelésnél, rangsorolásnál erre az oldalra összpontosítanak, a másikkal pedig nem foglalkoznak.
Vagyis, ha valakinek két egyforma weboldala van, és azt szeretné, hogy mindkettőt rangsorolja a Google, akkor azok tartalmának jelentősen különböznie kell. Az nem elegendő, ha csak a logó vagy a színek eltérőek.
És hogy miért nincs büntetés két egyforma weboldal esetében? Mert mint a Google korábbi SEO-szakembere Matt Cutts már 2013-ban jelezte: a webtartalmak 30 százaléka duplikált tartalom, és ez az internet normális állapota. A duplikált tartalmak büntetésével a Google sok „ártatlan” oldalt is kilökne az indexből. És persze az azonos megjelenés miatt sincs negatív következmény, legalábbis addig, amíg a két oldal tartalma eltérő, mert ha nem, akkor az egyik oldal ki fog esni a találati oldalakról.