2010-07-31

Canonical URL - labai svarbi SEO žyma

Canonical URL žyma yra skirta paieškos robotams nurodyti vieną URL adresą, kurį laikyti kaip pagrindinį, kai yra keli adresai, atverčiantys tą patį turinį. 

Atvejai
Iš pirmo žvilgsnio, tokia situacija, kai yra keli URL adresai, vedantys į tinklalapio puslapį su identišku turiniu, gali atrodyti gana retai pasitaikanti, tačiau, kaip rodo žemiau pateikti pavyzdžiai, pasitaiko bene kiekviename tinklalapyje. Tarkime, turime tam tikrą adresą:
http://www.jusupuslapis.lt/katalogas/vasara/
Nesunku įsivaizduoti, kad šiame puslapyje programiškai gali būti naudojamos sesijos, ir tuomet, tam tikrais atvejais, prie adreso, gali prisidėti nenumatyta pabaiga, pavyzdžiui:
http://www.jusupuslapis.lt/katalogas/vasara/?sessionid=4456743
Kitas natūralus atvejis. Jeigu naudojate seo atžvilgiu optimizuotas URL adreso struktūras per .httaccess failą, tai nenuostabu, kad tas pats puslapis gali būti pasiekiamas, pavyzdžiui per:
http://www.jusupuslapis.lt/katalogas.php?id=vasara
Dar viena situacija - katalogo pozicijoms išdėstyti taikote galimybę pasirinkti rūšiavimą:
http://www.jusupuslapis.lt/katalogas/vasara/?rusiavimas=didejanciai
Pasitaiko, ypač tinklaraščiuose, kad tas pats puslapis pasiekiamas per archyvą ir per žymas, pvz.:
http://www.jusupuslapis.lt/tag/vasara/
http://www.jusupuslapis.lt/archyvas/2010/vasara/
Taip pat, gali pasitaikyti ta pati teksto versija, skirta spausdinimui
http://www.jusupuslapis.lt/print/katalogas/vasara/
Tokių pavyzdžių Jūsų sistemose gali pasitaikyti kur kas daugiau.

Kodėl reikia išskirti pagrindinį puslapį?
Problema ta, kad paieškos sistemos, naršydamos po Jūsų tinklalapį, nesunkiai gali nuklysti (net jei naudojate sitemap.xml) ir suindeksuoti tokias nuorodas, kurios veda į puslapį, su tuo pačiu turiniu. Tokiu atveju paieškos sistema nežinos, kurį adresą laikyti pagrindiniu, pasirinks vieną atsitiktinai, o kitus laikys kaip dublikuotą, pasikartojantį turinį. Paieškos sistemų požiūriu tai beveik tas pats, kas tinklalapis, sukurtas su daugybe vienodų vidinių puslapių - neoriginalus turinys, spamas. Be to, canonical URL žyma leidžia užtikrinti, kad paieškos robotai paieškos rezultatuose atvaizduotų Jūsų pageidaujamą URL versiją - tą, kurią optimizuojate. Taigi, nauda:
  • paieškos sistemoms pateikiamas tik unikalus turinys, taigi, didėja tinklalapio autoritetas.
  • taupomas srautas, serverio resursai.
  • greičiau indeksuojami puslapiai, nurodyti canonical url žymoje.

Kaip atrodo Canonical URL žymą ir kaip ją naudoti?
Žyma, kurios formatas nurodytas žemiau, naudojama tarp HEAD žymų HTML kode.
<link href="http://www.jusupuslapis.lt/katalogas/vasara/" rel="canonical" />
Programuojant dinamiškus puslapius, reikėtų pasistengti, kad varikliukas sukonstruotų tokį adresą, kokį pageidaujate, ir per link žymą įterptų į kiekvieno puslapio head sritį.

Kaip veikia Canonical URL?
Ši žyma veikia iš principo panašiai kaip 301 redirektas, tačiau nukreipia tik paieškos sistemų robotus, o ne Jūsų lankytojus. Paieškos sistema, aptikusi, kad jos lankomas adresas nėra toks kaip nurodyta canonical url, ji puslapio toliau neindeksuoja (nes supranta kad tai kopija), o pereina į adresą, nurodytą canonical URL.

Ar galima nurodyti Canonical URL į puslapį su kitu domenu?
Sakykime, turite tą patį puslapį su kelias skirtingais domenais:
http://www.jusupuslapis.lt/katalogas/vasara/  ir
http://www.geras-puslapis.lt/katalogas/vasara/
Šiuo atveju canonical url taikyti netikslinga, remiantis Google atstovų teigimu. Tam naudokite HTTP redirect (301) per php ar .htaccess
Tačiau canonical url galite nurodyti tarp savo to paties puslapio subdomenų, kurį laikyti pagrindiniu
http://www.jusupuslapis.lt/katalogas/vasara/
http://jusupuslapis.lt/katalogas/vasara/ (naudokite vieną kažkurį puslapį, su www arba be jo)
http://geras.jusupuslapis.lt/katalogas/vasara/

Įdomu:
Google paskelbė, kad jau reaguoja į Canonical URL žymą 2009 m. pradžioje. Vėliau pasekė ir kitos sistemos. Į canonical URL žymą šiuo metu reaguoja visi pagrindiniai paieškos varikliai: Google, Yahoo, Ask, Bing ir kt. Tai vis dar labai nauja ir ne itin paplitusi, bet vertinga technika. Paskubėkite pasinaudoti pirmieji - įgysite pranašumą.

Staipsnio autorius: Tomas Šivickas

3 komentarai:

  1. Keistos tos paieškos sistemos - yra gi sitemap.xml kur viskas labai aiškiai išdėstyta. O jos elgiasi kaip joms šauna į galvą ir indeksuoja kaip užsimano. Net jeigu ir reaguoja į rel=canonical, bet tai vistiek, kam išradinėti dviratį, kai yra sitemap.xml?

    AtsakytiPanaikinti
  2. Sitemape ne visada viską pateiki, o patekti į pvz nurodytas nuorodas tikrai gali ir robotai. Aišku yra tam nofollow, bet praktikoje jį sunku naudoti.
    Beje geras straipsnis.

    AtsakytiPanaikinti
  3. Pažiūrėkit į http://praeivis.lt/sitemap.xml ir į http://www.google.lt/search?q=site%3Apraeivis.lt ir kas kaltas? sitemap ar google kuris suindeksuoja ką nori ir kaip nori. Turiu netgi įtarimu kuriais atvejais jis nepaiso sitemap ir nepatingi prasieiti per visa svetainę, kad tik rasti kaip jam patogiau suindeksuoti. Bet, kad patvirtinti savo įtarimus reikėtu daug po logus knaisiotis, tai tegul jį peklon tą google - man SEO nesvarbu, bet tiems kas gyvena iš SEO tai nepavydžiu :)

    AtsakytiPanaikinti