Najvýkonnejšie servery Najvýkonnejšie servery
Dlhodobý víťaz
v porovnávacích testoch výkonu
Robots.txt patrí medzi základné SEO prvky na webe. S jeho pomocou dokážete pozitívne ovplyvniť výkon vášho webu a limitovať obsah informácií, ktoré sa budú zobrazovať vo výsledkoch vyhladávania. V článku si podrobnejšie povieme čo súbor robots.txt je, prečo je dôležitý, ako by mal vyzerať jeho správny zápis a čomu sa vyvarovať pri jeho implementácii.

Čo je súbor robots.txt?

Súbor robots.txt je obyčajný textový súbor, ktorý vytvoríte napr. v poznámkovom bloku. Názov súboru musí byť napísaný malými písmenami a musí byť umiestnený v koreňovom adresári webu (hneď za .cz/.sk/.com atp.), napríklad takto https://www.zonercloud.sk/robots.txt

Na každom riadku je uvedené, ktorý robot (user-agent) kam nesmie. Vyhľadávače pravidelne súbor robots.txt na weboch kontrolujú, aby zistili, či existujú nejaké pokyny pre prechádzanie webu. Tieto inštrukcie nazývame direktívy. Pokiaľ nie je prítomný žiadny súbor robots.txt, alebo neexistujú žiadne použitelné príkazy, vyhľadávače automaticky prehľadajú celý web.

Napriek tomu, že všetky hlabné vyhľadávače súbor robots.txt rešpektujú, niektoré sa môžu rohodnúť ho ignorovať (alebo jeho časti). Zatiaľ čo príkazy v súbore robots.txt sú silným signálom pre vyhľadávače, je dôležité si uvedomiť, že tento súbor je iba súhrn volitelných direktív, nie príkazov.

UPOZORNENIE: Nenechajte sa zmiasť na prvý pohľad jednoduchým neškodným súborom. Pri neodbornom zacházdaní môžete narobiť veľke škody.

Prečo by vás mal zaujímať?

Súbor robots.txt je veľmi dôležitý aj pre účely SEO. Pri väčšich webových stránkach je robots.txt dokonca nutný. Zabraňuje duplicitnému obsahu a poskytuje vyhľadávačom užitečné tipy, ako môžu vaše webové stránky prechádzať efektívnejšie.

Pri vykonávaní zmien v súbore robots.txt však buďte opatrný. Tento súbor môže spôsobiť, že veľké časti vášho webu budú pre vyhľadávače nedostupné.

WordPress server
teraz so ZĽAVOU 50 %

Výkonný a ľahko použitelný server nie len pre WordPress s prehľadnou administráciou, pravidelnou zálohou a SSL certifikátmi ZADARMO s automatickou inštaláciou a následnou obnovou.

Vytvárajte si neobmedzený počet služieb už od 340  mesačne!

WordPress pro každého

User-agent v súbore robots.txt

Každý vyhľadávač by sa mal identifikovať pomocou tzv. user-agenta:

Toto označenie v súbore robots.txt vždy definuje začiatok skupiny smerníc. Všetky direktívy medzi prvým user-agent a ďalším user-agent záznamom sú považováné za direktívy pre prvý záznam user-agent.

Direktívy sa môžu vťahovať iba na konkrétne vyhľadávače, ale môžu byť tiež použitelné na všetkých user-agentov. V takom prípade sa použije zástupný znak User-agent: *.

Ako má súbor robots.txt vyzerať?

Nižšie uvádzame niekoľko príkladov zápisu robots.txt:

    Prístup povolený všetkým robotom ku všetkému

    Existuje niekoľko spôsobov, ako oznámiť vyhľadávačom , že majú prístup ku všetkým súborom:

    User-agent: *
    Disallow:

    Druhou možnosťou je nechať súbor robots.txt prázdný alebo ho nemať vôbec.

    Prístup zakázaný všetkým robotom

    Nižšie uvedený príklad robots.txt hovorí všetkým vyhľadávačom, aby nevstupovali na celý web:

    User-agent: *
    Disallow: /

    Berte prosím na vedomie, že iba JEDEN znak navyše môže mať zásadný dopad.

    Prístup zakázaný všetkým Google robotom

    User-agent: googlebot
    Disallow: /

    Upozorňujeme, že pokiaľ Googlebota zakážete, platí to pre všetkých Googlebotov. To zahŕňa robotov Google, ktorý hľadajú napríklad správy (googlebot-news) a obrázky (googlebot-images).

    Prístup zakázaný všetkým Googlebot (Google) a Slurp (Yahoo)

    User-agent: Slurp
    User-agent: googlebot
    Disallow: /

    Prístup zakázaný všetkým robotom k 2 rôznym adresárom

    User-agent: *
    Disallow: /admin/
    Disallow: /private/

    Súbor robots.txt optimalizovaný pre WordPress

    Nižšie uvedený súbor robots.txt je špecialne optimalizovaný pre WordPress za predpokladu, že nechcete, aby boli prehľadávané:

    • administrátorská sekcia
    • vaše interné stránky s výsledky vyhľadávania
    • stránky s menami autorov článku
    • 404 error stránka

    User-agent: *
    Disallow: /wp-admin/ #block access to admin section
    Disallow: /wp-login.php #block access to admin section
    Disallow: /search/ #block access to internal search result pages
    Disallow: *?s=* #block access to internal search result pages
    Disallow: *?p=* #block access to pages for which permalinks fails
    Disallow: *&p=* #block access to pages for which permalinks fails
    Disallow: *&preview=* #block access to preview pages
    Disallow: /tag/ #block access to tag pages
    Disallow: /author/ #block access to author pages
    Disallow: /404-error/ #block access to 404 page

    Sitemap: https://www.example.com/sitemap_index.xml

    Vezmite prosím na vedomie, že tento súbor robots.txt bude vo väčšine prípadov fungovať, ale mali by ste ho vždy upraviť a otestovať, aby ste sa uistili, že platí presne pre vašu situáciu.

TIP: V roku 2019 navrhol Google rozšírenie protokolu Robots Exclusion Protocol a sprístupnil svůj analyzátor robots.txt ako open source.

UPOZORNENIE: Každá direktíva by mala byť na samostatnom riadku, inak by ste vyhľadávače mohli pri analýze súboru robots.txt zbytočne zmiasť.

Príklad nesprávného súboru robots.txt:
User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/

Na čo si dáť pozor pri implementácií?

Pri implementácií súboru robots.txt majte na pamäti nasledujúce odporúčané postupy:

  • Pri vykonávaní zmien v súbore robots.txt buďte opatrný. Tento súbor môže spôsobiť, že veľké časti vášho webu budú pre vyhľadávače nedostupné.
  • Súbor robots.txt by mal byť umiestnený v koreňovom adresári vášho webu
    (napr. https://www.zonercloud.sk/robots.txt).
  • Súbor robots.txt je platný pre celú doménu, v ktorej sa nachádza, vrátane protokolu (http alebo https). Pre subdomény je potom potrebný ďalší súbor.
  • Rôzne vyhľadávače interpretujú príkazy inak. Vo východzom nastavení vždy vyhráva prvá odpovedajúca direktíva, u Google a Bing víťazí špecifickosť.
  • Pre súbory robots.txt Google aktuálne podporuje limit veľkosti súboru 512 kilobajtov. Akýkoľvek obsah nad túto maximálnu veľkosť môže byť ignorovaný.
  • Vyhnite sa čo najviac používaniu direktívy crawl-delay*
  • *Google uviedol, že súbor robots.txt je všeobecne uložený do medzipamäte po dobu až 24 hodín. Je dôležité vziať to do úvahy pri vykonávaní akýchkoľvek zmien v súbore robots.txt. Všeobecne je najlepšie sa vyhnúť sa ukladaniu súboru robots.txt do medzipamäti, aby vyhľadávačom netrvalo zbytočne dlho než zachytia vykonané zmeny.