Soubor sitemap.xml (nejčastěji /domena.cz/sitemap.xml) využívá téměř každý web. Jedná se o soubor, ve kterém najde robot při procházení webu ideálně všechny adresy, které by měl indexovat. Sitemapa není podmínkou, nemusíte jí mít. Roboti s ní však rádi pracují a každý SEO konzultant by jim měl nabídnout co nejlepší podklady pro to, aby zaindexovali vše, co potřebujete.
Rozdělení obsahu do více sitemap
Pokud máte na webu hodně obsahu, nabízí se možnost rozdělení URL do více sitemap. Co to znamená? Budete mít zkrátka jednu sitemapu pro články, druhou pro kategorie, třetí pak pro obrázky … Programátorsky by nemělo jít o nic složitého a robotům to pomůže. V případě, že se robot dívá pouze po obrázcích, nabídnete mu ten nejlepší zdroj.
Nastavení priority v sitemapě
Pokud nemáte rozdělenou sitemapu podle typu – kategorie, článek, obrázky – můžete zde nastavit prioritu. Tato priorita říká, jak moc důležité je, aby robot stránku prošel. Typickým příkladem je kategorie vs. kategorie s filtrací – kategorie samotná je většinou důležitější (priorita 1 nebo 0.8), s filtrem stačí (0.8 nebo 0.5). Ne vždy se s nastavením priority v XML sitemapě setkáte, mnoho lidí ji ale používá. Podle mého je lepší rozdělit sitemapu na více částí, než-li si hrát s prioritou.
404 v sitemapě a nepotřebné URL
Velmi často se setkávám s problémem, kdy se ze sitemapy odkazuje na kompletní obsah webu – tedy na soubory administrace (redakčního systému), skryté stránky, stránky s meta tagem noindex nebo na stránky 404. Pokud na 404 nevede žádný odkaz, po čase by měla z indexu vypadnout. Pokud na ni odkazujete ze sitemapy, pravděpodobně se indexovat bude pořád.
Kontrola indexace stránek ze sitemapy
Jestli odkazujete na správné stránky můžete zjistit v Google Search Console (dále jen GSC). V tomto nástroji od Google najdete přímo sekci se soborem sitemap.xml a graf se zobrazením odeslaných a následně indexovaných stránek.
Čísla by se měla rovnat (alespoň přibližně). Velký rozdíl v těchto hodnotách napovídá o chybném generování sitemapy. GSC je skvělým nástrojem, kde zjistíte spoustu důležitých věcí o svém webu. O tom ale někdy příště.
Odkaz na sitemapu v robots.txt
Pokud má (měl by mít) váš web soubor robots.txt (nejčastěji /domena.cz/robots.txt), nezepomeňte na odkaz na sitemapu. Proč? Robots.txt a sitemap.xml jsou dva základní soubory, které roboti zkouší jako první. Pokud v robots.txt najde robot odkaz na sitemapu, projde ji a máte větší šanci k indexování obsahu. Buďto ve větší kvalitě, nebo alespoň rychleji.
U odkazu na sitemapu v robots.txt nezepomeňte na certifikát vašeho webu. Máte-li web na https, bude tam i sitemapa. Odkaz by měl odpovídat. HTTP web = odkaz na HTTP sitemapu; to samé s HTTPS.
Sitemapa podle Marka Prokopa
Marek Prokop, odborník na SEO, tvrdí, že sitemapa není důležitá – roboti si stránky najdou i tak. Je pak jen otázkou, kdy ho vyhledávače zaindexují. S tímto názorem souhlasím – všechny URL byste ale museli mít doklikatelné. Problém nastává například u filtrace, kdy se málokdy objeví odkazy na všechny důležité kombinace v navigaci. Proto je podle mě lepší sitemapu nastavit, nic tím nezkazíte.