Semalt: Jak blokovat Darodar Robots.txt

Soubor robots.txt je typický textový soubor, který obsahuje pokyny o tom, jak by webový prohledávače nebo roboti měli procházet web. Jejich použití je zřejmé u robotů vyhledávacích strojů, které jsou běžné na mnoha optimalizovaných webech. Jako součást protokolu Robots Exclusion Protocol (REP) tvoří soubor robots.txt základní aspekt indexování obsahu webových stránek a umožňuje serveru odpovídajícím způsobem ověřovat požadavky uživatelů.

Julia Vashneva, manažerka úspěchu Semalt Senior Customer Success Manager, vysvětluje, že propojení je aspekt optimalizace pro vyhledávače (SEO), který zahrnuje získání provozu z jiných domén v rámci vaší niky. Pro odkazy „sledovat“ pro přenos šťávy z odkazu je nezbytné zahrnout soubor robots.txt na váš webový hostingový prostor, aby fungoval jako instruktor, jak server interaguje s vaším webem. V tomto archivu jsou pokyny uvedeny tím, že povolují nebo zakazují chování některých konkrétních uživatelských agentů.

Základní formát souboru robots.txt

Soubor robots.txt obsahuje dva základní řádky:

User-agent: [jméno user-agent]

Zakázat: [řetězec adresy URL, který se nemá procházet]

Úplný soubor robots.txt by měl obsahovat tyto dva řádky. Některé z nich však mohou obsahovat více řádků uživatelských agentů a směrnic. Tyto příkazy mohou obsahovat aspekty, jako jsou povolení, zákazy nebo zpoždění procházení. Obvykle existuje řádek, který odděluje každou sadu instrukcí. Každá instrukce pro povolení nebo zakázání je oddělena tímto zlomem řádku, zejména pro soubor robots.txt s více řádky.

Příklady

Například soubor robots.txt může obsahovat kódy jako:

User-agent: darodar

Zakázat: / plugin

Disallow: / API

Disallow: / _comments

V tomto případě se jedná o soubor robots.txt, který omezuje webový prohledávač Darodar v přístupu na váš web. Ve výše uvedené syntaxi kód blokuje aspekty webu, jako jsou pluginy, API a sekce komentářů. Z těchto znalostí je možné dosáhnout mnoha výhod efektivního provádění textového souboru robota. Soubory Robots.txt mohou provádět řadu funkcí. Mohou být například připraveni:

1. Povolte veškerý obsah webových prolézacích modulů na webovou stránku. Například;

User-agent: *

Nepovolit:

V takovém případě může být veškerý uživatelský obsah zpřístupněn jakýmkoli webovým prolézacím modulem, který je požádán o přístup na web.

2. Blokujte konkrétní webový obsah z konkrétní složky. Například;

User-agent: Googlebot

Disallow: / example-subfolder /

Tato syntaxe obsahující jméno user-agent Googlebot patří společnosti Google. Omezuje přístup robota k jakékoli webové stránce v řetězci www.ourexample.com/example-subfolder/.

3. Blokujte konkrétní webový prolézací modul z konkrétní webové stránky. Například;

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Uživatelský agent Bing bot patří k webovým prohledávačům Bing. Tento typ souboru robots.txt omezuje webový prolézací modul Bing v přístupu na konkrétní stránku pomocí řetězce www.ourexample.com/example-subfolder/blocked-page.

Důležitá informace

  • Ne každý uživatel používá váš soubor robts.txt. Někteří uživatelé se mohou rozhodnout to ignorovat. Většina takových webových prohledávačů zahrnuje trojské koně a malware.
  • Aby byl soubor Robots.txt viditelný, měl by být k dispozici v adresáři webové stránky nejvyšší úrovně.
  • Znaky "robots.txt" rozlišují velká a malá písmena. V důsledku toho byste je neměli nijak měnit, včetně kapitalizace některých aspektů.
  • "/Robots.txt" je veřejná doména. Tyto informace může najít kdokoli, když je přidáte do obsahu jakékoli adresy URL. Neměli byste indexovat základní podrobnosti nebo stránky, u kterých chcete, aby zůstaly soukromé.