Ako zablokovať indexovanie stránky v súbore robots.txt: pokyny a odporúčania

Obsah:

Ako zablokovať indexovanie stránky v súbore robots.txt: pokyny a odporúčania
Ako zablokovať indexovanie stránky v súbore robots.txt: pokyny a odporúčania
Anonim

Práca SEO-optimalizátora je veľmi rozsiahla. Začiatočníkom sa odporúča, aby si zapísali optimalizačný algoritmus, aby nevynechali žiadne kroky. V opačnom prípade bude propagácia len ťažko nazvaná úspešnou, pretože na stránke sa neustále vyskytujú zlyhania a chyby, ktoré sa budú musieť dlho opravovať.

Jedným z optimalizačných krokov je práca so súborom robots.txt. Každý zdroj by mal mať tento dokument, pretože bez neho bude ťažšie zvládnuť optimalizáciu. Vykonáva mnoho funkcií, ktorým budete musieť porozumieť.

Asistent robota

Súbor robots.txt je obyčajný textový dokument, ktorý je možné zobraziť v štandardnom poznámkovom bloku systému. Pri jeho vytváraní musíte nastaviť kódovanie na UTF-8, aby sa dal správne prečítať. Súbor funguje s protokolmi http, https a FTP.

Tento dokument je pomocníkom na vyhľadávanie robotov. V prípade, že to neviete, každý systém používa „pavúky“, ktoré rýchlo prehľadávajú World Wide Web, aby vrátili relevantné stránky pre dopyty.používateľov. Tieto roboty musia mať prístup k údajom o zdrojoch, funguje na to súbor robots.txt.

Aby si pavúky našli cestu, musíte odoslať dokument robots.txt do koreňového adresára. Ak chcete skontrolovať, či stránka obsahuje tento súbor, zadajte do panela s adresou prehliadača „https://site.com.ua/robots.txt“. Namiesto „site.com.ua“musíte zadať zdroj, ktorý potrebujete.

Práca so súborom robots.txt
Práca so súborom robots.txt

Funkcie dokumentu

Súbor robots.txt poskytuje prehľadávačom niekoľko typov informácií. Môže poskytnúť čiastočný prístup, takže „pavúk“skenuje konkrétne prvky zdroja. Úplný prístup vám umožňuje skontrolovať všetky dostupné stránky. Úplný zákaz zabráni robotom, aby čo i len začali kontrolovať, a opustia stránku.

Po návšteve zdroja dostanú „pavúky“primeranú odpoveď na požiadavku. Môže ich byť niekoľko, všetko závisí od informácií v súbore robots.txt. Napríklad, ak bolo skenovanie úspešné, robot dostane kód 2xx.

Možno bola stránka presmerovaná z jednej stránky na druhú. V tomto prípade robot dostane kód 3xx. Ak sa tento kód vyskytne viackrát, pavúk ho bude nasledovať, kým nedostane ďalšiu odpoveď. Aj keď spravidla používa iba 5 pokusov. V opačnom prípade sa zobrazí populárna chyba 404.

Ak je odpoveď 4xx, robot môže prehľadávať celý obsah stránky. Ale v prípade kódu 5xx sa kontrola môže úplne zastaviť, pretože to často naznačuje dočasné chyby servera.

Vyhľadávacie roboty
Vyhľadávacie roboty

Na čopotrebujete robots.txt?

Ako ste možno uhádli, tento súbor je sprievodcom robotov po koreňovom adresári stránky. Teraz sa používa na čiastočné obmedzenie prístupu k nevhodnému obsahu:

  • stránky s osobnými informáciami používateľov;
  • zrkadlové stránky;
  • výsledky vyhľadávania;
  • formuláre na odoslanie údajov atď.

Ak sa v koreňovom adresári stránky nenachádza žiadny súbor robots.txt, robot prehľadá úplne všetok obsah. Preto sa vo výsledkoch vyhľadávania môžu objaviť nechcené údaje, čo znamená, že utrpíte vy aj stránka. Ak sú v dokumente robots.txt špeciálne pokyny, „pavúk“ich bude nasledovať a poskytne informácie požadované vlastníkom zdroja.

Práca so súborom

Ak chcete pomocou súboru robots.txt zablokovať indexovanie stránky, musíte zistiť, ako vytvoriť tento súbor. Postupujte podľa pokynov:

  1. Vytvorte dokument v programe Poznámkový blok alebo Poznámkový blok++.
  2. Nastavte príponu súboru „.txt“.
  3. Zadajte požadované údaje a príkazy.
  4. Uložte dokument a nahrajte ho do koreňového adresára stránky.

Ako vidíte, v jednej z fáz je potrebné nastaviť príkazy pre roboty. Sú dvoch typov: povoliť (Povoliť) a zakázať (Zakázať). Niektoré optimalizátory môžu tiež špecifikovať rýchlosť indexového prehľadávania, hostiteľa a odkaz na mapu stránky zdroja.

Ako zatvoriť stránku z indexovania
Ako zatvoriť stránku z indexovania

Ak chcete začať pracovať so súborom robots.txt a úplne zablokovať indexovanie stránky, musíte tiež rozumieť použitým symbolom. Napríklad v dokumentepoužite "/", čo znamená, že je vybratá celá lokalita. Ak sa použije znak „“, vyžaduje sa postupnosť znakov. Týmto spôsobom bude možné určiť konkrétny priečinok, ktorý bude možné skenovať alebo nie.

Funkcia robotov

"Pavúky" pre vyhľadávače sú odlišné, takže ak pracujete pre niekoľko vyhľadávačov naraz, budete musieť vziať do úvahy tento moment. Ich mená sa líšia, čo znamená, že ak chcete kontaktovať konkrétneho robota, budete musieť zadať jeho meno: „User Agent: Yandex“(bez úvodzoviek).

Ak chcete nastaviť príkazy pre všetky vyhľadávače, musíte použiť príkaz: "User Agent: " (bez úvodzoviek). Ak chcete správne zablokovať indexovanie stránky pomocou súboru robots.txt, musíte poznať špecifiká populárnych vyhľadávacích nástrojov.

Faktom je, že najpopulárnejšie vyhľadávače Yandex a Google majú niekoľko robotov. Každý z nich má svoje úlohy. Napríklad Yandex Bot a Googlebot sú hlavnými „pavúkmi“, ktorí prehľadávajú stránku. Keď poznáte všetky roboty, bude ľahšie doladiť indexovanie vášho zdroja.

Ako funguje súbor robots.txt
Ako funguje súbor robots.txt

Príklady

Pomocou súboru robots.txt teda môžete stránku zatvoriť z indexovania pomocou jednoduchých príkazov, hlavnou vecou je pochopiť, čo konkrétne potrebujete. Ak napríklad chcete, aby sa robot Googlebot nepriblížil k vášmu zdroju, musíte mu dať príslušný príkaz. Bude to vyzerať takto: "User-agent: Googlebot Disallow: /" (bez úvodzoviek).

Teraz musíme pochopiť, čo je v tomto príkaze a ako funguje. Takže "User-agent"sa používa na použitie priameho volania na jedného z robotov. Ďalej uvedieme, na ktorý, v našom prípade je to Google. Príkaz „Disallow“musí začínať na novom riadku a zakázať robotovi vstup na stránku. Symbol lomky v tomto prípade znamená, že na vykonanie príkazu sú vybraté všetky stránky zdroja.

Na čo slúži robots.txt?
Na čo slúži robots.txt?

V súbore robots.txt môžete zakázať indexovanie pre všetky vyhľadávacie nástroje jednoduchým príkazom: "User-agent:Disallow: /" (bez úvodzoviek). Znak hviezdičky v tomto prípade označuje všetky vyhľadávacie roboty. Zvyčajne je takýto príkaz potrebný na pozastavenie indexovania stránky a začatie zásadnej práce na nej, čo by inak mohlo ovplyvniť optimalizáciu.

Ak je zdroj veľký a má veľa stránok, často obsahuje vlastnícke informácie, ktoré je buď nežiaduce zverejniť, alebo môžu negatívne ovplyvniť propagáciu. V tomto prípade musíte pochopiť, ako zatvoriť stránku pred indexovaním v súbore robots.txt.

Môžete skryť priečinok alebo súbor. V prvom prípade musíte začať znova kontaktovaním konkrétneho robota alebo všetkých, takže použijeme príkaz „User-agent“a nižšie špecifikujeme príkaz „Disallow“pre konkrétny priečinok. Bude to vyzerať takto: "Disallow: / folder /" (bez úvodzoviek). Týmto spôsobom skryjete celý priečinok. Ak obsahuje nejaký dôležitý súbor, ktorý by ste chceli zobraziť, musíte napísať príkaz nižšie: „Povoliť: /priečinok/súbor.php“(bez úvodzoviek).

Skontrolovať súbor

Ak na zatvorenie webu používate súbor robots.txtPodarilo sa vám indexovať, ale neviete, či všetky vaše príkazy fungovali správne, môžete skontrolovať správnosť práce.

Najprv musíte znova skontrolovať umiestnenie dokumentu. Nezabudnite, že musí byť výlučne v koreňovom priečinku. Ak je v koreňovom priečinku, potom to nebude fungovať. Potom otvorte prehliadač a zadajte nasledujúcu adresu: „https://vaša stránka. com/robots.txt (bez úvodzoviek). Ak sa vám vo webovom prehliadači zobrazí chyba, súbor nie je tam, kde by mal byť.

Ako zatvoriť priečinok z indexovania
Ako zatvoriť priečinok z indexovania

Smernice je možné skontrolovať v špeciálnych nástrojoch, ktoré používajú takmer všetci správcovia webu. Hovoríme o produktoch Google a Yandex. Napríklad v Google Search Console je panel s nástrojmi, kde musíte otvoriť "Crawl" a potom spustiť "Robots.txt File Inspection Tool". Je potrebné skopírovať všetky údaje z dokumentu do okna a začať skenovať. Presne rovnakú kontrolu je možné vykonať na stránke Yandex. Webmaster.

Odporúča: