Ako správne nastaviť súbor Robots.txt?

Obsah:

Ako správne nastaviť súbor Robots.txt?
Ako správne nastaviť súbor Robots.txt?
Anonim

Správny súbor Robots txt pre html stránku vytvára akčné makety pre roboty vyhľadávacích nástrojov a hovorí im, čo môžu skontrolovať. Tento súbor je často označovaný ako Robot Exclusion Protocol. Prvá vec, ktorú roboty hľadajú pred indexovým prehľadávaním webovej stránky, je robots.txt. Môže ukazovať alebo prikázať súboru Sitemap, aby nekontroloval určité subdomény. Ak chcete, aby vyhľadávače hľadali to, čo sa najčastejšie nachádza, potom súbor robots.txt nie je potrebný. V tomto procese je veľmi dôležité, aby bol súbor správne naformátovaný a neindexoval stránku používateľa s osobnými údajmi používateľa.

Princíp robotického skenovania

Princíp robotického skenovania
Princíp robotického skenovania

Keď vyhľadávací nástroj narazí na súbor a uvidí zakázanú adresu URL, neprehľadá ho, ale môže ho indexovať. Je to preto, že aj keď roboti nemajú povolené prezerať obsah, dokážu si zapamätať spätné odkazy smerujúce na zakázanú URL. Kvôli zablokovanému prístupu k odkazu sa URL zobrazí vo vyhľadávačoch, ale bez fragmentov. Akpre prichádzajúcu marketingovú stratégiu je potrebný správny txt Robots pre bitrix (Bitrix), ktorý na žiadosť používateľa poskytuje overenie stránky skenermi.

Na druhej strane, ak súbor nie je správne naformátovaný, môže to viesť k tomu, že sa stránka nezobrazí vo výsledkoch vyhľadávania a nenájde sa. Vyhľadávacie nástroje nemôžu tento súbor obísť. Programátor môže zobraziť súbor robots.txt ľubovoľnej lokality tak, že prejde na jej doménu a sleduje ju pomocou súboru robots.txt, napríklad www.domena.com/robots.txt. Pomocou nástroja, ako je sekcia SEO optimalizácie spoločnosti Unamo, kde môžete zadať ľubovoľnú doménu a služba zobrazí informácie o existencii súboru.

Obmedzenia skenovania:

  1. Používateľ má zastaraný alebo citlivý obsah.
  2. Obrázky na stránke nebudú zahrnuté do výsledkov vyhľadávania obrázkov.
  3. Stránka ešte nie je pripravená na ukážku na indexovanie robotom.

Nezabudnite, že informácie, ktoré si používateľ želá získať z vyhľadávacieho nástroja, sú dostupné každému, kto zadá adresu URL. Tento textový súbor nepoužívajte na skrytie citlivých údajov. Ak má doména chybu 404 (nenájdená) alebo 410 (úspešná), vyhľadávač skontroluje stránku aj napriek prítomnosti súboru robots.txt, v takom prípade usúdi, že súbor chýba. Iné chyby, ako napríklad 500 (interná chyba servera), 403 (zakázané), časový limit vypršal alebo „nie je k dispozícii“rešpektujú pokyny v súbore robots.txt, obídenie však môže byť oneskorené, kým nebude súbor k dispozícii.

Vytvorenie vyhľadávacieho súboru

Vytvorenie vyhľadávacieho súboru
Vytvorenie vyhľadávacieho súboru

VeľaCMS programy ako WordPress už majú súbor robots.txt. Pred správnou konfiguráciou Robots txt WordPress sa používateľ musí oboznámiť s jeho schopnosťami, aby zistil, ako k nemu pristupovať. Ak programátor vytvára súbor sám, musí spĺňať nasledujúce podmienky:

  1. Musí byť napísané malými písmenami.
  2. Použite kódovanie UTF-8.
  3. Uložiť v textovom editore ako súbor (.txt).

Keď používateľ nevie, kam ho umiestniť, kontaktuje dodávateľa softvéru webového servera, aby zistil, ako sa dostať do koreňového adresára domény, alebo prejde do konzoly Google a stiahne si ho. Pomocou tejto funkcie môže Google tiež skontrolovať, či robot funguje správne, a zoznam stránok, ktoré boli pomocou súboru zablokované.

Hlavný formát správneho súboru Robots txt pre bitrix (Bitrix):

  1. Legend robots.txt.
  2. , pridáva komentáre, ktoré sa používajú iba ako poznámky.
  3. Tieto komentáre budú skenery ignorovať spolu s prípadnými preklepmi používateľa.
  4. User-agent – označuje, na ktorom vyhľadávači sú uvedené pokyny pre súbor.
  5. Pridaním hviezdičky () poviete skenerom, že pokyny sú pre každého.

Označenie konkrétneho robota, napríklad Googlebot, Baiduspider, Applebot. Disallow informuje prehľadávače, ktoré časti webovej lokality by sa nemali prehľadávať. Vyzerá to takto: User-agent:. Hviezdička znamená „všetci roboti“. Môžete však špecifikovať stránky pre konkrétneroboty. Na to potrebujete poznať názov robota, pre ktorý sú nastavené odporúčania.

Správny txt robotov pre Yandex môže vyzerať takto:

Opravte robots txt pre Yandex
Opravte robots txt pre Yandex

Ak by robot nemal prehľadávať stránku, môžete to špecifikovať a ak chcete nájsť mená používateľských agentov, odporúčame vám oboznámiť sa s online možnosťami useragentstring.com.

Optimalizácia stránky

Optimalizácia stránky
Optimalizácia stránky

Nasledujúce dva riadky sa považujú za úplný súbor robots.txt a jeden súbor robots môže obsahovať viacero riadkov používateľských agentov a príkazov, ktoré zakazujú alebo povoľujú prehľadávanie. Hlavný formát správneho súboru Robots txt:

  1. User agent: [používateľské meno agenta].
  2. Disallow: [reťazec adresy URL, ktorý sa neprehľadáva].

V súbore je každý blok príkazov zobrazený ako samostatný oddelený čiarou. V súbore vedľa užívateľského adresára agenta sa každé pravidlo aplikuje na špecifickú množinu riadkov oddelených sekciami. Ak má súbor pravidlo viacerých agentov, robot bude brať do úvahy iba najšpecifickejšiu skupinu pokynov.

Technická syntax

Technická syntax
Technická syntax

Môžeme si to predstaviť ako „jazyk“súborov robots.txt. Existuje päť výrazov, ktoré môžu existovať v tomto formáte, medzi hlavné patria:

  1. User-agent – webový prehľadávač s pokynmi na prehľadávanie, zvyčajne vyhľadávač.
  2. Disallow je príkaz, ktorý používateľskému agentovi povie, aby obišiel(vynechanie) konkrétnej adresy URL. Pre každý existuje iba jedna zakázaná podmienka.
  3. Povoliť. Pre robota Googlebot, ktorý získa prístup, je odmietnutá aj stránka používateľa.
  4. Crawl-delay – určuje, koľko sekúnd bude indexový prehľadávač potrebovať pred indexovým prehľadávaním. Keď to robot nepotvrdí, rýchlosť sa nastaví v konzole Google.
  5. Sitemap – používa sa na vyhľadanie akýchkoľvek máp XML spojených s adresou URL.

Zhody vzorov

Pokiaľ ide o skutočné blokovanie adries URL alebo povolenie platného súboru Robots txt, operácie môžu byť dosť zložité, pretože vám umožňujú použiť zhodu so vzorom na pokrytie množstva možných parametrov webovej adresy. Google aj Bing používajú dva znaky, ktoré identifikujú stránky alebo podpriečinky, ktoré chce SEO vylúčiť. Tieto dva znaky sú hviezdička () a znak dolára ($), kde:je zástupný znak, ktorý predstavuje ľubovoľnú postupnosť znakov. $ – zodpovedá koncu adresy URL.

Google ponúka veľký zoznam možných syntaxí šablón, ktoré používateľovi vysvetlia, ako správne nastaviť súbor txt Robots. Niektoré bežné prípady použitia zahŕňajú:

  1. Zabráňte zobrazovaniu duplicitného obsahu vo výsledkoch vyhľadávania.
  2. Uchovávajte všetky sekcie webu ako súkromné.
  3. Uložiť interné stránky výsledkov vyhľadávania na základe otvoreného výpisu.
  4. Uveďte miesto.
  5. Zabrániť vyhľadávacím nástrojom v indexovaní určitých položieksúbory.
  6. Určenie oneskorenia indexového prehľadávania na zastavenie opätovného načítavania pri skenovaní viacerých oblastí obsahu súčasne.

Kontrola prítomnosti súboru robota

Ak na stránke nie sú žiadne oblasti, ktoré je potrebné prehľadať, súbor robots.txt nie je vôbec potrebný. Ak si používateľ nie je istý, či tento súbor existuje, musí zadať koreňovú doménu a zadať ju na koniec adresy URL, napríklad takto: moz.com/robots.txt. Množstvo vyhľadávacích robotov tieto súbory ignoruje. Tieto prehľadávače však spravidla nepatria medzi renomované vyhľadávače. Sú to druh spamerov, e-mailových agregátorov a iných typov automatických robotov, ktorých je na internete veľa.

Je veľmi dôležité zapamätať si, že používanie štandardu vylúčenia robotov nie je účinným bezpečnostným opatrením. V skutočnosti môžu niektorí roboti začať stránkami, na ktorých ich používateľ nastaví do režimu skenovania. Existuje niekoľko častí, ktoré vstupujú do súboru štandardnej výnimky. Predtým, ako robotovi poviete, na ktorých stránkach by nemal pracovať, musíte určiť, s ktorým robotom sa má rozprávať. Vo väčšine prípadov používateľ použije jednoduchú deklaráciu, ktorá znamená „všetci roboti“.

SEO optimalizácia

SEO optimalizácia
SEO optimalizácia

Pred optimalizáciou sa používateľ musí uistiť, že neblokuje žiadny obsah alebo časti stránky, ktoré je potrebné obísť. Odkazy na stránky blokované správnym súborom Robots txt nebudú rešpektované. To znamená:

  1. Ak nie sú prepojené s inými stránkami dostupnými pre vyhľadávače, napr. stránky,nie sú blokované súborom robots.txt alebo meta robotom a súvisiace zdroje nebudú prehľadávané, a preto ich nemožno indexovať.
  2. Z blokovanej stránky nie je možné preniesť žiadny odkaz do cieľa odkazu. Ak takáto stránka existuje, je lepšie použiť iný mechanizmus blokovania ako robots.txt.

Pretože iné stránky môžu priamo odkazovať na stránku obsahujúcu osobné informácie a chcete túto stránku zablokovať vo výsledkoch vyhľadávania, použite inú metódu, ako je ochrana heslom alebo noindex metaúdaje. Niektoré vyhľadávače majú viacero používateľských agentov. Google napríklad používa Googlebot na organické vyhľadávanie a Googlebot-Image na vyhľadávanie obrázkov.

Väčšina používateľských agentov z rovnakého vyhľadávacieho nástroja sa riadi rovnakými pravidlami, takže nie je potrebné špecifikovať príkazy pre každý z niekoľkých prehľadávačov, ale táto možnosť môže doladiť prehľadávanie obsahu lokality. Vyhľadávací nástroj ukladá obsah súboru do vyrovnávacej pamäte a zvyčajne aktualizuje obsah uložený vo vyrovnávacej pamäti aspoň raz denne. Ak používateľ zmení súbor a chce ho aktualizovať rýchlejšie ako zvyčajne, môže odoslať webovú adresu robots.txt Googlu.

Vyhľadávače

Kontrola existencie súboru robota
Kontrola existencie súboru robota

Ak chcete pochopiť, ako správne funguje súbor Robots txt, potrebujete vedieť o možnostiach vyhľadávacích nástrojov. Ich schopnosť skrátka spočíva v tom, že posielajú „skenery“, čo sú programy, ktoréprezeraním informácií na internete. Potom uložia niektoré z týchto informácií, aby ich neskôr odovzdali používateľovi.

Pre mnohých ľudí je Google už internet. V skutočnosti majú pravdu, pretože toto je možno jeho najdôležitejší vynález. A hoci sa vyhľadávače od svojho vzniku veľa zmenili, základné princípy sú stále rovnaké. Crawlery, známe aj ako „boty“alebo „pavúky“, nachádzajú stránky z miliárd webových stránok. Vyhľadávače im dávajú pokyny, kam majú ísť, pričom jednotlivé stránky môžu tiež komunikovať s robotmi a povedať im, ktoré konkrétne stránky by si mali pozrieť.

Vlastníci stránok sa vo všeobecnosti nechcú zobrazovať vo vyhľadávačoch: správcovské stránky, backendové portály, kategórie a značky a iné informačné stránky. Súbor robots.txt možno použiť aj na zabránenie vyhľadávacím nástrojom v kontrole stránok. Stručne povedané, súbor robots.txt povie webovým prehľadávačom, čo majú robiť.

Zakázať stránky

Toto je hlavná časť súboru vylúčenia robota. Jednoduchým vyhlásením používateľ povie robotovi alebo skupine robotov, aby neprechádzali určité stránky. Syntax je jednoduchá, napríklad na odmietnutie prístupu ku všetkému v adresári „admin“stránky napíšte: Disallow: /admin. Tento riadok zabráni robotom v prehľadávaní yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html a čomukoľvek inému v adresári admin.

Ak chcete zakázať jednu stránku, jednoducho ju uveďte v riadku pre zákaz: Disallow: /public/exception.html. Teraz stránka „výnimky“.nebude migrovať, ale všetko ostatné vo „verejnom“priečinku áno.

Ak chcete zahrnúť viacero strán, jednoducho ich uveďte:

Adresáre a stránky
Adresáre a stránky

Tieto štyri riadky správneho súboru Robots txt pre Symphony sa budú vzťahovať na každého používateľského agenta uvedeného v hornej časti sekcierobots.txt pre

Zákaz stránok
Zákaz stránok

Sitemap:

Ďalšie príkazy:live – neumožňujú webovým prehľadávačom indexovať cpresources/ alebo provider/.

User Agent:Disallow: /cpresources/.

Odmietnuť: / dodávateľ / Disallow: /.env.

Nastavenie štandardov

Používateľ môže špecifikovať konkrétne stránky pre rôznych robotov spojením predchádzajúcich dvoch prvkov, takto to vyzerá. Príklad správneho súboru Robots txt pre všetky vyhľadávacie nástroje je uvedený nižšie.

Stanovenie noriem
Stanovenie noriem

Sekcie „admin“a „súkromné“budú pre Google a Bing neviditeľné, ale Google bude stále vidieť „tajný“adresár, zatiaľ čo Bing nie. Pomocou používateľského agenta hviezdičky môžete zadať všeobecné pravidlá pre všetky roboty a potom v nasledujúcich častiach poskytnúť robotom konkrétne pokyny. S vyššie uvedenými znalosťami môže používateľ napísať príklad správneho súboru Robots txt pre všetky vyhľadávacie nástroje. Stačí spustiť svoj obľúbený textový editor a povedať robotom, že nie sú vítaní v určitých častiach webu.

Tipy na zlepšenie výkonu servera

SublimeText jevšestranný textový editor a zlatý štandard pre mnohých programátorov. Jeho programátorské tipy sú navyše založené na efektívnom kódovaní. používatelia oceňujú prítomnosť skratiek v programe. Ak chce používateľ vidieť príklad súboru robots.txt, mal by prejsť na ľubovoľnú stránku a pridať „/robots.txt“na koniec. Tu je časť súboru robots.txt GiantBicycles.

Program umožňuje vytváranie stránok, ktoré používatelia nechcú zobrazovať vo vyhľadávačoch. A tiež má niekoľko exkluzívnych vecí, o ktorých vie len málo ľudí. Napríklad, zatiaľ čo súbor robots.txt hovorí robotom, kam nemajú ísť, súbor sitemap robí opak a pomáha im nájsť to, čo hľadajú, a zatiaľ čo vyhľadávače už pravdepodobne vedia, kde sa mapa nachádza, nedostane v ceste.

Existujú dva typy súborov: stránka HTML alebo súbor XML. HTML stránka je stránka, ktorá návštevníkom zobrazuje všetky dostupné stránky na webovej lokalite. Vo vlastnom súbore robots.txt to vyzerá takto: Sitemap://www.makeuseof.com/sitemap_index.xml. Ak stránka nie je indexovaná vyhľadávacími nástrojmi, hoci bola niekoľkokrát prehľadávaná webovými robotmi, musíte sa uistiť, že súbor je prítomný a že jeho povolenia sú nastavené správne.

V predvolenom nastavení sa to stane pri všetkých inštaláciách SeoToaster, ale v prípade potreby to môžete resetovať takto: Súbor robots.txt - 644. V závislosti od servera PHP, ak to používateľovi nefunguje, odporúčame vyskúšať nasledovné: Súbor robots.txt - 666.

Nastavenie oneskorenia skenovania

Smernica o oneskorení premostenia informuje určitévyhľadávače, ako často môžu indexovať stránku na webe. Meria sa v sekundách, hoci niektoré vyhľadávače to interpretujú trochu inak. Niektorí ľudia vidia oneskorenie indexového prehľadávania 5, keď sa im povie, aby po každom skenovaní počkali päť sekúnd, kým sa spustí ďalšie.

Iní to interpretujú ako pokyn na skenovanie iba jednej strany každých päť sekúnd. Robot nemôže skenovať rýchlejšie, aby šetril šírku pásma servera. Ak server potrebuje zodpovedať prevádzke, môže nastaviť oneskorenie premostenia. Vo všeobecnosti sa o to používatelia vo väčšine prípadov nemusia starať. Takto je nastavené oneskorenie indexového prehľadávania na osem sekúnd – Oneskorenie indexového prehľadávania: 8.

Nie všetky vyhľadávacie nástroje však budú dodržiavať túto smernicu, takže pri zakázaní stránok môžete pre určité vyhľadávacie nástroje nastaviť rôzne oneskorenia indexového prehľadávania. Po nastavení všetkých pokynov v súbore ho môžete nahrať na stránku, najprv sa uistite, že ide o jednoduchý textový súbor s názvom robots.txt a možno ho nájsť na adrese yoursite.com/robots.txt.

Najlepší robot WordPress

Najlepší robot WordPress
Najlepší robot WordPress

Na stránke WordPress sú niektoré súbory a adresáre, ktoré je potrebné zakaždým uzamknúť. Adresáre, ktoré by používatelia mali zakázať, sú adresár cgi-bin a štandardné adresáre WP. Niektoré servery nepovoľujú prístup k adresáru cgi-bin, ale používatelia ho musia zahrnúť do direktívy disallow pred správnou konfiguráciou Robots txt WordPress

Štandardné adresáre WordPress,ktoré by mali blokovať sú wp-admin, wp-content, wp-includes. Tieto adresáre neobsahujú údaje, ktoré sú pôvodne užitočné pre vyhľadávače, ale existuje výnimka, t. j. v adresári wp-content existuje podadresár s názvom uploads. Tento podadresár musí byť povolený v súbore robot.txt, pretože obsahuje všetko, čo sa načítava pomocou funkcie nahrávania médií WP. WordPress používa značky alebo kategórie na štruktúrovanie obsahu.

Ak sa používajú kategórie, potom na vytvorenie správneho súboru Robots txt pre Wordpress podľa špecifikácie výrobcu programu je potrebné zablokovať vyhľadávanie v archívoch značiek. Najprv skontrolujú databázu tak, že prejdú na panel „Správa“> „Nastavenia“> „Permalink“.

Štandardne je základom značka, ak je pole prázdne: Disallow: / tag /. Ak je použitá kategória, musíte túto kategóriu zakázať v súbore robot.txt: Disallow: /category/. Štandardne je základom značka, ak je pole prázdne: Disallow: / tag /. Ak je použitá kategória, musíte túto kategóriu zakázať v súbore robot.txt: Disallow: / category /.

Súbory používané predovšetkým na zobrazovanie obsahu, budú blokované správnym súborom Robots txt pre Wordpress:

Robots txt pre wordpress
Robots txt pre wordpress

Základné nastavenie Joomla

Akonáhle si používateľ nainštaluje Joomla, musíte si pozrieť správne nastavenie Joomla Robots txt v globálnej konfigurácii, ktorá sa nachádza v ovládacom paneli. Niektoré nastavenia sú tu veľmi dôležité pre SEO. Najprv nájdite názov stránky a uistite sa, že jepoužíva sa krátky názov stránky. Potom nájdu skupinu nastavení napravo od tej istej obrazovky, ktorá sa nazýva SEO nastavenia. Ten, ktorý sa určite bude musieť zmeniť, je druhý: použite prepísanú adresu URL.

Znie to komplikovane, ale v podstate to pomáha Joomle vytvárať čistejšie adresy URL. Najpozoruhodnejšie, ak z adries URL odstránite riadok index.php. Ak to neskôr zmeníte, adresy URL sa zmenia a Googlu sa to nebude páčiť. Pri zmene tohto nastavenia je však potrebné vykonať niekoľko krokov súčasne, aby sa vytvoril správny robots txt pre Joomla:

  1. Nájdite súbor htaccess.txt v koreňovom priečinku Joomla.
  2. Označte to ako.htaccess (bez prípony).
  3. Zahrňte názov lokality do názvov stránok.
  4. Nastavenia metadát nájdete v spodnej časti obrazovky globálnej konfigurácie.

Robot v cloude MODX

Robot v MODX Cloude
Robot v MODX Cloude

Modx Cloud predtým poskytoval používateľom možnosť ovládať správanie umožňujúce poskytovanie súboru robots.txt na základe prepínača na ovládacom paneli. Aj keď to bolo užitočné, bolo možné náhodne povoliť indexovanie na pracovných/vývojárskych stránkach prepnutím možnosti na informačnom paneli. Podobne bolo jednoduché zakázať indexovanie na produkčnom webe.

Služba dnes predpokladá prítomnosť súborov robots.txt v systéme súborov s nasledujúcou výnimkou: každá doména, ktorá končí na modxcloud.com, bude slúžiť ako Disallow: /directive pre všetkých používateľských agentov bez ohľadu na prítomnosť alebo absencia súboru. Produkčné stránky, ktoré prijímajú skutočnú návštevnosť návštevníkov, budú musieť použiť svoju vlastnú doménu, ak chce používateľ indexovať svoju stránku.

Niektoré organizácie používajú správny súbor Robots txt pre modx na spustenie viacerých webových stránok z jednej inštalácie pomocou kontextov. Prípadom, v ktorom by sa to dalo použiť, by bola verejná marketingová stránka kombinovaná s mikro stránkami na vstupnej stránke a možno aj neverejným intranetom.

Tradične to bolo ťažké urobiť pre inštalácie s viacerými používateľmi, pretože zdieľajú rovnaký koreňový adresár siete. S MODX Cloud je to jednoduché. Jednoducho nahrajte dodatočný súbor na webovú stránku s názvom robots-intranet.example.com.txt s nasledujúcim obsahom a zablokuje indexovanie pomocou dobre fungujúcich robotov a všetky ostatné názvy hostiteľov sa vrátia späť na štandardné súbory, pokiaľ neexistujú iné špecifické uzly názvov.

Robots.txt je dôležitý súbor, ktorý pomáha používateľovi pri prepájaní stránok na Google, veľkých vyhľadávacích nástrojoch a iných webových stránkach. Súbor, ktorý sa nachádza v koreňovom adresári webového servera, dáva pokyn webovým robotom, aby prehľadávali stránku a nastavili, ktoré priečinky by mali alebo nemali indexovať, pomocou súboru pokynov nazývaných protokol Bot Exclusion Protocol. Príklad správneho súboru Robots txt pre všetky vyhľadávacie nástroje obots.txt je obzvlášť jednoduché urobiť pomocou SeoToaster. V ovládacom paneli bolo preň vytvorené špeciálne menu, takže robot sa nikdy nebude musieť prepracovať, aby získal prístup.

Odporúča: