Az írórobotok szabályai kezelik az oldal indexelését

Előző

Gyors navigáció az oldalon:

  • Mi az a robots.txt?
  • Felhasználói ügynök utasítási szabályok
  • Jelzési szabályok letiltása és engedélyezése
  • Adja meg a gazdagépet és a webhelytérképet
  • Robots.txt példa a WordPresshez

A modern valóság az, hogy a Runetben egyetlen önmagát tisztelő webhely sem nélkülözheti a robots.txt nevű fájlt – még akkor sem, ha semmi sem akadályozza meg az indexelést (bár szinte minden webhelyen vannak technikai oldalak és duplikált tartalom, amelyeket le kell zárni az indexeléstől ), akkor minimum mindenképpen érdemes www-vel és www nélkül direktívát írni a Yandex számára - erre szolgálnak a robots.txt írási szabályai, amelyekről alább lesz szó.

oldal

Mi az a robots.txt?

Az ilyen nevű fájl története 1994-ig nyúlik vissza, amikor a W3C konzorcium úgy döntött, hogy bevezet egy ilyen szabványt, hogy az oldalak indexelési utasításokkal láthassák el a keresőmotorokat.

Az ilyen nevű fájlt az oldal gyökérkönyvtárába kell menteni, más mappákba helyezése nem megengedett.

A fájl a következő funkciókat látja el:

  • tiltja az oldalak vagy oldalcsoportok indexelését
  • lehetővé teszi bármely oldal vagy oldalcsoport indexelését
  • a Yandex működését jelzi, a webhely melyik tükre a fő (www-vel vagy anélkül)
  • megmutatja a webhelytérkép fájl helyét
  • Mind a négy pont rendkívül fontos az oldal keresőoptimalizálása szempontjából. Az indexelés tilalma lehetővé teszi, hogy megakadályozza az ismétlődő tartalmat tartalmazó oldalak indexelését – például címkeoldalak, archívumok, keresési eredmények, nyomtatott verziójú oldalak stb. Az ismétlődő tartalom jelenléte (ha ugyanaz a szöveg, akár több ajánlat mennyiségében is két vagy több oldalon van jelen) hátrányt jelent a webhely számára a keresőmotorok rangsorában,ezért a lehető legkevesebb duplikáció legyen.

    Az enable direktívának nincs független értéke, mivel alapértelmezés szerint minden oldal elérhető indexeléshez. A tiltással kapcsolatban működik – amikor például egy szakaszt teljesen bezártak a keresőmotorok elől, de szeretné megnyitni azt vagy egy adott oldalt benne.

    Az oldal főtükre mutatása az optimalizálás egyik legfontosabb eleme is: a keresőmotorok a www.yoursite.ru és a yoursite.ru oldalt két különböző forrásnak tekintik, hacsak Ön kifejezetten mást nem mond. Ennek eredményeként a tartalom megkettőződése – ismétlődések megjelenése, a külső hivatkozások erősségének csökkenése (a külső hivatkozások www-vel és www nélkül is elhelyezhetők), és ennek eredményeként alacsonyabb helyezést eredményezhet Keresési eredmények.

    A Google számára a fő tükröt a Webmestereszközök (http://www.google.ru/webmasters/) írják elő, de a Yandex esetében ezek az utasítások csak ugyanabban a robots.tkht-ban írhatók elő.

    Ha egy webhelytérképet tartalmazó xml-fájlra mutat (például sitemap.xml), a keresőmotorok megtalálhatják ezt a fájlt.

    Felhasználói ügynök utasítási szabályok

    A felhasználói ügynök ebben az esetben egy keresőmotor. Az utasítások írásakor fel kell tüntetni, hogy az összes keresőmotorra vonatkoznak-e (majd egy csillag – *) kerül hozzáadásra, vagy egy adott keresőmotorhoz, például a Yandexhez vagy a Google-hoz szánják.

    Ha az összes robothoz User-agentet szeretne megadni, írja be a következő sort a fájlba:

    User-agent: *

    Yandex esetén:

    Felhasználói ügynök: Yandex

    A Google számára:

    Felhasználói ügynök: GoogleBot

    Jelzési szabályok letiltása és engedélyezése

    Először is meg kell jegyezni, hogy a robots.txt fájlnak legalább egy disallow direktívát kell tartalmaznia ahhoz, hogy érvényes legyen. Most fontoljuk megezen irányelvek konkrét példákon való alkalmazása.

    Ennek a kódnak a segítségével lehetővé teszi a webhely összes oldalának indexelését:

    User-agent: * Letiltás:

    Ennek a kódnak a segítségével éppen ellenkezőleg, minden oldal be lesz zárva:

    User-agent: * Letiltás: /

    Egy adott mappa nevű könyvtár indexelésének tiltásához adja meg:

    User-agent: * Disallow: /mappa

    Egy adott mappa nevű könyvtár indexelésének tiltásához adja meg:

    User-agent: * Disallow: /mappa

    Csillaggal is helyettesíthet tetszőleges nevet:

    User-agent: * Disallow: *.php

    Fontos: a csillag teljesen lecseréli a fájlnevet, azaz nem lehet megadni a fájl*.php-t, csak a *.php-t (de minden .php kiterjesztésű oldal le lesz tiltva, ennek elkerülése érdekében - megadhat egy konkrét oldalcímet) .

    Az engedélyezési direktíva, mint fentebb említettük, kivételek létrehozására szolgál a disallow-ban (egyébként nincs értelme, mivel az alapértelmezett oldalak már nyitva vannak).

    Például tiltsuk meg az archívum mappában lévő oldal indexelését, de hagyjuk nyitva az index.html oldalt ebből a könyvtárból:

    Engedélyezés: /archive/index.html Disallow: /archívum/

    Adja meg a gazdagépet és a webhelytérképet

    A gazdagép a webhely fő tükre (vagyis a domain név plusz www vagy az előtag nélküli domain név). A gazdagép csak a Yandex robot számára van megadva (egyidejűleg legalább egy tiltó parancsnak kell lennie).

    A gazdagép jelzéséhez a robots.txt fájlnak a következő bejegyzést kell tartalmaznia:

    Felhasználói ügynök: Yandex Disallow: Házigazda: www.vashsayt.ru

    Ami a webhelytérképet illeti, a robots.txt webhelytérképet egyszerűen a megfelelő fájl teljes elérési útjának megadásával adjuk meg a domain névvel:

    Webhelytérkép:http://vashsayt.ru/sitemap.xml

    Itt van leírva, hogyan készítsünk webhelytérképet a WordPress számára.

    Robots.txt példa a WordPresshez

    Wordpress esetén az utasításokat úgy kell megadni, hogy az összes technikai könyvtárat (wp-admin, wp-includes stb.) bezárják az indexelés elől, valamint a címkék, rss fájlok, megjegyzések és keresés által létrehozott oldalak megkettőzését.

    Példaként a robots.txt fájlra a wordpresshez, átveheti a fájlt a webhelyünkről:

    Felhasználói ügynök: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Engedélyezés: /wp-content/uploads/

    Házigazda: www.runcms.org

    User-agent: Googlebot Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Engedélyezés: /wp-content/uploads/

    User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Engedélyezés: /wp-content/uploads/

    Webhelytérkép:http://www.runcms.org/sitemap.xml

    A robots.txt fájlt letöltheti weboldalunkról ezen a hivatkozáson keresztül.

    Ha bármilyen kérdése van a cikk elolvasása után, tegye fel őket a megjegyzésekben!

    Következő

    Olvassa el tovabba: