Как търсачките пресяват и систематизират информацията, за да ни предоставят точно това, което търсим. Какво е Robots.txt файл? Как да напишем robots.txt? Какво е Google бот?
В тази статия ще научите как търсачките обхождат и индексират съдържанието на сайта, за какво служи файлът robots.txt и как да го създадем.
Какво е robots.txt файл ?
Robots.txt е текстов файл, който се поставя на сайта Ви и с който указвате ботовоте на търсачките (роботите), кои страници бихте желали да обходят и индексират.
Когато ботовете на търсачките обхождат дадена страница, първото нещо, за което проверяват е дали има наличен robots.txt файл, за да следват описаните в него инструкции.
Обикновено паяците се подчиняват на зададените параметри и не посещават „забранената“ директория.
Robots.txt трябва да бъде поставен в основната директория, защото когато роботите посетят сайта, търсят файла първо там. Ако не успеят да го открият приемат, че няма такъв и обхождат целия сайт.
Защо се нуждаем от robots.txt файл ?
Как може да Ви бъде от полза robots.txt файлът? Той не само напътства роботите, обхождащи сайта, но е и от полза за цялостната SEO оптимизацията.
Всяка търсачка разполага с роботи (ботове), които обхождат наличните страници в онлайн пространството и индексират тяхното съдържание, за да разберат какво има на даден сайт. След което, събраната информация се групира, така че при заявка за търсене, търсачките могат да предоставят релевантна информация. Има случаи, в които бихте искали една част от съдържанието да се индексира, а друга, като лични данни например, не. Трябва Ви начин, с който да кажете на паяците, кои елементи искате да бъдат индексирани и кои не. С помощта на .robots.txt файла ще направите именно това – ще информирате търсачките за Вашето желание, кои страници не бихте желали да се посетят.
Предимства от създаването на robots.txt файл:
- Най-важното предимство на robots.txt файла, е че подобрява индексирането на сайта в резултатите от търсачките.
- За обхождането на всеки сайт има определен ресурс. Той може да бъде добре разпределен с правилното използване на robots.txt файла.
- Предотвратява появата на дублирано съдържание в резултатите от търсачките – дублираното съдържание може да навреди на SEO оптимизацията.
- Позволява да останат скрити страници или папки от уеб сайта.
- Възможност да се регулира какво да се показва в резултатите (някои страници да не се индексират) – например login форми.
- Указване на местоположението на sitemap-a.
- Можете да уточните колко време трябва да изчаква роботът преди да обходи страниците, с цел да не се пренатовари сайтът.
Как работи robots.txt файлът ?
За да можете да се възползвате максимално от ползите на robots.txt файла, първо трябва да се запознаем отблизо с неговия начин на работа.
Терминология
Има няколко основни термина, чието значение трябва да бъде изяснено:
Crawler– това е роботът, който обхожда сайта.
User-agent– посочва конкретен робот или няколко такива.
Directives -списък с директориите в Robots.txt файла, които да бъдат посетени от един или няколко робота.
Uniform Resource Locators (URL)– посочва мрежовия адрес на документ или страница в Интернет пространството.
Crawl-delay – оказва времето в милисекунди, което трябва да бъде изчакано от робота, преди да обходи която и да е страница.
Sitemap– карта на сайта, съдържаща URL адресите, които желаете да бъдат индексирани.
Команди
Allow– позволява обхождане на страници или папки.
Disallow– забранява обхождането на страници или папки.
Начин на работа
Както вече беше уточнено, файлът robots.txt указва на роботите какви инструкции да следват, докато обхождат даден сайт. Основно се използват команди за забрана на посещение на определени директории.
Най-важното, което трябва да бъде спазено като правило за писане на такъв файл, е че задължително трябва да бъде наименуван точно robots.txt Всякакви други вариации няма да доведат до успешното му създаване. Файлът трябва да бъде в основната директория на сайта, за да бъде открит от роботите, когато дойдат да го посетят. Както казахме, ако не бъде открит от тях, те ще обходят целия сайт, без да се съобразят с командите за забрана.
Ето как изглежда един robots.txt файл:
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
Това е начинът за изписване на командите във файла. На първия ред се посочва името на робота, за когото ще се отнася съответната забрана, изписана на долния ред. Указанията могат да бъдат в различни вариации, в зависимост от желанията за обхождане на сайта.
Ще дадем още няколко примера:
User-agent: *
Disallow: /
С тази команда се забранява достъпът на всички роботи до целия сайт.
User-agent: *
Disallow:
Позволява се достъп на всички роботи до целия сайт, включително и до началната страница.
User-agent: Bingbot
Disallow: /primer-papka1/
Тук се забранява достъпа конкретно на робота на Bing да посещава, която и да е страница, съдържаща URL адреса www.primerensait.bg/primer-papka1/
User-agent: Googlebot
Disallow: /primer-papka1/blokirana-stranica.html
С тази команда се забранява на робота на Google да посещава определена страница на съответния адрес: www.primerensait.bg/primer-papka1/blokirana-stranica
В robots.txt файла могат да бъдат задавани мултиплицирани команди за обхождане и да включват няколко робота.
Например:
User-agent: Googlebot
Crawl-delay: 80
Disallow: /mobile/
Disallow: /bfmp/
Disallow: /plugin/
Googlebot трябва да изчака 80 милисекунди преди да обходи съдържанието на сайта, като му е забранено да преминава през посочените горе директории.
User-agent: *
Disallow: /contest/
Disallow: /static/
Disallow: /api/
Disallow: /category/ruf.html
Disallow: /embed/
На всички останали роботи, освен Googlebot, им е позволено обхождането на целия сайта, с изключение на посочените пет директории.
User-agent: Bingbot
Crawl-delay: 5
Освен това Bingbot трябва да изчаква по 5 милисекунди преди да обходи всяка страница, но има достъп до цялото съдържание.
Роботите, които са изрично упоменати ще се съобразяват само с посочените им инструкции и няма да вземат предвид тези, отнасящи се до всички останали.
Групата на всички (*) от своя страна, спазва командите единствено отнасящи се за тях.
Как да откриете robots.txt файла на сайт ?
Единственото, което трябва да направите е да напишете името на домейна и да добавите /robots.txt в края на URL адреса (domain.bg/robots.txt).
Ето два реални примера как изглежда файлът.
Заключение
Без robots.txt файл, търсещите машини обхожда и индексират всичко, което намерят на Вашия уебсайт. Това е добре за повечето уеб сайтове, но е много по-добра практика сами да насочите търсачките към съдържанието, което искате да индексират. По този начин значително ще намалите ненужния трафик и ще оптимизирате работата на сайта си.