Більшість бувалих блогерів, безперечно, знають, що таке robots.txt і навіщо потрібен цей файл. Але, наскільки мені відомо, мало хто з авторів після встановлення блога на WordPress відразу ж кидається створювати файл robots.txt. Тому сьогодні я вирішив коротко розповісти, чому наявність robots.txt все-таки бажана і яким чином з його допомогою оптимізувати індексацію вашого контенту пошуковими роботами.
Robots.txt – це текстовий файл, який завантажується в кореневу директорію вашого сайту і містить інструкції для пошукових роботів. Основна мета його використання – це заборона індексації окремих сторінок та розділів на сайті. Втім, з допомогою robots.txt можна також вказувати правильне дзеркало домена, прописувати шлях до карти сайту (sitemap) тощо.
Більшість сучасних пошуковиків навчилися непогано орієнтуватися у популярних CMS і зазвичай не намагаються індексувати контент, який для цього не призначений. Наприклад, Google не індексуватиме адмінку вашого WordPress-блога навіть якщо ви не будете вказувати це напряму у robots.txt. Втім, у деяких випадках використання прямих заборон все-таки може виявитися корисним. І йдеться в першу чергу про заборону дубльованого контенту.
Деякі вебмайстри доходять до того, що забороняють індексацію сторінок категорій та тегів, оскільки їх вміст частково дублює контент головної сторінки. Я ж обмежився забороною стрінок trackback та feed, які повністю дублюють контент статті і призначаються зовсім не для пошуковиків. Така пересторога не лише зробить видачу вашого сайта “чистішою”, але й вбереже від можливих пошукових фільтрів, особливо після введення нового алгортиму Google Panda.
Ось які директиви використовую я у файлі robots.txt (він підійде практично для будь-якого WordPress-блога):
User-Agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback/ Disallow: /feed/ Disallow: */trackback/ Disallow: */feed/ Sitemap: http://blogosphere.com.ua/sitemap.xml.gz
Зверніть увагу, що у моєму robots.txt повністю закриті для індексації адміністративні папки wp-admin та wp-includes. Папка ж wp-content закрита лише частково, оскільки в ній знаходиться директорія uploads, куди потрапляють всі зображення з вашого блога, які повинні індексуватися.
Все, що потрібно зробити – це скопіювати директиви із наведеного вище коду (зверніть увагу, що кожна директива повинна писатися з нової стрічки), зберегти їх у текстовий файл з назвою robots.txt і завантажити у кореневу директорію вашого сайту.
Перевірити, чи правильно працює robots.txt завжди можна через інтерфейси Google Webmaster Tools та Яндекс Вебмайстр.
Схожі записи
Якщо вам сподобалася стаття, буду вдячний за її підтримку у соціальних мережах (Twitter, Facebook, Google+ та вКонтактє)