- Як пошук знаходить сторінку
- Види індексуючему робота
- Перевірка індексації
- Як управляти індексується роботом
- Особливості для AJAX і локалізованих версій сайтів
- Як прискорити індексацію
Індексування (індексація) сайту - це процес отримання інформації про сторінки сайту з подальшим додаванням даних в пошукову базу і результати пошуку.
У пошукових базах індексуючих роботів містяться трильйони адрес різних сайтів. Щодня з цих трильйонів робот викачує мільярди документів. І у всьому цьому великому і постійному процесі дуже важливо те, як робот проиндексирует саме ваш сайт і як він включить їх в результати пошуку.
Як пошук знаходить сторінку
Процес індексації відбувається в 5 етапів:
- Створення сайту.
- Робот дізнається про існування сайту.
- Планування.
- Запит контенту, додавання в базу.
- Як додати інформацію до пошук.
А тепер по порядку пояснення кожного етапу.
Схема: процес індексації сайту поетапно
Ви створили сайт, розмістили його на сервері, наповнили контентом і зробили його доступним для відвідувача і індексуючему робота (етап 1). Далі, для того, щоб сайт почав індексуватися, робот повинен дізнатися про його існування (етап 2). Після того як з'явилася інформація, що в інтернеті розмістили новий сайт робот планує відвідати Вашого сайту (етап 3). Далі він відправляє певні запити до Вашого сервера, отримуючи при цьому контент від нього (етап 4). І отриманий контент додає в майбутньому в пошукову базу (етап 5).
Звідки індексує робот Яндекса або Google дізнається про сторінки (пояснення до етапів 1, 2 і 3):
- посилання на інших сторінках в інтернеті;
- Я.Вебмастер або Google Webmaster;
- внутрішні посилання;
- XML карта сайту;
- інші джерела, наприклад, Яндекс Метрика.
Від чого залежить швидкість індексування:
- завантаженість сервера, на якому знаходиться сайт;
- частота оновлення сторінок;
- інтерес відвідувачів до сайту.
Тут все просто. Якщо сервер не справляється із запитами робота, то він починає відвідувати сайт рідше, отже, сторінки будуть заходити в індекс повільніше. І в той же час, якщо робот бачить, що на вашому сайті часто додається який-небудь новий контент, то він починає відвідувати такі сторінки частіше, тому що вважає, що прийшовши на сайт через якийсь час контент буде знову оновлено.
Також робот дивиться на інтерес відвідувачів сайту до матеріалу, який Ви розміщуєте на ньому. Іншими словами, якщо новини, інформаційні статті або інший контент цікаві відвідувачам, то робот також звертає на це увагу і може переглянути свої політики планування, які використовує при відвідуванні Вашого ресурсу.
Запит і отримання контенту (пояснення до етапу 4):
- Запит файлу robots.txt (1-2 рази на добу).
- Запит конкретної сторінки.
Перед початком кожного індексування робот запитує файл robots.txt. Зазвичай це відбувається 1-2 рази на добу. Робот це робить так відносно рідко з тієї причини, що даний файл рідко оновлюється. Після цього відбувається вже запит конкретної сторінки. Робот при цьому відсилає на сервер певні заголовки:
GET / URL HTTP / 1.1
Host: HOST
Connection: Keep-Alive
Accept: * / *
Accept-Language: ru, uk: q = 0,8, be: q = 0,8, en: q = 0,7, *: q = 0,01
Accept-Encoding: gzip, deflate
User-Agent: Mozilla / 5.0 (compatible: YandexBot / 3.0; + yandex.com / bots)
From: [email protected]
Accept-Language - вказує на те, які мови підтримує індексує робот. Accept-Encoding - вказує на підтримувані формати стиснення. User-Agent - це заголовок, який показує, який саме індексує робот до Вас прийшов.
Після того як робот відправив запит на сервер, сервер повертає відповідь. Наведу приклад:
HTTP / 1.1 200 Ok
Date: Mon, 20 oct 2015 19:45:13 GMT
Content-Type: text / html; charset = UTF-8
Cache-Control: no-cache, no-store, max-age = 0, must-revalidate
Expires: Mon, 20 oct 2015 19:45:12 GMT
Last-Modified: Mon, 20 oct 2015 19:45:12 GMT
Set-Cookie: yp =; Expires = Fri, 20-oct-2015 19:45:13 GMT; Path = /
X-Frame-Options: DENY
Contet-Encoding: gzip
X-XSS-Protection: 1; mode = block
X-Content-Type-Options: nosniff
Transfer-Encoding: chunked
HTTP / 1.1 - обов'язковий відповідь сервера, який показує в якому статусі знаходишся запитувана сторінка. Content-Type - також обов'язковий відповідь, який показує який тип документа буде передаватися роботу і його кодування. Contet-Encoding - показує тип стиснення, який використовується на сервері.
Поширені HTTP / 1.1 коди відповіді сервера:
- HTTP-200 - сторінка доступна, її необхідно індексувати і включати в результати пошуку;
- HTTP-301 - сторінка перенесена, необхідно включати в результати пошуку нову сторінку (мета перенаправлення);
- HTTP-302 - сторінка перенесена, необхідно включати в результати пошуку найбільш короткий адресу;
- HTTP-304 - сторінка не змінювалася з моменту останнього звернення і контент передаватися не буде;
- HTTP-404 - сторінка видалена;
- HTTP-503 - сторінка тимчасово недоступна (рекомендується включати даний код відповіді при проведенні будь-яких робіт на сервері).
Додавання контенту в пошукову базу (пояснення до етапу 5).
Крім HTTP відповіді повертається вашим сервером ще має передаватися і вміст сторінки. Отже робот отримує:
- HTTP код відповіді;
- Текстовий вміст, мета-теги;
- Вихідні посилання на внутрішні і зовнішні сторінки.
Види індексуючему робота
Після того, як контент отриманий його потрібно включити в результати пошуку. Залежно від того який індексує робот відвідує сайт, ваші сторінки можуть з'явитися в результатах пошуку в різний час. Це залежить від типу робота, який буває швидким або основним.
Швидкий робот відвідує, як правило, сторінки новинних ресурсів і сайтів у яких інформація швидко втрачає свою актуальність. Тобто ті сторінки, які потрібно проіндексувати саме зараз і включити їх в результати пошуку. Основний індексує робот відвідує всі сторінки, які йому відомі, запитує весь контент і включає документи в результати пошукової видачі. Єдине, що це відбувається повільно в момент поновлення пошукової бази (1-2 тижні).
Перевірка індексації
Перевірка індексації кожної сторінки сайту - це важливий етап робіт, який повинен, в ідеальному випадку, проводиться автоматично. Якщо маленький проект ще можна вручну перевірити, то вже великі проекти буде трудозатратно. Звичайно, в такому випадку потрібні спеціалізовані програми або власна розробка.
Важливо розуміти, що коли в індекс потрапляють різні сміттєві сторінки, наприклад, різні дублі, сторінки без змісту, або з помилками, то це призводить до розповзання статичної ваги, як на корисні, так одночасно і на сміттєві сторінки. Також це призводить до непотрапляння або випадання важливих просуваються сторінок в індекс, що в підсумку позначиться на трафіку.
Як дізнатися, що сторінка в пошуку Яндекса:
- Яндекс.Вебмайстер, інструмент - «перевірити URL»;
- Результати пошуку з оператором url:, наприклад, url: www.seowind.ru/baza-znanij-seo/indeksaciya-sajta/
- Пошук всіх сторінок сайту, які знаходяться в пошуку - оператор site:, наприклад, site: www.seowind.ru
Як управляти індексується роботом
Тепер потрібно зрозуміти, як можна впливати на краулер, щоб він індексував тільки те, що потрібно нам. Управляти індексацією можна через:
- файл robots.txt - набір строгих інструкцій для робота, які показують, що можна індексувати, а що не можна;
- xml карта сайту - список адрес сторінок сайту, які потрібно індексувати;
- настройка дзеркал сайту.
Про дзеркала: буває деколи так, що один сайт доступний за кількома адресами (наприклад з www і без www). Щоб уникнути такого дублювання ці дзеркала потрібно склеїти, тобто налаштувати 301 редирект з другорядних дзеркал на основне. Також для Яндекса можна прописати головне дзеркало директивою host в robots.txt або вказати в Яндекс.Вебмастере.
Важливо пам'ятати! Щоб сайти для робота були дзеркалами на них повинен знаходитися однаковий контент.
Особливості для AJAX і локалізованих версій сайтів
Залишилося розповісти про індексації деяких видів сайтів.
В першу чергу з динамічним контентом або сайти які працюють на AJAX. Тут можна виділити 2 окремих випадки, але вони зводяться до одного й того ж. Вебмайстрам необхідно створити індексуючему робота HTML копії, тобто статичні копії, де весь контент вже є і повідомити про їх існування.
В такому випадку краулер буде відвідувати ці HTML копії, які ви для нього створили і в результати пошуку будуть включатися динамічні сторінки призначені для відвідувачів.
Випадок 1:
- site.ru/#blog -> site.ru/#blog
- site.ru/#!blog -> site.ru/?_escaped_fragment_=blog
Тут сторінка нашого сайту містить хеш. Ми додаємо знак! після цього хешу і розміщуємо сторінку за відповідною адресою.
Випадок 2:
- site.ru/blog -> <meta name = "fragment» content = "!»>
- site.ru/blog -> site.ru/blog?_escaped_fragment_=
У 2 разі ми розміщуємо мета тег в вихідному коді сторінки і також додаємо HTML копію для сторінки сайту.
Деякі особливості існують і в індексації локалізованих версій сайтів на інших мовах. Наприклад, якщо у вас величезний форум або інтернет-магазин з різними мовними версіями. Щоб ці мовні версії індексувалися і знаходилися в пошуковій видачі необхідно:
- відкрити локалізовану версію для краулер;
- використовувати атрибут hreflang, який розміщується в вихідному коді всіх сторінок сайту у яких є перекладені на інші мови версії.
приклад:
- <Link rel = "alternate» hreflang = "ru-ru» href = "https://www.seowind.ru/ru-ru/» />
- <Link rel = "alternate» hreflang = "en-us» href = "https://www.seowind.ru/en-us/» />
В такому випадку робот приймає рішення, що, в пошукову видачу, наприклад, в США потрібно включити відповідну (англійську) мовну версію сайту.
Також якщо у Вас є сторінка, де мова вибирається автоматично, наприклад, на підставі IP адреси відвідувача, то роботу теж можна про це сказати наступним чином:
<Link rel = "alternate» hreflang = "x-default» href = "https://www.seowind.ru/» />
Як прискорити індексацію
Прискорення індексування сторінок сайту - це серйозне завдання для seo-фахівця, яка потребує вирішення. Для того щоб поліпшити індексацію сайту необхідно виконати певний комплекс робіт:
- Позбутися від дублів сторінок (тобто з абсолютно ідентичним контентом, але доступним за різними адреси). Потрібно позбавити робота від відвідування непотрібних сміттєвих сторінок.
- Налаштувати правильну віддачу HTTP кодів відповіді сервера. Наприклад, часта помилка, коли використовують код 200 OK замість 404 на неіснуючих сторінках сайту.
- Перевірити логи вашого сервера і закрити службові сторінки від індексування в robots.txt.
- Перенести сайт на більш потужний хостинг з хорошим up-time (бажано не менше 99.5%). Переконатися у відсутності помилок в звіті Яндекс.Вебмайстер «Історія HTTP кодів відповіді».
Ru/blog?