- 1. Загальне визначення
- 2. Шкідливі боти
- 3. Корисні боти
- 3.1. перекладачі
- 3.2. Чат-боти і віртуальні помічники
- 3.3. Персональні помічники
- 4. Пошукові роботи
- 5. Конкретика
Короткий зміст
В даній статті розповідається про те, що таке бот. Наводяться приклади шкідливих і корисних спамерських пошукових роботів. Особливий акцент зроблений на пошукові боти (роботи), оскільки ці знання (нехай і дуже загальні) важливі для успішного інтернет-просування. У розділі «Конкретика» перераховані послуги, які компанія SeoTemple надає бізнесменам з пошукової оптимізації та захисту їх веб-ресурсів - темах, пов'язаних з темою спамерських пошукових роботів.
1. загальне визначення
2. шкідливі боти
3. Корисні боти
3.1. перекладачі
3.2. Чат-боти і віртуальні помічники
3.3. Персональні помічники
4. пошукові роботи
5. конкретика
1. Загальне визначення
Бот (скор. Від робот) - це комп'ютерна програма. Чіткого визначення цього слова немає, тому що немає однозначних критеріїв опису бота. В IT-лексиці це слово з'явилося як сленгове по відношенню до програм і програмних систем, робота яких нагадує самостійну (інтелектуальну, проактивний). Використання слова «бот» замість «робот», мабуть, пов'язано з акцентом саме на комп'ютерних програмах, більшість з яких діє онлайн (або пов'язані з інтернет-каналом). Тобто назва «бот» відрізняє ці програми від звичної робототехніки. Хоча, можливо, «бот» - це просто сленгове скорочення, оскільки слово «робот» також вживається по відношенню до програм-ботів, зокрема до пошукових алгоритмів (пошуковим роботам).
Нижче в загальних рисах охарактеризовані кілька видів програм, які в тій чи іншій мірі розуміються як боти. Серед них є шкідливі, є і корисні.
2. Шкідливі боти
Більшість шкідливих ботів - це віруси: Malware, Spyware, трояни, руткіти, «черв'яки» та ін. Тобто це програми, здатні на «самостійну» шкідливу діяльність (після запуску людиною, природно). Зокрема, вони можуть непомітно проникати і бути присутнім на комп'ютері в прихованому вигляді, видаляти сліди свого перебування, бути невидимими для антивірусних програм і при цьому працювати, заражати комп'ютери і локальні мережі (LAN) через різні канали (інтернет, електронну пошту, локальні носії та т.д.), вести шпигунську стеження за власником комп'ютера або іншого пристрою (мобільного телефону, планшета, смарт-телевізора) і т.д. - вірусів-ботів, їх властивостей і функцій може бути дуже багато. Вірусів взагалі мільйони, і всі вони по суті своїй боти. Нижче наведено лише кілька прикладів з дуже загальним описом.
Є віруси, спрямовані на поразку (зазвичай масове) приватних комп'ютерів з метою вимагання або просто хуліганства, а є віруси, націлені на корпоративні IT-системи, в т.ч. державні. Їх роль - шпигунство, або виведення з ладу критичних інфраструктур, керованих через комп'ютерні системи (а все інфраструктури сьогодні управляються комп'ютерами). Особливими мішенями завжди є владна, оборонна, фінансова, енергетична, транспортна та інші глобальні державні структури. Гарячими мішенями також є великі компанії, а також, наприклад, ЗМІ. Всі ці інфраструктури схильні до постійної атаці всіляких вірусів і, відповідно, захищаються найбільш ретельно.
До шкідливих ботам (вірусам) також відносяться ботнети. Ботнет (англ .: botnet - мережевий бот) - вірус, що вражає кілька комп'ютерів в інтернеті, після чого з цих комп'ютерів він може проводити координовані DoS / DDoS-атаки на сервери сайтів-мішеней (мішені вибираються, природно, людьми - господарями ботнетів).
Є Email-боти. Це віруси, що використовують канал електронної пошти для свого поширення. Зазвичай вони є постачальник інших вірусів, але обидві ці функції - доставка і вплив - можуть бути суміщені в одному боті.
Є боти-парсери. Самі по собі це не віруси, тому що їх метою є тільки масовий збір інформації в інтернеті, наприклад Email-адрес, телефонів та ін. Парсери добувають цю інформацію з різних джерел: онлайн-каталогів, форм реєстрації, просто з сайтів і т.д. - дивлячись на що налаштований конкретний парсер, що він сканує і збирає (парсит).
Але інформація, видобута шкідливими парсером (ведуть збір інформації для шкідливих цілей) може потім використовуватися спам-ботами, що розсилають спамние інформацію або відверті віруси через різні канали: електронну пошту, мобільний зв'язок (SMS) і ін. Про це вже говорилося вище.
Є шкідливі боти - парсери текстового контенту. Зібраний ними контент потім використовується для генерації спам-ботами дорвеев. Останні є одним із прикладів жорсткого пошукового спаму. Часто функції парсинга і генерації контенту (дорвеев) об'єднані в одному боті.
Поширеним протидією парсером і спам-ботів є капча (captcha) - зазвичай картинка, що відображає набір символів, які людина здатна розпізнати (і ввести з клавіатури в потрібне поле), а бот - немає.
Серед інших шкідливих ботів можна відзначити скупників квитків на масові заходи (концерти, спортивні матчі), а також авіаквитків, наприклад, на «гарячі» популярні тури. Ці квитки потім перепродуються шахраями по сильно завищеною ціною.
3. Корисні боти
3.1. перекладачі
До корисних ботам, а точніше штучним інтелектуальним системам, можна віднести перекладачі (системи машинного перекладу). Найбільш просунутим на сьогоднішній день є перекладач Google Translate. Але є й інші системи машинного перекладу, в т.ч. російські. До останніх відносяться ABBYY Compreno і smartCAT (обидва - проекти компанії ABBYY), PROMPT і яндекс.перекладач. Ці системи також є досить потужними і продовжують успішно розвиватися.
Перекладачі використовують велику мультимовну базу даних (знань) і потужні алгоритми семантичного аналізу, в т.ч. засновані на технології нейронних мереж (штучний інтелект - ІІ). Крім цього, подібні системи здатні до самонавчання, тобто самостійного розширення своєї бази знань і розуміння сенсу раніше невідомих їм виразів. Для цього їм просто потрібен субстрат - якомога більше матеріалу для перекладу. Таким чином, за рівнем свого розвитку системи машинного перекладу вже дійсно наближаються до ІІ (офіційно вони вже і відносяться до ІІ, але це, звичайно, поки що далеко не аналог людського інтелекту. Хоча за механічними здібностями обробки і зберігання інформації комп'ютерний інтелект вже далеко випередив людський).
3.2. Чат-боти і віртуальні помічники
Це кілька більш просунуті системи, ніж перекладачі. Вони здатні не тільки розуміти сенс мови, а й підбирати для окремих питань і виразів адекватні відповіді і коментарі, тобто поводяться в певної міри проактивно. Проте, база знань багатьох чат-ботів і помічників все ж значно поступається такій у перекладачів, наприклад того ж Google Translate. Тому, хоча чат-боти і передбачаються як більш інтелектуальні роботи, але реально багато з них набагато менш інтелектуальні, ніж перекладачі.
3.3. Персональні помічники
Але є і дуже просунуті системи-помічники, такі як спеціально розроблені персональні помічники, які можуть використовуватися в побуті. Спочатку вони також зроблені як питально-відповідна система, але мають дуже велику базу знань і розширені функції. Наприклад, вони можуть не просто відповідати на питання, а й діяти «ініціативно»: співати пісні, жартувати, справлятися про здоров'я господаря, бажати йому доброго ранку або на добраніч, аналізувати поведінку господаря і давати підказки (куди він сховав свої окуляри), давати зведення про погоду і ситуації на дорогах, організовувати життя господаря (планувати і контролювати його домашню та робочу діяльність), а також бути вузлом домашньої автоматизації (управління «розумним» будинком). Персональний помічник - точніше помічниця (як правило це «вона», тобто говорить жіночим голосом) - може робити багато всього в залежності від самої системи і її індивідуальних налаштувань господарем.
Помічник (ця) може випускатися як у вигляді самостійного бездротового пристрою, так і у вигляді програми, яка встановлюється на комп'ютер або мобільний гаджет, наприклад телефон. Всі ці системи працюють за принципом розпізнавання усного мовлення (письмову теж розпізнають). Приймають, відсилають, обробляють і зберігають інформацію в хмарі - на розподілених інтернет-серверах. Таким чином, дані системи (програми) повноцінно функціонують, тільки будучи з'єднаними з інтернетом через дротову або бездротову зв'язок. Тобто сам девайс або програма, по суті, є локальним пристроєм введення-виведення інформації - свого роду розширеним інтерфейсом.
Персональні помічники також відносять до ІІ, який здатний вже не просто переводити, а комунікувати зі своїм господарем і виконувати цілий ряд практичних завдань (див. Вище). Та й в цілому системи машинного перекладу і персональні помічники багато в чому розвиваються спільно - як якийсь загальний штучний інтелект. У роботі над цими системами використовуються загальні підходи і технології, в т.ч. лінгвістичного аналізу. І ці роботи, і сам ІІ прогресують дуже швидко. Не виключено, що недалекий той день (і може бути дуже близький), коли ІІ дійсно стане інтелектом, тобто усвідомлює себе особистістю (почне рефлексувати). Чесно кажучи, наслідки цього явища передбачити складно. У більшості фантастичних фільмів вони описані не райдужними. Однак поки, тобто у вигляді ще типовою машини, ІІ служить людині і вельми успішно.
Якщо брати інтелектуальні персональні помічники, то серед зарубіжних систем найбільш відомими є Siri від Apple, Google Home і Google Assistant від Google, Cortana від Microsoft і Amazon Echo, вона ж Alexa від Amazon. Є й непогані російські продукти, наприклад «Дуся», «Співрозмовник HD» і «Асистента російською». У 2017 р Яндекс анонсував свою систему «Аліса», яка, за його словами, просунуті своїх аналогів. Аліса здатна практично мислити і розмовляти, тобто відповідає на питання господаря не запрограмованими виразами, а сама підбирає слова і будує з них смислові фрази.
4. Пошукові роботи
Серед інших програм-ботів, які, зокрема, мають відношення до інтернет-маркетингу, варто зазначити пошукові роботи. По-іншому (збірно для всіх) пошуковий робот називається павук (від англ. Spider) або краулер (англ. Crawler - повзун). Це спеціалізовані пошукові алгоритми, що зчитують веб-сторінки сайтів, тобто відповідальні за індексування цих сторінок пошуковими системами. Подальшу обробку (аналіз контенту та інших характеристик сторінок і в цілому сайтів) здійснюють вже інші програми пошукових систем. Їх багато. Але і пошукових роботів теж існує цілий список - свій у Яндекса і свій у Google.
Пошукові роботи за замовчуванням заточені на те, щоб індексувати абсолютно все веб-документи інтернету, які роботи знайдуть і які потрапляють під спеціалізацію окремого робота. Але власник сайту сам може задати для пошукових роботів інструкцію, які сторінки і розділи можна індексувати на його сайті, а які - ні. Справа в тому, що певні сторінки необхідно приховувати від пошукових систем, так як вони не несуть корисної інформації для користувачів (не є Контентні сторінки), а також можуть бути шкідливими для SEO, наприклад, бути технічними дублями, які автоматично генеруються системою управління сайтом ( CMS) в сесіях користувача: при пошуку по сайту, при оформленні покупок в кошику інтернет-магазину і т.д.
Інструкція про виключення сторінок з індексації прописується в спеціальному службовому файлі сайту, який має стандартні ім'я і формат - robots. txt. Вміст цього файлу - перше, що аналізують пошукові роботи на сайті і вже потім - відповідно до прочитаної там інструкцією - переглядають і індексують власне сайт - його дозволений контент.
Крім цього, за допомогою спеціальних метатегов виключення (robots) від індексації пошуковими роботами можна приховати не сторінки (або розділи) сайту цілком, а окремі ділянки сторінок. Тобто сторінка в цілому може бути відкрита для пошукових роботів у файлі robots.txt, але окремі її ділянки - блоки тексту, посилання, скрипти та ін. - можуть бути приховані за допомогою цих метатегов, для яких використовується атрибут noindex. Для посилань також може використовуватися спеціальний атрибут nofollow, що означає, що робот не повинен переходити за цим посиланням, тобто бачити, куди вона веде (хоча саме посилання робот бачить, тобто індексує, якщо вона додатково не закрита атрибутом noindex).
Грамотне складання файлу robots. txt і використання метатегов виключення на сайті дуже критично для успішної пошукової оптимізації сайту (SEO). Ця робота вимагає спеціальних знань і кваліфікації. Практика показує, що, наприклад, на дуже багатьох сайтах файл robots. txt присутній, але складений абсолютно неграмотно, що може завдавати істотної шкоди пошуковому просуванню і в цілому інтернет-просування веб-ресурсу. Це особливо критично для бізнес-сайтів, оскільки для більшості з них пошук є основним каналом залучення трафіку, тобто клієнтів.
5. Конкретика
Крім загальних цікавих знань про те, що таке бот, і які вони бувають, що корисного ми ще почерпнули для просування свого бізнесу в Мережі - для належної організації своїх веб-ресурсів?
Ну, по-перше, ми ще раз нагадали собі про те, що свої веб-сайти необхідно надійно захищати від можливих атак шкідливих ботів, тобто вірусів. А для цього необхідний вибір надійного хостингу (з хорошими захистом, техподдержкой та ін.), Належна настройка на ньому своєї електронної пошти (установка спам-фільтрів і т.д.) і, звичайно, власна профілактика свого веб-ресурсу для захисту від можливих вірусних атак, а також поширення спамних коментарів, наприклад, в стрічках свого форуму або блогу. В останньому можливість активної роботи на вашому ресурсі, наприклад коментування, повинна бути захищена реєстраційною формою або як мінімум капчёй, тобто бути доступною тільки для людей, а не ботам (хоча серед людей також чимало «ботів» - замовних коментаторів і спамерів, але це вже інша історія).
Нарешті, слід потурбуватися захистом свого контенту від ботів-парсеров, що крадуть контент. Одним з підходів для цього є завдання імен для файлів xml-карт сайту відмінних від стандартного імені - sitemap.xml, а також розміщення подібних фалів не в кореневій, а в інших папках сайту. Крім цього (і перш за все), все новостворювані сторінки сайту слід обов'язково вказувати для пошукових систем як оригінальні, щоб запобігти інверсію унікальності в разі крадіжки контенту, тобто визнання пошуковими системами краденого контенту оригіналом, а оригінал - вторинним дублем (фейком). Закріплення унікальності робиться за допомогою прямого додавання сторінок сайту в так звану аддурілку пошукача (сервіс додавання сайтів і веб-документів), а також за допомогою вказівки даних сторінок для індексації на власному ресурсі. Останнє проводиться в файлі robots.txt, про що говорилося вище. У цьому ж файлі пошуковим роботам дається інструкція про те, які сторінки або цілі розділи сайту не підлягають індексації (наприклад, дублі, технічні сторінки та ін. - див. Вище).
Тобто в останньому випадку ми ведемо мову вже про пошукову оптимізацію свого сайту (SEO) - про те, як найбільш вигідно представити його «увазі» пошукових систем (роботів).
Безумовно, при тому, що дано деяке загальне розуміння суттєвих питань про ботах, в т.ч. для SEO, за кадром залишилося багато технічних моментів, наприклад таких, як створення і настройка xml-карт сайту, способи додавання сторінок в аддурілку пошукових систем, установка капчі, настройка Email-сервісу на сайті і т.д. Всі ці та багато інших питань стосовно захисту і просування вашого веб-ресурсу можна вирішити вже в рамках прямої взаємодії з нашими фахівцями, оскільки кожен бізнес і кожен сайт вимагає індивідуального підходу.
Нижче перерахований ряд найбільш істотних (але не єдиних) робіт, які ми проведемо для вас, щоб ваш веб-ресурс був максимально захищений і оптимізований для пошукових систем - основного каналу залучення трафіку, тобто ваших клієнтів.
- Підбір надійного хостингу і розміщення на ньому сайту.
- Встановлення електронної пошти (захист від спаму і т.д.).
- Налаштування ефективної Email-розсилки - читається і не відправляється в спам-кошик у адресатів.
- Профілактика веб-ресурсу від зараження вірусами та впливу інших шкідливих ботів (коментаторів, парсеров та ін.).
- Налаштування технічних файлів для індексації сайту пошуковими роботами: robots.txt і xml-карт сайту.
- Оптимізація контенту сторінок для індексації пошуковими роботами за допомогою метатегов robots з атрибутами noindex, nofollow.
- Аналіз сайту на дублювання контенту - внутрішнє і зовнішнє.
- Налаштування додавання сторінок в аддурілку Яндекса і Гугла.
- Комплексний SEO-аудит сайту.
- Проведення SEO-сайту.
- Консультації та інша допомога з будь-яких питань інтернет-просування вашого бізнесу.
Звертайтеся. Ми будемо раді вам допомогти!
Ваш SeoTemple
Перейти в Глосарій
--------------------------
Дата: 02.10.2017
Автор: Лаборич