Краткое содержание
В данной статье рассказывается о том, что такое бот. Приводятся примеры вредоносных и полезных ботов. Особый акцент сделан на поисковые боты (роботы), поскольку эти знания (пусть и очень общие) важны для успешного интернет-продвижения. В разделе «Конкретика» перечислены услуги, которые компания Digital Agency "ST" предоставляет бизнесменам по поисковой оптимизации и защите их веб-ресурсов – темах, связанных с темой ботов.
Оглавление
1. Общее определение
2. Вредные боты
3. Полезные боты
3.1. Переводчики
3.2. Чат-боты и виртуальные помощники
3.3. Персональные помощники
4. Поисковые роботы
5. Конкретика
1. Общее определение
Бот (сокр. от робот) – это компьютерная программа. Чёткого определения этого слова нет, т.к. нет однозначных критериев описания бота. В IT-лексике это слово появилось как сленговое по отношению к программам и программным системам, работа которых напоминает самостоятельную (интеллектуальную, проактивную). Использование слова «бот» вместо «робот», видимо, связано с акцентом именно на компьютерных программах, большинство из которых действует онлайн (или связаны с интернет-каналом). То есть название «бот» отличает эти программы от привычной робототехники. Хотя, возможно, «бот» – это просто сленговое сокращение, поскольку слово «робот» также употребляется по отношению к программам-ботам, в частности к поисковым алгоритмам (поисковым роботам).
Ниже в общих чертах охарактеризованы несколько видов программ, которые в той или иной степени понимаются как боты. Среди них есть вредные, есть и полезные.
2. Вредные боты
Большинство вредных ботов – это вирусы: Malware, Spyware, трояны, руткиты, «черви» и проч. То есть это программы, способные на «самостоятельную» вредоносную деятельность (после запуска человеком, естественно). В частности, они могут незаметно проникать и присутствовать на компьютере в скрытом виде, удалять следы своего пребывания, быть невидимыми для антивирусных программ и при этом работать, заражать компьютеры и локальные сети (LAN) через различные каналы (интернет, электронную почту, локальные носители и т.д.), вести шпионскую слежку за владельцем компьютера или иного устройства (мобильного телефона, планшета, смарт-телевизора) и т.д. – вирусов-ботов, их свойств и функций может быть очень много. Вирусов вообще миллионы, и все они по сути своей боты. Ниже приведено лишь несколько примеров с очень общим описанием.
Есть вирусы, направленные на поражение (обычно массовое) частных компьютеров с целью вымогательства или просто хулиганства, а есть вирусы, нацеленные на корпоративные IT-системы, в т.ч. государственные. Их роль – шпионаж, либо выведение из строя критических инфраструктур, управляемых через компьютерные системы (а все инфраструктуры сегодня управляются компьютерами). Особыми мишенями всегда являются властная, оборонная, финансовая, энергетическая, транспортная и прочие глобальные государственные структуры. Горячими мишенями также являются крупные компании, а также, например, СМИ. Все эти инфраструктуры подвержены постоянной атаке всевозможных вирусов и, соответственно, защищаются наиболее тщательно.
К вредным ботам (вирусам) также относятся ботнеты. Ботнет (англ.: botnet – сетевой бот) – вирус, поражающий несколько компьютеров в интернете, после чего с этих компьютеров он может проводить координированные DoS/DDoS-атаки на серверы сайтов-мишеней (мишени выбираются, естественно, людьми – хозяевами ботнетов).
Есть Email-боты. Это вирусы, использующие канал электронной почты для своего распространения. Обычно они являются доставщиками других вирусов, но обе эти функции – доставка и влияние – могут быть совмещены в одном боте.
Есть боты-парсеры. Сами по себе это не вирусы, т.к. их целью является только массовый сбор информации в интернете, например Email-адресов, телефонов и проч. Парсеры добывают эту информацию из разных источников: онлайн-каталогов, форм регистрации, просто с сайтов и т.д. – смотря на что настроен конкретный парсер, что он сканирует и собирает (парсит).
Но информация, добытая вредными парсерами (ведут сбор информации для вредных целей) может затем использоваться спам-ботами, рассылающими спамную информацию или откровенные вирусы через различные каналы: электронную почту, мобильную связь (SMS) и проч. Об этом уже говорилось выше.
Есть вредные боты – парсеры текстового контента. Собранный ими контент затем используется для генерации спам-ботами дорвеев. Последние являются одним из примеров жёсткого поискового спама. Часто функции парсинга и генерации контента (дорвеев) объединены в одном боте.
Распространенным противодействием парсерам и спам-ботам является капча (captcha) – обычно картинка, отображающая набор символов, которые человек способен распознать (и ввести с клавиатуры в нужное поле), а бот – нет.
Среди прочих вредных ботов можно отметить скупщиков билетов на массовые мероприятия (концерты, спортивные матчи), а также авиабилетов, например, на «горячие» популярные туры. Эти билеты затем перепродаются мошенниками по сильно завышенной цене.
3. Полезные боты
3.1. Переводчики
К полезным ботам, а точнее искусственным интеллектуальным системам, можно отнести переводчики (системы машинного перевода). Наиболее продвинутым на сегодняшний день является переводчик GoogleTranslate. Но есть и другие системы машинного перевода, в т.ч. российские. К последним относятся ABBYY Compreno и smartCAT (оба – проекты компании ABBYY), PROMPT и Яндекс.Переводчик. Эти системы также являются весьма мощными и продолжают успешно развиваться.
Переводчики используют обширную мультиязычную базу данных (знаний) и мощные алгоритмы семантического анализа, в т.ч. основанные на технологии нейронных сетей (искусственный интеллект – ИИ). Кроме этого, подобные системы способны к самообучению, т.е. самостоятельному расширению своей базы знаний и пониманию смысла ранее неизвестных им выражений. Для этого им просто нужен субстрат – как можно больше материала для перевода. Таким образом, по уровню своего развития системы машинного перевода уже действительно приближаются к ИИ (официально они уже и относятся к ИИ, но это, конечно, пока ещё далеко не аналог человеческого интеллекта. Хотя по механическим способностям обработки и хранения информации компьютерный интеллект уже далеко опередил человеческий).
3.2. Чат-боты и виртуальные помощники
Это несколько более продвинутые системы, чем переводчики. Они способны не только понимать смысл языка, но и подбирать для отдельных вопросов и выражений адекватные ответы и комментарии, т.е. ведут себя в известной степени проактивно. Тем не менее, база знаний многих чат-ботов и помощников все же значительно уступает таковой у переводчиков, например того же Google Translate. Поэтому, хотя чат-боты и предполагаются как более интеллектуальные роботы, но реально многие из них гораздо менее интеллектуальны, чем переводчики.
3.3. Персональные помощники
Но есть и очень продвинутые системы-помощники, такие как специально разработанные персональные помощники, которые могут использоваться в быту. Изначально они также сделаны как вопросно-ответная система, но имеют очень обширную базу знаний и расширенные функции. Например, они могут не просто отвечать на вопросы, но и действовать «инициативно»: петь песни, шутить, справляться о здоровье хозяина, желать ему доброго утра или доброй ночи, анализировать поведение хозяина и давать подсказки (куда он спрятал свои очки), давать сводки о погоде и ситуации на дорогах, организовывать жизнь хозяина (планировать и контролировать его домашнюю и рабочую деятельность), а также являться узлом домашней автоматизации (управление «умным» домом). Персональный помощник – точнее помощница (как правило это «она», т.е. говорит женским голосом) – может делать много всего в зависимости от самой системы и её индивидуальных настроек хозяином.
Помощник(ца) может выпускаться как в виде самостоятельного беспроводного устройства, так и в виде программы, устанавливаемой на компьютер или мобильный гаджет, например телефон. Все эти системы работают по принципу распознавания устной речи (письменную тоже распознают). Принимают, отсылают, обрабатывают и хранят информацию в облаке – на распределённых интернет-серверах. Таким образом, данные системы (программы) полноценно функционируют, только будучи соединёнными с интернетом через проводную или беспроводную связь. То есть сам девайс или программа, по сути, является локальным устройством ввода-вывода информации – своего рода расширенным интерфейсом.
Персональные помощники также относят к ИИ, который способен уже не просто переводить, а коммуницировать со своим хозяином и выполнять целый ряд практических задач (см. выше). Да и в целом системы машинного перевода и персональные помощники во многом развиваются совместно – как некий общий искусственный интеллект. В работе над этими системами используются общие подходы и технологии, в т.ч. лингвистического анализа. И эти работы, и сам ИИ прогрессируют очень быстро. Не исключено, что недалёк тот день (и может быть очень недалёк), когда ИИ действительно станет интеллектом, т.е. осознает себя личностью (начнёт рефлексировать). Честно говоря, последствия этого явления предсказать сложно. В большинстве фантастических фильмов они описаны не радужными. Однако пока, т.е. в виде ещё типичной машины, ИИ служит человеку и весьма успешно.
Если брать интеллектуальные персональные помощники, то среди зарубежных систем наиболее известными являются Siri от Apple, Google Home и Google Assistant от Google, Cortana от Microsoft и Amazon Echo, она же Alexa от Amazon. Есть и неплохие российские продукты, например «Дуся», «Собеседник HD» и «Ассистента на русском». В 2017 г. Яндекс анонсировал свою систему «Алиса», которая, по его словам, продвинутее своих аналогов. Алиса способна практически мыслить и разговаривать, т.е. отвечает на вопросы хозяина не запрограммированными выражениями, а сама подбирает слова и строит из них смысловые фразы.
4. Поисковые роботы
Среди прочих программ-ботов, которые, в частности, имеют отношение к интернет-маркетингу, стоит отметить поисковые роботы. По-другому (собирательно для всех) поисковый робот называется паук (от англ. spider) или краулер (англ. crawler – ползун). Это специализированные поисковые алгоритмы, считывающие веб-страницы сайтов, т.е. ответственные за индексирование этих страниц поисковыми системами. Дальнейшую обработку (анализ контента и прочих характеристик страниц и в целом сайтов) осуществляют уже другие программы поисковых систем. Их много. Но и поисковых роботов тоже существует целый список – свой у Яндекса и свой у Google.
Поисковые роботы по умолчанию заточены на то, чтобы индексировать абсолютно все веб-документы интернета, которые роботы найдут и которые попадают под специализацию отдельного робота. Но владелец сайта сам может задать для поисковых роботов инструкцию, какие страницы и разделы можно индексировать на его сайте, а какие – нет. Дело в том, что определенные страницы необходимо скрывать от поисковых систем, так как они не несут полезной информации для пользователей (не являются контентными страницами), а также могут быть вредными для SEO, например, являться техническими дублями, которые автоматически генерируются системой управления сайтом (CMS) в сессиях пользователя: при поиске по сайту, при оформлении покупок в корзине интернет-магазина и т.д.
Инструкция об исключении страниц из индексации прописывается в специальном служебном файле сайта, который имеет стандартные имя и формат – robots.txt. Содержимое этого файла – первое, что анализируют поисковые роботы на сайте и уже затем – в соответствии с прочитанной там инструкцией – просматривают и индексируют собственно сайт – его разрешённый контент.
Кроме этого, с помощью специальных метатегов исключения (robots) от индексации поисковыми роботами можно скрыть не страницы (или разделы) сайта целиком, а отдельные участки страниц. То есть страница в целом может быть открыта для поисковых роботов в файле robots.txt, но отдельные её участки – блоки текста, ссылки, скрипты и проч. – могут быть скрыты с помощью этих метатегов, для которых используется атрибут noindex. Для ссылок также может использоваться специальный атрибут nofollow, означающий, что робот не должен переходить по данной ссылке, т.е. видеть, куда она ведёт (хотя саму ссылку робот видит, т.е. индексирует, если она дополнительно не закрыта атрибутом noindex).
Грамотное составление файла robots.txt и использование метатегов исключения на сайте очень критично для успешной поисковой оптимизации сайта (SEO). Эта работа требует специальных знаний и квалификации. Практика показывает, что, например, на очень многих сайтах файл robots.txt присутствует, но составлен абсолютно неграмотно, что может наносить существенный ущерб поисковому продвижению и в целом интернет-продвижению веб-ресурса. Это особенно критично для бизнес-сайтов, поскольку для большинства из них поиск является основным каналом привлечения трафика, т.е. клиентов.
5. Конкретика
Помимо общих интересных знаний о том, что такое бот, и какие они бывают, что полезного мы ещё почерпнули для продвижения своего бизнеса в Сети – для надлежащей организации своих веб-ресурсов?
Ну, во-первых, мы ещё раз напомнили себе о том, что свои веб-сайты необходимо надежно защищать от возможных атак вредных ботов, т.е. вирусов. А для этого необходим выбор надёжного хостинга (с хорошими защитой, техподдержкой и проч.), надлежащая настройка на нём своей электронной почты (установка спам-фильтров и т.д.) и, конечно, собственная профилактика своего веб-ресурса для защиты от возможных вирусных атак, а также распространения спамных комментариев, например, в лентах своего форума или блога. В последнем возможность активной работы на вашем ресурсе, например комментирование, должна быть защищена регистрационной формой или как минимум капчёй, т.е. быть доступной только для людей, а не ботам (хотя среди людей также немало «ботов» – заказных комментаторов и спамеров, но это уже другая история).
Наконец, следует озаботиться защитой своего контента от ботов-парсеров, ворующих контент. Одним из подходов для этого является задание имён для файлов xml-карт сайта отличных от стандартного имени – sitemap.xml, а также размещение подобных фалов не в корневой, а в других папках сайта. Кроме этого (и прежде всего), все вновь создаваемые страницы сайта следует обязательно указывать для поисковых систем как оригинальные, чтобы предотвратить инверсию уникальности в случае воровства контента, т.е. признания поисковиками ворованного контента оригиналом, а оригинал – вторичным дублем (фейком). Закрепление уникальности делается посредством прямого добавления страниц сайта в так называемую аддурилку поисковика (сервис добавления сайтов и веб-документов), а также посредством указания данных страниц для индексации на собственном ресурсе. Последнее производится в файле robots.txt, о чём говорилось выше. В этом же файле поисковым роботам дается инструкция о том, какие страницы или целые разделы сайта не подлежат индексации (например, дубли, технические страницы и проч. – см. выше).
То есть в последнем случае мы ведём речь уже о поисковой оптимизации своего сайта (SEO) – о том, как наиболее выгодно представить его «вниманию» поисковых систем (роботов).
Безусловно, при том, что дано некоторое общее понимания существенных вопросов о ботах, в т.ч. для SEO, за кадром осталось много технических моментов, например таких, как создание и настройка xml-карт сайта, способы добавления страниц в аддурилку поисковиков, установка капчи, настройка Email-сервиса на сайте и т.д. Все эти и многие другие вопросы по защите и продвижению вашего веб-ресурса можно решить уже в рамках прямого взаимодействия с нашими специалистами, поскольку каждый бизнес и каждый сайт требует индивидуального подхода.
Ниже перечислен ряд наиболее существенных (но не единственных) работ, которые мы проведём для вас, чтобы ваш веб-ресурс был максимально защищен и оптимизирован для поисковых систем – основного канала привлечения трафика, т.е. ваших клиентов.
- Подбор надёжного хостинга и размещение на нем сайта.
- Настройка электронной почты (защита от спама и т.д.).
- Настройка эффективной Email-рассылки – читаемой и не отправляемой в спам-корзину у адресатов.
- Профилактика веб-ресурса от заражения вирусами и влияния других вредных ботов (комментаторов, парсеров и проч.).
- Настройка технических файлов для индексации сайта поисковыми роботами: robots.txt и xml-карт сайта.
- Оптимизация контента страниц для индексации поисковыми роботами с помощью метатегов robots с атрибутами noindex, nofollow.
- Анализ сайта на дублирование контента – внутреннее и внешнее.
- Настройка добавления страниц в аддурилку Яндекса и Гугла.
- Комплексный SEO-аудит сайта.
- Проведение SEO-сайта.
- Консультации и прочая помощь по любым вопросам интернет-продвижения вашего бизнеса.
Обращайтесь по всем интересующим вопросам. Мы будем рады вам помочь!
Ваш Digital Agency "ST"