Търсещи роботи. Какво представляват роботите на търсачките Yandex и Google с прости думи? Каква работа вършат роботите-паяци?

Дефиниции и терминология
Имена на роботи
Малко история
Какво правят роботите на търсачките?
Поведение на роботите в сайта
Управление на роботи
Изводи

Какво представляват роботите на търсачките? Каква функция изпълняваха?разбираш ли Какви са характеристиките на роботите за търсене? Тук смеЩе се опитаме да отговорим на тези и някои други въпроси, свързани ссвързани с работата на роботите.

Дефиниции и терминология

IN английскиИма няколко варианта за имената на роботите за търсене: роботи, уеб ботове, роботи, паяци; В руския език всъщност се е утвърдил един термин - роботи или накратко ботове.

На уебсайта www. robotstxt. org дефинира роботите, както следва:

„Уеб роботът е програма, която пресича хипертекстовата структура на WWW чрез рекурсивно запитване и извличане на документи.“

Ключовата дума в това определение е рекурсивно,тези. Това означава, че след като получи документа, роботът ще поиска документи, използвайки връзки от него и т.н.

именароботи

Повечето роботи за търсене имат собствено уникално име (с изключение на тези роботи, които по някаква причина се маскират като потребителски браузъри).

Името на робота може да се види в полето User-agent на регистрационните файлове на сървъра, отчетите от системите за статистика на сървъра, както и на страниците за помощ на търсачката.

Така роботът Yandex се нарича общо Yandex, роботът Rambler е StackRambler, Yahoo! - Пъркане и т.н. Даже потребителски програми, които събират съдържание за по-късен преглед, могат да бъдат конкретно представени с помощта на информация в полето User-agent.

В допълнение към името на робота, полето User-agent може да съдържа повече информация: версия на робота, цел и адрес на страница с допълнителна информация.

малкоистория

Още през първата половина на 90-те години на миналия век, по време на развитието на интернет, имаше проблем с уеб роботите, поради факта, че някои от първите роботи можеха значително да натоварят уеб сървъра, дори до точката на неговия отказ, поради на факта, че те правеха голям брой заявки към сайта за твърде кратко време. Системни администратории администраторите на уеб сървъри не са имали способността да контролират поведението на робота в своите сайтове, а са можели само напълно да блокират достъпа на робота не само до сайта, но и до сървъра.

През 1994 г. протоколът robots.txt е разработен, за да зададе изключения за роботи и да позволи на потребителите да контролират роботите за търсене в своите сайтове. Можете да прочетете за тези функции в Глава 6, „Да направим вашия сайт достъпен за търсачките“.

Впоследствие, с разрастването на мрежата, броят на роботите за търсене се увеличи и тяхната функционалност непрекъснато се разширяваше. Някои роботи за търсене не са оцелели до днес, оставайки само в архивите на сървърни лог файлове от края на 90-те години. Кой сега си спомня робота T-Rex, събиращ информация за системата Lycos? Изчезнал като динозавъра, на който е кръстен. Или къде мога да намеря Scooter - робота на системата Altavista? Никъде! Но през 2002 г. той все още активно индексира документи.

Дори в името на основния робот на Yandex можете да намерите ехо от отминали дни: фрагмент от пълното му име „съвместим; Win16;” беше добавен за съвместимост с някои по-стари уеб сървъри.

Каквонаправироботитърсачкисистеми

Какви функции могат да изпълняват роботите?

Има няколко различни робота, работещи в търсачката, и всеки има своя собствена цел. Нека изброим някои от задачите, изпълнявани от роботи:

обработка на заявки и извличане на документи;
проверка на връзки;
наблюдение на актуализациите; проверка на наличността на сайта или сървъра;
анализ на съдържанието на страницата за последващо поставяне на контекстна реклама;
събиране на съдържание в алтернативни формати (графики, данни във формати RSSnAtom).

Като пример, ето списък с роботи на Yandex. Yandex използва няколко вида роботи с различни функции. Те могат да бъдат идентифицирани от линията User-agent.

Yandex/1.01.001 (съвместим; Win 16; I) - основният робот за индексиране.
Yandex/1.01.001 (съвместим; Win 16; P) - индексатор на изображения.
Yandex/1.01.001 (съвместим; Win 16; H) - робот, който открива огледални сайтове.
Yandex/1.03.003 (съвместим; Win 16; D) - робот, който осъществява достъп до страница, когато я добавя през формата „Добавяне на URL“.
Yandex/1.03.000 (съвместим; Win 16; M) - робот, който има достъп до връзката „Намерени думи” при отваряне на страница.
YandexBlog/0.99.101 (съвместим; DOS3.30; Mozilla/5.0; В;робот) - робот, който индексира xml файлове за търсене в блогове.
YandexSomething/1.0 - робот, който индексира новинарските потоци на файловете на партньори и роботи на Yandex.News. txt за робота за търсене в блогове.

Освен това Yandex използва няколко сканиращи робота - „просто-кимам”,които само проверяват наличието на документи, но не ги индексират.

Yandex/2.01.000 (съвместим; Win 16; Dyatel; C) - „просто кимване“ на Yandex.Catalog. Ако даден сайт не е достъпен няколко дни, той се премахва от публикуване. Веднага след като сайтът започне да отговаря, той автоматично се появява в директорията.
Yandex/2.01.000 (съвместим; Win 16; Dyatel; Z) - „просто кимване“ за Yandex.Bookmarks. Връзките към недостъпни сайтове са маркирани в сиво.
Yandex/2.01.000 (съвместим; Win 16; Dyatel; D) - „отлагане“ на Yandex.Direct. Тя проверява коректността на връзките от рекламите преди модериране.

Все пак най-често срещаните роботи са тези, които заявяват, получават и архивират документи за последваща обработка с други механизми. търсачка. Тук би било подходящо да отделите робота от индексатора.

Роботът за търсене обхожда сайтове и получава документи в съответствие с вътрешния си списък с адреси. В някои случаи роботът може да извърши основен анализ на документи, за да завърши списъка с адреси. По-нататъшната обработка на документи и изграждането на индекса на търсачката се извършва от индексатора на търсачката. Роботът в тази схема е просто „куриер“ за събиране на данни.

Поведение на роботите в сайта

По какво се различава поведението на робот на уебсайт от това на обикновен потребител?

Управляемост.На първо място, един „интелигентен“ робот трябва да поиска файл robots от сървъра. txt с инструкции за индексиране.
Селективно изпомпване.При заявка на документ, роботът ясно посочва типовете искани данни, за разлика от обикновения браузър, който е готов да приеме всичко. Основните роботи на популярните търсачки ще изискват предимно хипертекст и редовно текстови документи, оставяйки файлове без надзор CSS стил, изображения, видеоклипове. Zip архиви и др. В момента информацията също е търсена PDF формати, Rich Text, MS Word, MS Excel и някои други.
Непредсказуемост.Невъзможно е да се проследи или предвиди пътя на робот до сайт, тъй като той не оставя информация в полето Referer - адреса на страницата, от която е дошъл; роботът просто изисква списък с документи, привидно в произволен ред, но всъщност в съответствие с неговия вътрешен списък или опашка за индексиране.
Скорост.Кратко време между заявките за различни документи. Тук говорим за секунди или части от секундата между заявките за два различни документа. Някои роботи дори имат специални инструкции, които са посочени във файла robots. txt, за да ограничите скоростта на заявките за документи, за да не претоварвате сайта.

Не знаем как може да изглежда една HTML страница в очите на робот, но можем да се опитаме да си я представим, като изключим показването на графики и стилове в браузъра.

Така можем да заключим, че роботите за търсене качват HTML структурата на страницата в индекса си, но без елементи на дизайна и без снимки.

Управление на роботи

Как един уеб администратор може да контролира поведението на роботите за търсене на неговия уебсайт?

Както бе споменато по-горе, през 1994 г., в резултат на открит дебат между уеб администраторите, беше разработен специален протокол за изключения за роботи. Към днешна дата този протокол не се е превърнал в стандарт, който длъженспазват всички роботи без изключение, оставайки само в статута на строги препоръки. Няма орган, където можете да се оплачете от робот, който не отговаря на правилата за изключване, можете само да откажете достъп до сайта, като използвате настройките на уеб сървъра или мрежовите интерфейси за IP адресите, от които „неинтелигентните“ робот изпрати своите заявки.

Въпреки това, роботите на големите търсачки следват правилата за изключване, освен това добавят свои разширения към тях.

Относно инструкциите в специалния файл robots.txt. а специалният мета таг robots беше обсъден подробно в глава 6 „Как да направите вашия сайт достъпен за търсачките“.

Чрез използването на допълнителни инструкции в robots.txt, които не са включени в стандарта, някои търсачки ви позволяват по-гъвкаво да контролирате поведението на техните роботи. По този начин, използвайки инструкцията Crawl-dela, уеб администраторът може да зададе интервала от време между последователни заявки за два документа за роботи Yahoo! и MSN и използвайки инструкциите No-; t посочете адреса на главния огледален сайт за Yandex. Въпреки това, работата с нестандартни инструкции в роботите. txi трябва да бъде много внимателен, тъй като роботът на друга търсачка може да игнорира не само инструкции, които не разбира, но и целия набор от правила, свързани с него.

Можете също да управлявате индиректно посещения от роботи за търсене, например робот за търсене Google системичесто ще извлича отново онези документи, които са силно цитирани от други сайтове.

Паяците на търсачките са интернет ботове, чиято задача е систематично да обхождат страници в световната мрежа, за да осигурят уеб индексиране. Традиционно сканирането на WWW пространството се извършва, за да се актуализира информацията за съдържанието, публикувано в мрежата, за да се предостави на потребителите актуална информация за съдържанието на конкретен ресурс. Видовете роботи за търсене и техните характеристики ще бъдат разгледани в тази статия.

Търсене на паяцимогат да се наричат и по различен начин: роботи, уеб паяци, пълзящи машини. Въпреки това, независимо от името, всички те са ангажирани с постоянно и непрекъснато изучаване на съдържанието на виртуалното пространство. Роботът поддържа списък с URL адреси, от които документите се изтеглят редовно. Ако паякът намери нова връзка по време на процеса на индексиране, той се добавя към този списък.

По този начин действията на робота могат да бъдат сравнени с обикновен човек, използващ браузър. Единствената разлика е, че ние отваряме само интересни за нас връзки, а роботът отваря всичко, за което има информация. В допълнение, роботът, след като се запозна със съдържанието на индексираната страница, предава данни за нея в специална форма на сървърите на търсачката за съхранение, докато не бъде направена заявка от потребителя.

В същото време всеки робот изпълнява своя специфична задача: някои индексират текстово съдържание, други индексират графики, други записват съдържание в архив и т.н.

Основната задача на търсачките- създаване на алгоритъм, който ще ви позволи да получите информация бързо и най-пълно, тъй като дори гигантите в търсенето нямат възможност да осигурят цялостен процес на сканиране. Следователно всяка компания предлага на роботите уникални математически формули, спазвайки които ботът избира страница, която да посети в следващата стъпка. Това, заедно с алгоритмите за класиране, е един от най-важните критерии, по които потребителите избират търсачка: където информацията за сайтовете е по-пълна, свежа и полезна.

Роботът на търсачката може да не знае за вашия сайт, ако няма връзки към него (което може би е рядкост - днес, след регистриране на име на домейн, препратки към него се намират в интернет). Ако няма връзки, трябва да кажете на търсачката за това. За това, като правило, „ лични сметки» уебмастъри.

Каква е основната задача на роботите за търсене?

Колкото и да ни се иска, основната задача на робота за търсене изобщо не е да разкаже на света за съществуването на нашия сайт. Трудно е да се формулира, но все пак, въз основа на факта, че търсачките работят само благодарение на своите клиенти, тоест потребители, роботът трябва да осигури бързо търсене и индексиране на данни, публикувани в мрежата. Само това позволява на търсачката да задоволи нуждата на аудиторията от подходящи и релевантни резултати от търсенето.

Разбира се, роботите не могат да индексират 100% от уебсайтовете. Според проучване броят на страниците, заредени от лидерите в търсенето, не надвишава 70% от общия брой URL адреси, публикувани в Интернет. Въпреки това доколко вашият ресурс е проучен от бота също ще повлияе на броя на потребителите, които следват заявки от търсенето. Ето защо оптимизаторите се измъчват в опитите си да „нахранят“ робота, за да го запознаят с промените възможно най-бързо.

В Runet само през 2016 г. Yandex се изкачи на второ място по отношение на месечното покритие на аудиторията след Google. Следователно не е изненадващо, че има най-голям брой паяци, изследващи космоса сред домашните PS. Безсмислено е да ги изброявам напълно:може да се види в раздела „Помощ за уеб администратора“> Управление на робот за търсене> Как да проверите дали роботът принадлежи на Yandex.

Всички роботи на търсачки имат строго регулиран потребителски агент. Сред тези, които създателят на сайт определено ще трябва да срещне:

Mozilla/5.0 (съвместим; YandexBot/3.0; +http://yandex.com/bots) - основен индексиращ бот;
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 като Mac OS X) AppleWebKit/600.1.4 (KHTML, като Gecko) Версия/8.0 Mobile/12B411 Safari/600.1.4 (съвместим; YandexBot/3.0; +http://yandex .com/bots) - индексиращ паяк;
Mozilla/5.0 (съвместим; YandexImages/3.0; +http://yandex.com/bots) - бот Yandex.Images;
Mozilla/5.0 (съвместим; YandexMedia/3.0; +http://yandex.com/bots) - индексира мултимедийни материали;
Mozilla/5.0 (съвместим; YandexFavicons/1.0; +http://yandex.com/bots) - индексира иконите на сайтовете.

За да привлечете Yandex паяци към вашия сайт, се препоръчва да следвате няколко прости стъпки:

конфигурирайте правилно robots.txt;
създаване на RSS емисия;
поставете карта на сайта с пълен списък на индексираните страници;
създайте страница (или страници), която ще съдържа връзки към всички документи на ресурса;
конфигуриране на HTTP състояния;
осигуряване на социална активност след публикуване на материали (и не само коментари, но и споделяне на документа);
интензивно поставяне на нови уникални текстове.

Последният аргумент се подкрепя от способността на ботовете да запомнят скоростта на обновяване на съдържанието и да идват на сайта с установената честота на добавяне на нови материали.

Ако искате да забраните на роботите на Yandex достъп до страници (например технически раздели), трябва да конфигурирате файла robots.txt. PS паяците са в състояние да разберат стандартните изключения за ботове, така че обикновено няма трудности при създаването на файл.

Потребителски агент: Yandex

Забрана: /

ще забрани на PS да индексира целия сайт.

В допълнение, роботите на Yandex са в състояние да вземат предвид препоръките, посочени в мета тагове. Пример: ще забрани демонстрацията при издаване на връзка към копие на документ от архива. И добавяне на етикет към кода на страницата ще покаже, че този документняма нужда от индексиране.

Пълен списъквалидните стойности могат да бъдат намерени в раздела „Използване на HTML елементи“ на помощта за уеб администратори.

Роботи за търсене на Google

Основният механизъм на Google за индексиране на WWW съдържание се нарича Googlebot. Неговият двигател е конфигуриран да преглежда милиарди страници всеки ден, за да намери нови или променени документи. В същото време ботът сам определя кои страници да сканира и кои да игнорира.

За този робот е важно сайтът да има файл Sitemap, предоставен от собственика на ресурса. Мрежата от компютри, която осигурява функционирането му, е толкова мощна, че ботът може да прави заявки към страниците на вашия сайт веднъж на няколко секунди. И ботът е конфигуриран да анализира по-голям брой страници наведнъж, за да не натоварва сървъра. Ако вашият сайт се забавя от чести заявки от паяк, можете да промените скоростта на обхождане, като коригирате Search Console. За съжаление, не е възможно да се увеличи скоростта на сканиране.

Google ботът може да бъде помолен да обходи отново сайта. За да направите това, трябва да отворите Search Console и да потърсите функцията Add to Index, която е достъпна за потребителите на инструмента Browse as Googlebot. След сканиране ще се появи бутонът Добавяне към индекса. Google обаче не гарантира, че всички промени ще бъдат индексирани, тъй като процесът включва работата на „сложни алгоритми“.

Полезни инструменти

Доста е трудно да се изброят всички инструменти, които помагат на оптимизаторите да работят с ботове, тъй като има много от тях. В допълнение към гореспоменатия „Преглед като Googlebot“, заслужава да се отбележат файловите анализатори robots.txt на Google и Yandex, файловите анализатори на Sitemap и услугата „Проверка на отговора на сървъра“ от руския PS. Благодарение на техните възможности ще си представите как изглежда вашият сайт в очите на паяк, което ще ви помогне да избегнете грешки и ще осигурите най-бързото обхождане на вашия сайт.

здравейте всички Днес ще ви разкажа как работи роботът за търсене. Ще научите и какво представляват роботите за търсене. Тяхното предназначение и характеристики.

Като начало ще започна с определение.

Роботът за търсене е вид програма, която посещава хипертекстови връзки, извлича всички последващи документи от определен ресурс и ги въвежда в индекса на търсачката.

Всеки робот за търсене има свое собствено уникално име - Crawler, Spider и др.

Какво прави роботът за търсене?

Както вече казах, всеки робот има свое уникално име и съответно всеки изпълнява своя специфична работа или да кажем цел.

Нека да разгледаме какви функции изпълняват:

Заявка за достъп до сайта;
Заявка за обработка и извличане на страници;
Заявка за анализ на съдържанието;
Търсене на връзки;
Мониторинг на актуализации;
Заявка за RSS данни (събиране на съдържание);
Индексиране.

Например Yandex има няколко робота, които отделно индексират, анализират и събират информация за следните данни:

видео;
Снимки;
Огледало на сайта;
Xml файлове;
файл robots.txt;
коментари;

Като цяло, по същество роботът за търсене просто посещава интернет ресурси, събирайки необходимите данни, които след това прехвърля към индексатора на търсачката.

Индексаторът на търсачката е този, който обработва получените данни и правилно изгражда индекса на търсачката. Дори бих казал, че роботът е „куриер“, който просто събира информация.

Как се държат роботите и как да ги управляваме

Разликите между поведението на робот и обикновен потребител на сайта са следните:

1. На първо място, това се отнася до контролируемостта. На първо място, роботът изисква от вашия хостинг () файла robots.txt, който показва какво може да се индексира и какво не.

2. Това, което прави робота специален, е неговата скорост. Между всяка заявка, която принадлежи на двама различни документи, тяхната скорост е секунди или дори части от секундата.

Дори за това има специално правило, което може да бъде посочено във файла robots.txt, така че роботът на търсачката да може да зададе лимит на заявките, като по този начин намали натоварването на блога.

3. Също така бих искал да отбележа тяхната непредсказуемост. Когато робот посети вашия блог, действията му не могат да бъдат проследени, невъзможно е да се знае откъде идва и т.н. Той работи на свой собствен принцип и в реда, в който е изградена опашката за индексиране.

4. И още един момент е, когато роботът преди всичко обръща внимание на хипертекста и текстовите документи, а не на всякакви файлове, свързани с CSS дизайн и т.н.

Искате ли да видите как изглежда страницата на вашия блог за търсачката? Просто деактивирайте Flash, изображения и стилове на дизайн във вашия браузър.

И ще видите, че всеки робот за търсене въвежда в индекса само HTML кода на страницата, без никакви снимки или друго съдържание.

И сега е време да поговорим за това как да ги управляваме. Както казах по-рано, можете да контролирате роботите чрез специален файл robots.txt, в който можете да напишете инструкциите и изключенията, от които се нуждаем, за да контролираме поведението им във вашия блог.

Той е неразделна част от търсачката и е предназначен да сортира интернет страници, за да въведе информация за тях в базата данни на търсачката. Според принципа на работа, паякът прилича на обикновен браузър. Той анализира съдържанието на страницата, съхранява го в специална форма на сървъра на търсачката, към която принадлежи, и изпраща връзки към следващите страници. Собствениците на търсачки често ограничават дълбочината на проникване на паяк в сайта и максималния размер на сканирания текст, така че прекалено големите сайтове може да не бъдат напълно индексирани от търсачката. В допълнение към обикновените паяци има така наречените " кълвачи" - роботи, които "докосват" индексиран сайт, за да определят, че е достъпен.

Редът на обхождане на страницата, честотата на посещенията, защитата срещу зацикляне, както и критериите за подчертаване на значима информация се определят от алгоритмите за извличане на информация.

В повечето случаи преходът от една страница към друга се осъществява чрез следване на връзките, съдържащи се на първата и следващите страници.

Освен това много търсачки предоставят на потребителя възможност самостоятелно да добави сайт към опашката за индексиране. Обикновено това значително ускорява индексирането на сайта, а в случаите, когато никакви външни връзки не водят към сайта, това се оказва на практика единственият начин да се посочи съществуването му. Друг начин бързо индексиранесайтът добавя към сайта системи за уеб анализ, принадлежащи към услуги за търсене. Например като Google Analytics, Yandex.Metrica и [email protected] съответно от Google, Yandex и Mail.Ru.

Можете да ограничите индексирането на сайта с помощта на файла robots.txt. Пълна защита от индексиране може да бъде осигурена чрез други механизми, като например задаване на парола на страницата или изискване да попълните регистрационен формуляр, преди да получите достъп до съдържанието.

Енциклопедичен YouTube

1 / 3
Прегледи:

Преглеждайки регистрационните файлове на сървъра, понякога можете да наблюдавате прекомерен интерес към сайтове от роботи за търсене. Ако ботовете са полезни (например ботове за индексиране на PS), всичко, което остава, е да се наблюдава, дори ако натоварването на сървъра се увеличи. Но има и много дребни роботи, чийто достъп до сайта не е задължителен. За себе си и за вас, скъпи читателю, събрах информацията и я превърнах в удобен таблет.

Кои са роботите за търсене

Бот за търсене, или както още ги наричат, робот, пълзящ, паяк - нищо повече от програма, която търси и сканира съдържанието на уебсайтове, като следва връзките на страниците.Не само търсачките имат роботи за търсене. Например, услугата Ahrefs използва паяци, за да подобри данните за обратните връзки, Facebook извършва уеб скрапиране на кода на страницата, за да покаже повторно публикувани връзки със заглавия, снимки и описания. Уеб скрапингът е събиране на информация от различни ресурси.

Използване на имена на паяци в robots.txt

Както можете да видите, всеки сериозен проект, свързан с търсене на съдържание, има свои собствени паяци. И понякога спешната задача е да се ограничи достъпът на определени паяци до сайта или отделните му секции. Това може да стане чрез файла robots.txt в основната директория на сайта. Написах повече за настройването на роботи по-рано, препоръчвам ви да го прочетете.

Моля, обърнете внимание, че файлът robots.txt и неговите директиви може да бъдат игнорирани от роботите за търсене. Директивите са само препоръки за ботове.

Можете да зададете директива за робот за търсене, като използвате секцията - свързване с потребителския агент на този робот. Секциите за различните паяци са разделени с един празен ред.

Потребителски агент: Googlebot Allow: /

Потребителски агент: Googlebot

Разрешаване: /

По-горе е даден пример за извикване на основната търсачка на Google.

Първоначално планирах да добавя записи към таблицата за това как ботовете за търсене се идентифицират в регистрационните файлове на сървъра. Но тъй като тези данни са малко важни за SEO и за всеки токен на агент може да има няколко вида записи, беше решено да се задоволим само с името на ботовете и тяхната цел.

Роботи за търсене G o o g l e

Потребителски агент	Функции
Googlebot	Основният робот-индексатор на страници за компютър и оптимизиран за смартфони
Mediapartners-Google	AdSense рекламен мрежов робот
APIs-Google	APIs-Потребителски агент на Google
AdsBot-Google	Проверява качеството на рекламата на уеб страници, предназначени за компютри
AdsBot-Google-Mobile	Проверява качеството на рекламата на уеб страници, предназначени за мобилни устройства
Изображение на Googlebot (Googlebot)	Индексира изображения на страниците на уебсайта
Googlebot-Новини (Googlebot)	Търси страници за добавяне към Google Новини
Googlebot-Video (Googlebot)	Индексира видео материали
AdsBot-Google-Mobile-Apps	Проверява качеството на рекламата в приложенията за Android устройства, работи на същите принципи като обикновения AdsBot

Роботите за търсене I index

Потребителски агент	Функции
Яндекс	Когато посочите този токен на агент в robots.txt, заявката отива до всички ботове на Yandex
YandexBot	Основен робот за индексиране
YandexDirect	Изтегля информация за съдържанието на партньорските сайтове на YAN
YandexImages	Индексира изображения на уебсайтове
YandexMetrika	Робот Yandex.Metrica
YandexMobileBot	Изтегля документи за анализ за наличие на оформление за мобилни устройства
YandexMedia	Робот индексира мултимедийни данни
YandexNews	Индексатор на Yandex.News
YandexPagechecker	Микро валидатор на маркиране
YandexMarket	робот Yandex.Market;
YandexCalenda	Yandex.Calendar робот
YandexDirectDyn	Генерира динамични банери (директно)
YaDirectFetcher	Изтегля страници от рекламиза да проверите тяхната наличност и да изясните темите (YAN)
YandexAccessibilityBot	Изтегля страници, за да провери наличността им за потребителите
YandexScreenshotBot	Прави моментна снимка (екранна снимка) на страницата
YandexVideoParser	Yandex.Video услуга паяк
YandexSearchShop	Изтегля YML файлове на продуктови каталози
YandexOntoDBAPI	Бот за отговор на обект, който изтегля динамични данни

Други популярни ботове за търсене

Потребителски агент	Функции
Байдупаяк	Паяк на китайската търсачка Baidu
Cliqzbot	Робот на анонимната търсачка Cliqz
AhrefsBot	Ahrefs търсач бот (анализ на връзки)
Genieo	Обслужващ робот Genieo
Bingbot	Робот за търсене на Bing
Пълнене	Обхождане на търсачката на Yahoo
DuckDuckBot	Уеб робот PS DuckDuckGo
facebot	Facebook робот за уеб обхождане
WebAlta (WebAlta Crawler/2.0)	Търсещ робот PS WebAlta
BomboraBot	Сканира страници, участващи в проекта Bombora
CCBot	Базиран на Nutch робот, който използва проекта Apache Hadoop
MSNBot	PS MSN бот
Mail.Ru	Робот за търсене на Mail.Ru
ia_archiver	Бракуване на данни за услугата Alexa
Теома	Попитайте сервизен бот

Има много ботове за търсене, избрах само най-популярните и известни. Ако има ботове, които сте срещали поради агресивно и упорито сканиране на сайтове, моля, посочете това в коментарите, аз също ще ги добавя в таблицата.