Roboti de căutare - cum funcționează și ce fac. Roboți de căutare Google, Yandex, alte motoare de căutare și servicii Motor de căutare Spider

Colecțiile de link-uri tematice sunt liste compilate de un grup de profesioniști sau chiar de colecționari individuali. Foarte des, un subiect foarte specializat poate fi tratat mai bine de un specialist decât de un grup de angajați dintr-un catalog mare. Există atât de multe colecții tematice pe Internet încât nu are sens să dai adrese specifice.

Selectarea numelui de domeniu

Catalogul este un sistem de căutare convenabil, dar pentru a ajunge la server Microsoft sau IBM, nu are sens să accesezi directorul. Nu este greu de ghicit numele site-ului corespunzător: www.microsoft.com, www.ibm.com sau www.microsoft.ru, www.ibm.ru sunt site-urile reprezentanțelor ruse ale acestor companii.

La fel, dacă un utilizator are nevoie de un site web dedicat vremii din lume, este logic să-l caute pe serverul www.weather.com. În cele mai multe cazuri, căutarea unui site cu un cuvânt cheie în titlu este mai eficientă decât căutarea unui document care folosește acel cuvânt în text. Dacă o companie comercială occidentală (sau un proiect) are un nume cu o silabă și își implementează serverul pe Internet, atunci numele său se încadrează cel mai probabil în formatul www.name.com și pentru Runet (partea rusă a rețelei) - www.name.ru, unde numele - numele companiei sau al proiectului. Selectarea adresei poate concura cu succes cu alte metode de căutare deoarece când sistem similar căutare, puteți stabili o conexiune la un server care nu este înregistrat la niciun motor de căutare. Cu toate acestea, dacă nu puteți găsi numele pe care îl căutați, va trebui să apelați la un motor de căutare.

Motoarele de căutare

Spune-mi ce cauți pe internet și îți voi spune cine ești

Dacă un computer ar fi un sistem extrem de inteligent care ar putea explica cu ușurință ceea ce cauți, atunci ar produce două sau trei documente - exact cele de care ai nevoie. Dar, din păcate, nu este cazul, iar ca răspuns la o solicitare, utilizatorul primește de obicei o listă lungă de documente, dintre care multe nu au nicio legătură cu ceea ce a întrebat. Astfel de documente se numesc irelevante (din engleză relevant - potrivit, relevant). Astfel, un document relevant este un document care conține informațiile căutate. Evident, procentul de documente relevante primite depinde de capacitatea de a emite corect o interogare. Proporția documentelor relevante din lista tuturor documentelor găsite de un motor de căutare se numește precizie de căutare. Documentele irelevante se numesc zgomot. Dacă toate documentele găsite sunt relevante (nu există zgomot), atunci precizia căutării este de 100%. Dacă toate documentele relevante sunt găsite, atunci caracterul complet al căutării este de 100%.

Astfel, calitatea unei căutări este determinată de doi parametri interdependenți: acuratețea și completitudinea căutării. Creșterea caracterului complet al căutării scade precizia și invers.

Cum funcționează un motor de căutare?

Motoarele de căutare poate fi comparat cu un birou de asistență, ai cărui agenți merg în jurul întreprinderilor, colectând informații într-o bază de date (Figura 4.21). Când contactați serviciul, informațiile sunt preluate din această bază de date. Datele din baza de date devin depășite, așa că agenții le actualizează periodic. Unele întreprinderi trimit informații despre ele însele, iar agenții nu trebuie să vină la ei. Cu alte cuvinte, birou de ajutor are doua functii: crearea si actualizarea constanta a datelor in baza de date si cautarea informatiilor in baza de date la cererea clientului.

Orez. 4.21.

De asemenea, motor de căutare constă din două părți: așa-numitul robot (sau păianjen), care ocolește serverele de Internet și formează o bază de date a motorului de căutare.

Baza robotului este formată în principal de el însuși (robotul însuși găsește link-uri către resurse noi) și, într-o măsură mult mai mică, de proprietarii de resurse care își înregistrează site-urile într-un motor de căutare. Pe lângă robotul (agent de rețea, păianjen, vierme) care formează baza de date, există un program care determină ratingul link-urilor găsite.

Principiul de funcționare al unui motor de căutare este că acesta interogează catalogul său intern (baza de date) pentru cuvintele cheie pe care utilizatorul le specifică în câmpul de interogare și produce o listă de link-uri clasate după relevanță.

Trebuie remarcat faptul că, atunci când procesează o anumită cerere de utilizator, motorul de căutare operează tocmai pe resurse interne (și nu pornește într-o călătorie prin Web, așa cum cred adesea utilizatorii neexperimentați), iar resursele interne sunt, firesc, limitate. Deși baza de date a motorului de căutare este actualizată constant, motor de căutare nu pot indexa toate documentele Web: numărul lor este prea mare. Prin urmare, există întotdeauna posibilitatea ca resursa pe care o căutați să fie pur și simplu necunoscută unui anumit motor de căutare.

Această idee este ilustrată clar de Fig. 4.22. Elipsa 1 limitează setul de documente Web care există la un moment dat, elipsa 2 limitează toate documentele care sunt indexate de un anumit motor de căutare, iar elipsa 3 limitează documentele căutate. Astfel, folosind acest motor de căutare puteți găsi doar acea parte din documentele necesare care sunt indexate de acesta.

Orez. 4.22.

Problema completității insuficiente a căutării constă nu numai în resursele interne limitate ale motorului de căutare, ci și în faptul că viteza robotului este limitată, iar numărul de noi documente Web este în continuă creștere. Creșterea resurselor interne ale motorului de căutare nu poate rezolva complet problema, deoarece viteza cu care robotul accesează cu crawlere resursele este finită.

În același timp, presupuneți că motor de căutare conține o copie a resurselor originale de Internet, ar fi incorect. Informațiile complete (documentele sursă) nu sunt întotdeauna stocate mai des, doar o parte din ele este stocată - așa-numita listă indexată, sau index, care este mult mai compactă decât textul documentelor și vă permite să răspundeți rapid la interogările de căutare; .

Pentru a construi un index, datele sursă sunt transformate astfel încât volumul bazei de date să fie minim, iar căutarea se efectuează foarte rapid și oferă maximum informatii utile. Explicând ce este o listă indexată, putem face o paralelă cu omologul său de hârtie - așa-numita concordanță, i.e. un dicționar care listează cuvintele folosite de un anumit scriitor în ordine alfabetică, precum și legături către acestea și frecvența utilizării lor în lucrările sale.

Evident, o concordanță (dicționar) este mult mai compactă decât textele sursă ale lucrărilor și găsirea cuvântului potrivit în ea este mult mai ușor decât răsfoirea unei cărți în speranța de a da cuvantul potrivit.

Construcția indexului

Schema de construcție a indicilor este prezentată în Fig. 4.23. Agenții de rețea, sau roboții păianjen, „târăsc” Web-ul, analizează conținutul paginilor Web și colectează informații despre ceea ce a fost găsit și pe ce pagină.

Orez. 4.23.

Când găsiți o altă pagină HTML, majoritatea motoarelor de căutare înregistrează cuvintele, imaginile, linkurile și alte elemente (în diferite motoare de căutare în moduri diferite) conținute în ea. Mai mult, atunci când urmăresc cuvintele pe o pagină, nu este înregistrată doar prezența acestora, ci și locația lor, adică. unde se află aceste cuvinte: în titlu, subtitrări, metaetichete 1 Metaetichetele sunt etichete de serviciu care permit dezvoltatorilor să plaseze pe pagini web informatii oficiale, inclusiv pentru a orienta motorul de căutare.( metaetichete ) sau în alte locuri. În acest caz, ele sunt de obicei fixate cuvinte semnificative, iar conjuncțiile și interjecțiile precum „a”, „dar” și „sau” sunt ignorate. Metaetichetele permit proprietarilor paginii să definească cuvinte cheieși subiectele după care este indexată pagina. Acest lucru poate fi relevant atunci când cuvintele cheie au mai multe semnificații. Metaetichetele pot ghida motorul de căutare atunci când alege dintre mai multe sensuri ale unui cuvânt până la singurul corect. Cu toate acestea, metaetichetele funcționează în mod fiabil doar dacă sunt completate de proprietarii onești de site. Proprietarii fără scrupule de site-uri web pun cele mai populare cuvinte de pe web în metaetichetele lor, care nu au nimic de-a face cu subiectul site-ului. Ca urmare, vizitatorii ajung pe site-uri nesolicitate, crescându-și astfel clasamentul. Acesta este motivul pentru care multe motoare de căutare moderne fie ignoră metaetichetele, fie le consideră suplimentare față de textul paginii. Fiecare robot își menține propria listă de resurse pedepsite pentru publicitate falsă.

Evident, dacă cauți site-uri folosind cuvântul cheie „câine”, atunci motorul de căutare trebuie să găsească nu doar toate paginile în care este menționat cuvântul „câine”, ci și pe acelea în care acest cuvânt este relevant pentru subiectul site-ului. Pentru a determina în ce măsură un anumit cuvânt are legătură cu profilul unei anumite pagini Web, este necesar să se evalueze cât de des apare pe pagină, dacă există sau nu link-uri către alte pagini pentru acest cuvânt. Pe scurt, trebuie să clasați cuvintele găsite pe pagină în ordinea importanței. Cuvintelor li se atribuie ponderi în funcție de câte ori și unde apar (în titlul paginii, la începutul sau la sfârșitul paginii, într-un link, într-o metaetichetă etc.). Fiecare motor de căutare are propriul algoritm de atribuire a coeficienților de ponderare - acesta este unul dintre motivele pentru care motoarele de căutare returnează liste diferite de resurse pentru același cuvânt cheie. Deoarece paginile sunt actualizate în mod constant, procesul de indexare trebuie să fie în desfășurare. Spiderbots urmăresc link-uri și creează un fișier care conține un index, care poate fi destul de mare. Pentru a-i reduce dimensiunea, ei recurg la minimizarea cantității de informații și la comprimarea fișierului. Cu mai mulți roboți, un motor de căutare poate procesa sute de pagini pe secundă. Astăzi, motoarele de căutare puternice stochează sute de milioane de pagini și primesc zeci de milioane de interogări în fiecare zi.

La construirea unui index se rezolvă și problema reducerii numărului de duplicate - o sarcină nebanală, având în vedere că pentru o comparație corectă trebuie mai întâi să determinați codificarea documentului. Chiar mai mult sarcină provocatoare este separarea documentelor foarte asemănătoare (se numesc „aproape duplicate”), de exemplu cele în care diferă doar titlul și textul este duplicat. Există o mulțime de documente similare pe Internet - de exemplu, cineva a copiat un rezumat și l-a publicat pe site cu semnătura sa. Motoarele de căutare moderne ne permit să rezolvăm astfel de probleme.

Privind prin jurnalele de server, uneori puteți observa un interes excesiv față de site-uri de la roboții de căutare. Dacă boții sunt folositori (de exemplu, boții de indexare PS), tot ce rămâne de observat, chiar dacă sarcina pe server crește. Dar există și o mulțime de roboți minori al căror acces la site nu este necesar. Pentru mine și pentru tine, dragă cititor, am adunat informațiile și le-am transformat într-o tabletă convenabilă.

Cine sunt roboții de căutare

Căutare bot, sau cum se mai numesc, robot, crawler, păianjen - nimic mai mult decât un program care caută și scanează conținutul site-urilor web urmând link-uri de pe pagini.Roboti de cautare Nu numai motoarele de căutare o au. De exemplu, serviciul Ahrefs folosește spider pentru a îmbunătăți datele privind backlink-urile, Facebook efectuează web scraping codul paginii pentru a afișa link-uri repostate cu titluri, imagini și descrieri. Web scraping este colectarea de informații din diverse resurse.

Utilizarea numelor de păianjen în robots.txt

După cum puteți vedea, orice proiect serios legat de căutarea de conținut are propriile sale păianjeni. Și uneori sarcina urgentă este de a restricționa accesul anumitor păianjeni la site sau la secțiunile sale individuale. Acest lucru se poate face prin fișierul robots.txt din directorul rădăcină al site-ului. Am scris mai devreme despre configurarea roboților, vă recomand să îl citiți.

Vă rugăm să rețineți că fișierul robots.txt și directivele acestuia pot fi ignorate de roboții de căutare. Directivele sunt doar recomandări pentru roboți.

Puteți seta o directivă pentru un robot de căutare folosind secțiunea - contactând agentul utilizator al acestui robot. Secțiunile pentru diferiți păianjeni sunt separate printr-o linie goală.

Agent utilizator: Googlebot Permite: /

Agent utilizator: Googlebot

Permite: /

Mai sus este un exemplu de apel către motorul principal de căutare Google.

Inițial, am plănuit să adaug intrări în tabel despre modul în care roboții de căutare se identifică în jurnalele serverului. Dar din moment ce aceste date sunt de puțină importanță pentru SEO și pentru fiecare token de agent pot exista mai multe tipuri de înregistrări, s-a decis să ne descurcăm doar cu numele boților și scopul lor.

Roboti de cautare G o o g l e

User-agent	Funcții
Googlebot	Principalul crawler-indexator de pagini pentru PC și optimizat pentru smartphone-uri
Mediapartners-Google	Robot de rețea de publicitate AdSense
API-uri Google	API-uri Google User Agent
AdsBot-Google	Verifică calitatea reclamei pe paginile web destinate computerelor
AdsBot-Google-Mobile	Verifică calitatea publicității pe paginile web concepute pentru dispozitive mobile
Googlebot-Imagine (Googlebot)	Indexează imaginile de pe paginile site-ului web
Googlebot-News (Googlebot)	Caută pagini de adăugat la Știri Google
Googlebot-Video (Googlebot)	Indexează materialele video
AdsBot-Google-Mobile-Apps	Verifică calitatea publicității în aplicațiile pentru dispozitive Android, funcționează pe aceleași principii ca AdsBot obișnuit

Căutați roboți pe care îl indexez

User-agent	Funcții
Yandex	Când specificați acest token de agent în robots.txt, cererea se îndreaptă către toți roboții Yandex
YandexBot	Robot de indexare de bază
YandexDirect	Descarcă informații despre conținutul site-urilor partenere YAN
YandexImagini	Indexează imaginile site-ului web
YandexMetrika	Robot Yandex.Metrica
YandexMobileBot	Descarcă documente pentru analiză pentru prezența aspectului pentru dispozitivele mobile
YandexMedia	Robot care indexează date multimedia
YandexNews	Yandex.News Indexer
YandexPagechecker	Micro validator de markup
YandexMarket	Robot Yandex.Market;
YandexCalenda	Yandex.robot Calendar
YandexDirectDyn	Generează bannere dinamice (Direct)
YaDirectFetcher	Descărcă pagini de la reclame pentru a verifica disponibilitatea acestora și a clarifica subiectele (YAN)
YandexAccessibilityBot	Descărcă pagini pentru a verifica disponibilitatea acestora pentru utilizatori
Yandex ScreenshotBot	Face un instantaneu (captură de ecran) a paginii
YandexVideoParser	Yandex.Serviciul video spider
YandexSearchShop	Descarcă fișiere YML ale cataloagelor de produse
YandexOntoDBAPI	Botul de răspuns la obiect care descarcă date dinamice

Alți roboți de căutare populari

User-agent	Funcții
Baiduspider	Păianjen al motorului de căutare chinez Baidu
Cliqzbot	Robot al motorului de căutare anonim Cliqz
AhrefsBot	Botul de căutare Ahrefs (analiza link-urilor)
Genieu	Robot de service Genieo
Bingbot	Crawler pentru motorul de căutare Bing
Slurp	crawler pentru motorul de căutare Yahoo
DuckDuckBot	Crawler web PS DuckDuckGo
facebot	Robot Facebook pentru crawling pe web
WebAlta (WebAlta Crawler/2.0)	Căutare crawler PS WebAlta
BomboraBot	Scanează paginile implicate în proiectul Bombora
CCBot	Crawler bazat pe Nutch care utilizează proiectul Apache Hadoop
MSNBot	Botul PS MSN
Mail.Ru	Mail.Ru motor de căutare crawler
ia_archiver	Scraping data pentru serviciul Alexa
Teoma	Întrebați serviciul bot

Există o mulțime de roboți de căutare, i-am selectat doar pe cei mai populari și celebri. Dacă există roboți pe care i-ați întâlnit din cauza scanării agresive și persistente a site-urilor, vă rugăm să indicați acest lucru în comentarii, îi voi adăuga și eu în tabel.

De regulă, motor de căutare este un site specializat în găsirea de informații care îndeplinesc criteriile de solicitare ale utilizatorului. Sarcina principală a unor astfel de site-uri este organizarea și structurarea informațiilor în rețea.

Majoritatea oamenilor, folosind serviciile unui motor de căutare, nu se întreabă niciodată cum funcționează exact mașina, căutând informațiile necesare din adâncurile internetului.

Pentru utilizatorul obișnuit al rețelei, conceptul însuși despre modul în care funcționează motoarele de căutare nu este critic, deoarece algoritmii care ghidează sistemul sunt capabili să satisfacă nevoile unei persoane care nu știe să compună o interogare de căutare optimizată. informatiile necesare. Dar pentru un dezvoltator web și specialiști implicați în optimizarea site-ului, este pur și simplu necesar să aibă cel puțin o înțelegere de bază a structurii și principiilor de funcționare a motoarelor de căutare.

Fiecare motor de căutare funcționează după algoritmi preciși care sunt păstrați în cea mai strictă încredere și sunt cunoscuți doar unui cerc restrâns de angajați. Dar atunci când proiectați un site web sau îl optimizați, trebuie să țineți cont reguli generale funcționarea motoarelor de căutare, care sunt discutate în acest articol.

În ciuda faptului că fiecare PS are propria sa structură, după un studiu atent ele pot fi combinate în componente de bază, generalizante:

Modul de indexare

Modul de indexare - Acest element include trei componente suplimentare(programe robot):

1. Păianjen (robot păianjen) - descarcă pagini, filtrează fluxul de text, extragând toate hyperlinkurile interne din acesta. În plus, Spider stochează data de descărcare și antetul de răspuns al serverului, precum și adresa URL a paginii.

2. Tractor pe şenile (robot spider crawling) - analizează toate linkurile de pe pagină și, pe baza acestei analize, determină ce pagină să viziteze și care nu trebuie vizitată. În același mod, crawler-ul găsește noi resurse care trebuie procesate de server.

3. Indexator (Robot indexer) – analizează paginile de internet descărcate de păianjen. În acest caz, pagina în sine este împărțită în blocuri și analizată de către indexator folosind algoritmi morfologici și lexicali. Indexatorul analizează diferite părți ale paginii web: anteturi, texte și alte informații de serviciu.

Toate documentele procesate de acest modul sunt stocate în baza de date a motorului de căutare, numită index de sistem. Pe lângă documentele în sine, baza de date conține datele de serviciu necesare - rezultatul prelucrării cu atenție a acestor documente, ghidat după care motorul de căutare îndeplinește cererile utilizatorilor.

Server de căutare

Următoarea componentă foarte importantă a sistemului este serverul de căutare, a cărui sarcină este să proceseze cererea utilizatorului și să genereze o pagină cu rezultatele căutării.

Atunci când procesează cererea unui utilizator, serverul de căutare calculează evaluarea relevanței documentelor selectate pentru solicitarea utilizatorului. Poziția pe care o va ocupa o pagină web la emiterea rezultatelor căutării depinde de această evaluare. Fiecare document care îndeplinește criteriile de căutare este afișat pe pagina de rezultate sub formă de fragment.

Fragmentul este scurtă descriere pagina, inclusiv titlu, link, cuvinte cheie și rezumat informații text. Folosind fragmentul, utilizatorul poate evalua relevanța paginilor selectate de motorul de căutare pentru interogarea sa.

Cel mai important criteriu pe care îl folosește serverul de căutare atunci când clasifică rezultatele interogării este indicatorul TCI deja familiar ().

Toate componentele PS descrise sunt costisitoare și consumă foarte mult resurse. Performanța unui motor de căutare depinde direct de eficacitatea interacțiunii acestor componente.

Ți-a plăcut articolul? Abonați-vă la știrile blogului sau distribuiți pe rețelele de socializare și vă voi răspunde

6 comentarii la postarea „Motoarele de căutare sunt roboții și păianjenii lor”

Caut aceasta informatie de mult timp, multumesc.

Răspuns

Ma bucur ca blogul tau este in continua evolutie. Postări ca acesta nu fac decât să crească popularitatea.

Răspuns

am inteles ceva. Întrebare, PR depinde cumva de TIC?

Robot de căutare numit program special orice motor de căutare care este conceput pentru a intra într-o bază de date (index) site-uri și paginile acestora găsite pe Internet. Se mai folosesc nume: crawler, spider, bot, automaticindexer, furnică, webcrawler, bot, webscutter, webroboți, webspider.

Principiul de funcționare

Un robot de căutare este un program de tip browser. Scanează în mod constant rețeaua: vizitează site-uri indexate (deja cunoscute de acesta), urmărește link-uri de la acestea și găsește noi resurse. Când este descoperită o nouă resursă, robotul de procedură o adaugă la indexul motorului de căutare. Robotul de căutare indexează și actualizările de pe site-uri, a căror frecvență este fixă. De exemplu, un site care este actualizat o dată pe săptămână va fi vizitat de un păianjen cu această frecvență, iar conținutul de pe site-urile de știri poate fi indexat în câteva minute de la publicare. Dacă niciun link din alte resurse nu duce la site, atunci pentru a atrage roboți de căutare, resursa trebuie adăugată printr-un formular special (Google Webmaster Center, Yandex Webmaster Panel etc.).

Tipuri de roboți de căutare

păianjeni Yandex:

Yandex/1.01.001 I - botul principal implicat în indexare,
Yandex/1.01.001 (P) - indexează imagini,
Yandex/1.01.001 (H) - găsește site-uri oglindă,
Yandex/1.03.003 (D) - determină dacă pagina adăugată din panoul webmaster îndeplinește parametrii de indexare,
YaDirectBot/1.0 (I) - indexează resursele din rețeaua de publicitate Yandex,
Yandex/1.02.000 (F) - indexează favicon-urile site-ului.

Google Spiders:

Googlebot este robotul principal
Știri Googlebot - scanează și indexează știrile,
Google Mobile - indexează site-urile pentru dispozitive mobile,
Imagini Googlebot - caută și indexează imagini,
Googlebot Video - indexează videoclipuri,
Google AdsBot - verifică calitatea paginii de destinație,
Google Mobile AdSense și Google AdSense - indexează site-urile rețelei de publicitate Google.

Alte motoare de căutare folosesc și mai multe tipuri de roboți, similari funcțional cu cei enumerați.