Lucru corect cu pagini duplicate. Cum să scapi de paginile duplicat. Eliminarea ancorelor pentru comentarii #comment

Proprietarul poate nici măcar să nu bănuiască că unele pagini de pe site-ul său au copii - cel mai adesea acesta este cazul. Paginile se deschid, totul este în regulă cu conținutul lor, dar dacă doar acordați atenție URL-ului, veți observa că adresele sunt diferite pentru același conținut. Ce înseamnă? Pentru utilizatorii în direct, absolut nimic, deoarece sunt interesați de informațiile de pe pagini, dar motoarele de căutare fără suflet percep acest fenomen cu totul diferit - pentru ei acestea sunt pagini complet diferite cu același conținut.

Sunt paginile duplicate dăunătoare?

Deci, dacă un utilizator obișnuit nici măcar nu poate observa prezența duplicatelor pe site-ul dvs., atunci motoarele de căutare vor determina imediat acest lucru. La ce reacție ar trebui să vă așteptați de la ei? Deoarece roboții de căutare văd în esență copiile ca pagini diferite, conținutul acestora încetează să fie unic. Și acest lucru are deja un impact negativ asupra clasamentelor.

De asemenea, prezența duplicatelor estompează sucul link-ului pe care optimizatorul a încercat să îl concentreze pe pagina de destinație. Din cauza duplicaturilor, poate ajunge pe o pagină complet diferită de cea în care doreau să o mute. Adică, efectul legăturilor interne și al legăturilor externe poate fi mult redus.

În marea majoritate a cazurilor, CMS-ul este de vină pentru apariția dublurilor - din cauza setări corecteși lipsa atenției adecvate din partea optimizatorului, sunt generate copii clare. Aceasta este problema cu multe CMS-uri, de exemplu Joomla. Este dificil să găsești o rețetă universală pentru a rezolva problema, dar poți încerca să folosești unul dintre pluginuri pentru ștergerea copiilor.

Apariția unor duplicate neclare, în care conținutul nu este complet identic, se datorează de obicei vina webmasterului. Astfel de pagini se găsesc adesea pe site-urile magazinelor online, unde paginile cu carduri de produse diferă doar în câteva propoziții cu o descriere, iar restul conținutului, constând din blocuri end-to-end și alte elemente, este același.

Mulți experți susțin că un număr mic de duplicate nu va dăuna site-ului, dar dacă există mai mult de 40-50%, atunci resursa se poate confrunta cu dificultăți serioase în timpul promovării. În orice caz, chiar dacă nu există multe copii, merită să aveți grijă de ele, astfel încât veți scăpa cu siguranță de problemele cu duplicatele.

Găsirea paginilor de copiere

Există mai multe modalități de a găsi pagini duplicat, dar mai întâi ar trebui să contactați mai multe motoare de căutare și să vedeți cum văd site-ul dvs. - trebuie doar să comparați numărul de pagini din indexul fiecăreia. Acest lucru este destul de simplu de făcut fără a recurge la niciunul fonduri suplimentare: în Yandex sau Google, introduceți doar host:yoursite.ru în bara de căutare și uitați-vă la numărul de rezultate.

Dacă, după o verificare atât de simplă, cantitatea diferă foarte mult, de 10-20 de ori, atunci aceasta, cu un anumit grad de probabilitate, poate indica conținutul duplicatelor într-una dintre ele. Copierea paginilor poate să nu fie de vină pentru această diferență, dar totuși dă naștere la căutări mai aprofundate și mai amănunțite. Dacă site-ul este mic, atunci puteți număra manual numărul de pagini reale și apoi puteți compara cu indicatorii de la motoarele de căutare.

Puteți căuta pagini duplicat după adresa URL în rezultatele motorului de căutare. Dacă trebuie să aibă CNC, atunci paginile cu URL-uri care conțin caractere de neînțeles, precum „index.php?s=0f6b2903d”, vor ieși imediat în evidență din lista generală.

O altă modalitate de a determina prezența duplicatelor folosind motoarele de căutare este căutarea prin fragmente de text. Procedura pentru o astfel de verificare este simplă: trebuie să introduceți un fragment de text de 10-15 cuvinte din fiecare pagină în bara de căutare și apoi să analizați rezultatul. Dacă există două sau mai multe pagini în rezultatele căutării, atunci există copii, dar dacă există un singur rezultat, atunci această pagină nu are duplicate și nu trebuie să vă faceți griji.

Este logic că, dacă site-ul este format dintr-un număr mare de pagini, atunci o astfel de verificare se poate transforma într-o sarcină imposibilă pentru optimizator. Pentru a minimiza costurile de timp, puteți utiliza programe speciale. Unul dintre aceste instrumente, care este probabil familiar profesioniștilor cu experiență, este programul Xenu`s Link Sleuth.

Pentru a verifica site-ul, trebuie să deschideți un nou proiect selectând „Verificare URL” din meniul „Fișier”, introduceți adresa și faceți clic pe „OK”. După aceasta, programul va începe să proceseze toate adresele URL ale site-ului. După finalizarea verificării, trebuie să exportați datele primite în oricare editor convenabilși începeți să căutați duplicate.

Pe lângă metodele de mai sus, panourile Yandex.Webmaster și Google Webmaster Tools au instrumente pentru verificarea indexării paginilor care pot fi folosite pentru a căuta duplicate.

Metode de rezolvare a problemei

După ce au fost găsite toate duplicatele, acestea vor trebui eliminate. Acest lucru se poate face și în mai multe moduri, dar fiecare caz specific necesită propria sa metodă și este posibil să trebuiască să le folosiți pe toate.

Paginile de copiere pot fi șterse manual, dar această metodă este cel mai probabil potrivită numai pentru acele duplicate care au fost create manual din cauza neglijenței webmasterului.

Redirecționarea 301 este excelentă pentru îmbinarea paginilor de copiere ale căror adrese URL diferă prin prezența și absența www.

Soluția la problema cu duplicatele folosind eticheta canonică poate fi folosită pentru copii neclare. De exemplu, pentru categoriile de produse dintr-un magazin online care au duplicate care diferă în sortare în funcție de diverși parametri. Canonical este, de asemenea, potrivit pentru versiunile tipărite ale paginilor și alte cazuri similare. Se aplică destul de simplu - atributul rel=”canonic” este specificat pentru toate copiile, dar nu pentru pagina principală, care este cea mai relevantă. Codul ar trebui să arate cam așa: link rel="canonical" href="http://yoursite.ru/stranica-kopiya"/ și să fie în eticheta head.

Configurarea fișierului robots.txt poate ajuta în lupta împotriva duplicaturilor. Directiva Disallow va bloca accesul la duplicate pentru roboții de căutare. Puteți citi mai multe despre sintaxa acestui fișier în numărul 64 al buletinului nostru informativ.

Concluzii

Dacă utilizatorii percep duplicatele ca o singură pagină cu adrese diferite, atunci pentru păianjeni, acestea sunt pagini diferite cu conținut duplicat. Copierea paginilor este una dintre cele mai comune capcane pe care începătorii nu le pot ocoli. Prezența lor în cantități mari pe un site promovat este inacceptabilă, deoarece creează piedici serioase pentru a ajunge în TOP.

Salutare tuturor! În ultimul articol, am atins un subiect important - căutarea paginilor de site duplicat. După cum au arătat comentariile și mai multe scrisori care mi-au venit, acest subiect este relevant. Conținutul duplicat de pe blogurile noastre, defecțiunile tehnice ale CMS și diversele șabloane nu permit resursele noastre libertate deplinăîn motoarele de căutare. Prin urmare, trebuie să luptăm serios cu ei. În acest articol vom învăța cum să eliminați paginile duplicate de pe orice site web. Exemplele din acest ghid vor arăta cum să scăpăm de ele într-un mod simplu. Ni se cere pur și simplu să folosim cunoștințele dobândite și să monitorizăm modificările ulterioare ale indexurilor motoarelor de căutare.

Povestea mea despre lupta cu duplicatele

Înainte să ne uităm la modalități de a elimina duplicatele, vă voi spune povestea mea de a trata duplicatele.

Acum doi ani (25 mai 2012) am primit un blog de instruire pentru cursurile de specialitate SE0. Mi-a fost dat pentru a exersa cunoștințele dobândite în timpul studiilor. Drept urmare, în două luni de practică am reușit să produc câteva pagini, o duzină de postări, o grămadă de etichete și o încărcătură de duplicate. În următoarele șase luni, când blogul educațional a devenit site-ul meu personal, alte duplicate au fost adăugate acestei compoziții în indexul Google. Acest lucru s-a întâmplat din vina replytocom din cauza numărului tot mai mare de comentarii. Dar în baza de date Yandex, numărul de pagini indexate a crescut treptat.

La începutul anului 2013, am observat o scădere specifică a pozițiilor blogului meu în Google. Apoi am început să mă întreb de ce se întâmplă asta. Până la urmă, am ajuns în punctul în care am descoperit un număr mare de duplicate în acest motor de căutare. Desigur, am început să caut opțiuni pentru a le elimina. Dar căutările mele de informații nu au condus la nimic - nu am găsit pe Internet niciun manual sensibil pentru eliminarea paginilor duplicate. Dar am putut vedea o notă pe un blog despre cum puteți elimina duplicatele din index folosind fișierul robots.txt.

În primul rând, am scris o grămadă de directive de interzicere pentru Yandex și Google pentru a interzice scanarea anumitor pagini duplicat. Apoi, la mijlocul verii 2013, am folosit o metodă pentru a elimina duplicatele din indexul Google (veți afla despre asta în acest articol). Până atunci, indexul acestui motor de căutare acumulase peste 6.000 de duplicate! Și asta cu doar cinci pagini și peste 120 de postări pe blogul tău...

După ce am implementat metoda mea de eliminare a duplicatelor, numărul acestora a început să scadă rapid. La începutul acestui an, am folosit o altă opțiune pentru a elimina duplicatele pentru a accelera procesul (veți afla și despre asta). Și acum pe blogul meu numărul de pagini din indexul Google se apropie de ideal - astăzi există aproximativ 600 de pagini în baza de date. Este de 10 ori mai puțin decât era înainte!

Cum să eliminați paginile duplicate - metode de bază

Există mai multe moduri diferite de a trata duplicatele. Unele opțiuni vă permit să preveniți apariția de noi duplicate, în timp ce altele le pot scăpa de cele vechi. Desigur, cel mai mult cea mai buna varianta- este manual. Dar pentru a-l implementa, trebuie să înțelegeți bine CMS-ul site-ului dvs. și să știți cum funcționează algoritmii motoarelor de căutare. Dar și alte metode sunt bune și nu necesită cunoștințe de specialitate. Vom vorbi despre ele acum.

Această metodă este considerată cea mai eficientă, dar și cea mai solicitantă în ceea ce privește cunoștințele de programare. Faptul este că regulile necesare sunt scrise aici în fișierul .htaccess (situat în rădăcina directorului site-ului). Și dacă sunt introduse cu o eroare, atunci este posibil nu numai că nu reușiți să rezolvați sarcina de a elimina duplicatele, ci și să eliminați complet întregul site de pe Internet.

Cum se rezolvă problema eliminării duplicatelor folosind o redirecționare 301? Se bazează pe conceptul de redirecționare a roboților de căutare de la o pagină (din duplicat) la alta (original). Adică, robotul ajunge la o copie a unei pagini și, folosind o redirecționare, apare pe documentul original de site de care avem nevoie. Apoi începe să-l studieze, sărind peste o imagine în afara câmpului său vizual.

De-a lungul timpului, după înregistrarea tuturor variantelor acestei redirecționări, paginile identice sunt lipite împreună, iar duplicatele cad în cele din urmă din index. Prin urmare, această opțiune curăță perfect paginile duplicate indexate anterior. Dacă decideți să utilizați această metodă, asigurați-vă că studiați sintaxa pentru crearea redirecționărilor înainte de a adăuga reguli în fișierul .htaccess. De exemplu, vă recomand să studiați un ghid privind a 301-a redirecționare de la Sasha Alaev.

Crearea unei pagini canonice

Această metodă este folosită pentru a indica motorului de căutare documentul din întregul set de duplicate care ar trebui să fie în indexul principal. Adică, o astfel de pagină este considerată originală și participă la rezultatele căutării.

Pentru a-l crea, trebuie să scrieți un cod cu adresa URL a documentului original pe toate paginile duplicate:

Desigur, este greu să scrii toate acestea manual. Există diverse plugin-uri pentru asta. De exemplu, pentru blogul meu, care rulează pe motorul WordPress, am specificat acest cod folosind pluginul „All in One SEO Pack”. Acest lucru se face foarte simplu - bifați caseta corespunzătoare din setările pluginului:

Din păcate, opțiunea de pagină canonică nu elimină paginile duplicate, ci doar împiedică apariția lor ulterioară. Pentru a scăpa de duplicatele deja indexate, puteți folosi următoarea metodă.

Disallow directivă în robots.txt

Fișierul robots.txt este o instrucțiune pentru motoarele de căutare care le spune cum să indexeze site-ul nostru. Fără acest fișier, un robot de căutare poate ajunge la aproape toate documentele de pe resursa noastră. Dar o astfel de libertate păianjen de căutare nu avem nevoie de el - nu vrem să vedem toate paginile din index. Acest lucru este valabil mai ales pentru duplicatele care apar din cauza inadecvării șablonului de site sau a greșelilor noastre.

De aceea a fost creat un astfel de fișier în care sunt prescrise diverse directive pentru interzicerea și permiterea indexării de către motoarele de căutare. Puteți preveni scanarea paginilor duplicate folosind directiva Disallow:

Atunci când creați o directivă, trebuie să redactați corect interdicția. La urma urmei, dacă faceți o greșeală când completați regulile, atunci rezultatul poate fi o blocare complet diferită a paginii. Astfel, putem limita accesul la paginile necesare și putem permite altor duplicate să se scurgă. Dar totuși, erorile de aici nu sunt la fel de grave ca atunci când se creează reguli de redirecționare în .htaccess.

Interdicția de indexare folosind Disallow se aplică tuturor roboților. Dar nu pentru toată lumea, aceste interdicții permit motorului de căutare să elimine paginile interzise din index. De exemplu, Yandex elimină în cele din urmă paginile duplicate blocate în robots.txt.

Dar Google nu își va șterge indexul de nedorit inutil pe care l-a indicat webmasterul. În plus, directiva Disallow nu garantează această blocare. Dacă există link-uri externe către pagini interzise în instrucțiuni, acestea vor apărea în cele din urmă în baza de date Google .

A scăpa de duplicatele indexate în Yandex și Google

Deci, cu diverse metode mi-am dat seama, este timpul să descoperiți un plan pas cu pas pentru eliminarea duplicatelor din Yandex și Google. Înainte de curățare, trebuie să găsiți toate paginile duplicate - am scris despre asta într-un articol anterior. Trebuie să vedeți în fața ochilor care elemente ale adreselor paginilor sunt reflectate în duplicate. De exemplu, dacă acestea sunt pagini cu comentarii în arbore sau paginare, atunci înregistrăm cuvintele „replytocom” și „pagină” în adresele lor:

Observ că, în cazul replytocom, puteți folosi nu această expresie, ci pur și simplu un semn de întrebare. La urma urmei, este întotdeauna prezent în adresa paginilor de comentarii arbore. Dar trebuie să vă amintiți că adresele URL ale paginilor noi originale nu ar trebui să conțină simbolul „?”, altfel aceste pagini vor fi de asemenea interzise.

Curățarea Yandex

Pentru a elimina duplicatele din Yandex, creăm reguli pentru blocarea duplicatelor folosind directiva Disallow. Pentru a face acest lucru, efectuăm următoarele acțiuni:

  1. Deschideți instrumentul special „Analiza Robot.txt” în Yandex Webmaster.
  2. Adăugăm reguli noi pentru blocarea paginilor duplicate în câmpul de directive.
  3. În câmpul „Lista URL” introducem exemple de adrese duplicate pentru noile directive.
  4. Faceți clic pe butonul „Verificare” și analizați rezultatele.

Dacă am făcut totul corect, atunci acest instrument va arăta că există o blocare conform noilor reguli. În câmpul special „Rezultatele verificării URL” ar trebui să vedem o inscripție roșie despre interdicție:

După verificare, trebuie să trimitem directivele duplicate create în fișierul robots.txt real și să-l rescriem în directorul site-ului nostru. Și apoi trebuie doar să așteptăm până când Yandex ne șterge automat duplicatele din indexul său.

Curățarea Google

Nu este atât de simplu cu Google. Directivele interzise din robots.txt nu elimină duplicatele din indexul acestui motor de căutare. Prin urmare, va trebui să facem totul pe cont propriu. Din fericire, există un excelent serviciu Google Webmaster pentru acest lucru. Mai exact, ne interesează instrumentul „Parametri URL”.

Datorită acestui instrument, Google permite proprietarului site-ului să furnizeze motorului de căutare informații despre modul în care trebuie să proceseze anumiți parametri din URL. Suntem interesați de oportunitatea de a arăta Google acei parametri de adrese ale căror pagini sunt duplicate. Și acestea sunt cele pe care vrem să le scoatem din index. Iată ce trebuie să facem pentru aceasta (de exemplu, să adăugăm un parametru pentru a elimina duplicatele din replytocom):

  1. Deschideți instrumentul „Opțiuni URL” din serviciul Google din secțiunea de meniu „Crawling”.
  2. Faceți clic pe butonul „Adăugați parametru”, completați formularul și salvați noul parametru:

Drept urmare, obținem o regulă scrisă pentru ca Google să-și revizuiască indexul pentru prezența paginilor duplicate. Astfel, precizăm în continuare următorii parametri pentru alte duplicate de care dorim să scăpăm. De exemplu, așa arată o parte a listei mele cu regulile scrise pentru Google, astfel încât să își ajusteze indexul:

Aceasta încheie munca noastră privind curățarea Google, iar postarea mea s-a încheiat. Sper că acest articol vă va aduce beneficii practice și vă va permite să scăpați de paginile duplicate ale resurselor dvs.

Cu stimă, Maxim Dovzhenko

P.S. Prieteni, dacă aveți nevoie să faceți un videoclip pe această temă, scrieți-mi în comentariile acestui articol.

Duplicați pagini pe site-uri web sau bloguri, de unde vin și ce probleme pot crea.
Exact despre asta vom vorbi în această postare, vom încerca să înțelegem acest fenomen și să găsim modalități de a minimiza potențialele necazuri pe care ni le pot aduce paginile duplicate de pe site.

Deci hai sa continuam.

Ce sunt paginile duplicate?

Duplicați pagini pe orice resursă webînseamnă acces la aceleași informații la adrese diferite. Astfel de pagini sunt numite și duplicate interne ale site-ului.

Dacă textele de pe pagină sunt complet identice, atunci astfel de duplicate se numesc complete sau clare. Dacă există o potrivire parțială luările sunt numite incomplete sau neclare.

Preluări incomplete– acestea sunt pagini de categorii, pagini cu liste de produse și pagini similare care conțin anunțuri despre materialele site-ului.

Pagini duplicate complete– acestea sunt versiuni imprimabile, versiuni de pagini cu extensii diferite, pagini de arhivă, căutări pe site, pagini cu comentarii etc.

Surse de pagini duplicate.

Pe în acest moment majoritatea duplicatelor paginilor sunt generate când folosind CMS modern– sisteme de management al conținutului, numite și motoare de site-uri web.

Aceasta și WordPress și Joomla și DLEși alte CMS populare. Acest fenomen stresează serios optimizatorii de site-uri web și webmasterii și le provoacă probleme suplimentare.

În magazinele online pot apărea duplicate la afișarea produselor sortate după diverse detalii (producător al produsului, scopul produsului, data fabricației, preț etc.).

Trebuie să ne amintim și de notorii Prefix WWWși decideți dacă îl utilizați în numele domeniului la crearea, dezvoltarea, promovarea și promovarea site-ului.

După cum puteți vedea, sursele duplicatelor pot fi diferite, am enumerat doar cele principale, dar toate sunt bine cunoscute specialiștilor.

Paginile duplicat sunt negative.

În ciuda faptului că mulți oameni nu acordă prea multă atenție apariției duplicatelor, acest fenomen poate crea grave probleme cu promovarea site-ului web.

Motorul de căutare poate lua în considerare duplicatele sunt ca spam-ulși, ca urmare, reduceți serios poziția atât a acestor pagini, cât și a site-ului în ansamblu.

La promovarea unui site cu link-uri, poate apărea următoarea situație. La un moment dat, motorul de căutare va lua în considerare cel mai mult pagină duplicată relevantă, si nu cel pe care il promovezi cu link-uri si toate eforturile si cheltuielile tale vor fi in zadar.

Dar sunt oameni care încearcă folosiți duplicate pentru a crește în greutate la paginile necesare, pagina principală, de exemplu, sau orice alta.

Metode de tratare a paginilor duplicate

Cum să eviți duplicatele sau cum să elimini aspectele negative atunci când apar?
Și, în general, merită să lupți cu asta cumva sau să lași totul la cheremul motoarelor de căutare. Lasă-i să-și dea seama singuri, pentru că sunt atât de deștepți.

Folosind robots.txt

Robots.txt– acesta este un fișier aflat în directorul rădăcină al site-ului nostru și care conține directive pentru roboții de căutare.

În aceste directive, specificăm ce pagini de pe site-ul nostru să indexăm și care nu. De asemenea, putem specifica numele domeniului principal al site-ului și fișierul care conține harta site-ului.

Pentru a preveni indexarea paginilor este folosită directiva Disallow. Acesta este ceea ce folosesc webmasterii pentru a bloca paginile duplicate de la indexare, și nu numai duplicatele, ci și orice altă informație care nu are legătură directă cu conținutul paginilor. De exemplu:

Disallow: /search/ - închide paginile de căutare de pe site
Disallow: /*? — închideți paginile care conțin semnul de întrebare „?”
Disallow: /20* — închide paginile arhivei

Folosind fișierul .htaccess

File.htaccess(fără extensie) se află și în directorul rădăcină al site-ului. Pentru a combate duplicatele, acest fișier este configurat pentru a fi utilizat 301 redirecționări.
Această metodă ajută bine la menținerea performanței site-ului când modificarea CMS-ului site-ului sau modificarea structurii acestuia. Rezultatul este redirecționarea corectă fără pierderea masei legăturilor. În acest caz, greutatea paginii de la vechea adresă va fi transferată către pagina de la noua adresă.
Redirecționările 301 sunt folosite și la determinarea domeniului principal al unui site - cu WWW sau fără WWW.

Folosind eticheta REL = „CANONICAL”

Folosind această etichetă, webmaster-ul indică motorului de căutare sursa originală, adică pagina care ar trebui să fie indexată și să participe la clasarea motoarelor de căutare. Pagina este de obicei numită canonică. Intrarea în codul HTML va arăta ca după cum urmează:

Când utilizați CMS WordPress, acest lucru se poate face în setările unui astfel de util plugin ca All in Un Seo Ambalaj.

Măsuri suplimentare anti-duplicare pentru CMS WordPress

După ce am aplicat toate metodele de mai sus de a trata paginile duplicate pe blogul meu, am avut întotdeauna senzația că nu am făcut tot ce era posibil. Prin urmare, după ce am scotocit pe internet și m-am consultat cu profesioniști, am decis să fac altceva. O voi descrie acum.

Am decis să elimin duplicatele care sunt create pe blog când folosind ancore Am vorbit despre ele în articolul „Ancore HTML”. Pe blogurile care rulează CMS WordPress, ancorele se formează atunci când se aplică eticheta „#mai mult” și când folosiți comentarii. Actualitatea utilizării lor este destul de controversată, dar produc în mod clar duplicate.
Acum, cum am rezolvat această problemă.

Să abordăm mai întâi eticheta #more.

Am găsit fișierul unde este generat. Sau mai bine zis, mi-au spus.
Acesta este../wp-includes/post-template.php
Apoi am găsit un fragment de program:

ID)\» class= \»more-link\»>$more_link_text", $more_link_text);

Fragmentul marcat cu roșu a fost îndepărtat

#mai mult-($post->ID)\» class=

Și am ajuns cu o replică ca asta.

$output .= apply_filters(‘the_content_more_link’, ‘ $more_link_text", $more_link_text);

Eliminarea ancorelor pentru comentarii #comment

Acum să trecem la comentarii. M-am gândit deja la asta.
M-am hotarat si eu asupra dosarului ../wp-includes/comment-template.php
Găsirea codului de program necesar

return apply_filters('get_comment_link', $link . „#comment-‘ . $comment->coment_ID, $comentare, $args);)

În mod similar, fragmentul marcat cu roșu a fost îndepărtat. Foarte îngrijit, atent, până la fiecare punct.

. „#comment-‘ . $comment->coment_ID

Ajungem până la urmă rândul următor codul programului.

return apply_filters('get_comment_link', $link, $comment, $args);
}

Desigur, am făcut toate acestea după ce am copiat indicat fișiere de program pe computer, astfel încât în ​​caz de defecțiune să puteți restabili cu ușurință starea modificărilor.

Ca urmare a acestor modificări, când dau clic pe textul „Citește restul intrării...”, primesc o pagină cu adresa canonică și fără a adăuga o coadă la adresa sub forma „#mai mult-. ..”. De asemenea, când dau clic pe un comentariu, primesc o adresă canonică normală fără prefix sub forma „#comment-...”.

Astfel, numărul paginilor duplicate de pe site a scăzut ușor. Dar nu pot spune acum ce altceva va mai forma WordPress-ul nostru. Vom monitoriza problema în continuare.

Și în concluzie, vă aduc în atenție un foarte bun și video educativ pe acest subiect. Recomand cu căldură să-l vizionați.

Sanatate si succes tuturor. Până data viitoare.

Materiale utile:

Paginile duplicate sunt unul dintre numeroasele motive pentru pozițiile inferioare în rezultatele căutării și chiar pentru a se încadra sub filtru. Pentru a preveni acest lucru, trebuie să îi împiedicați să intre în indexul motorului de căutare.

Puteți determina prezența duplicatelor pe site și puteți scăpa de ele în diverse moduri, dar gravitatea problemei este că duplicatele nu sunt întotdeauna pagini inutile, pur și simplu nu ar trebui să fie în index.

Acum vom rezolva această problemă, dar mai întâi vom afla ce sunt duplicatele și cum apar ele.

Ce sunt paginile duplicate

Paginile duplicate sunt o copie a conținutului paginii canonice (principale), dar cu o adresă URL diferită. Este important să rețineți că acestea pot fi fie complete, fie parțiale.

Dublare completă este o copie exactă, dar cu adresă proprie, a cărei diferență se poate manifesta printr-o bară oblică, abrevierea www, înlocuirea parametrilor index.php?, page=1, page/1 etc.

Dublare parțială se manifestă prin copierea incompletă a conținutului și se asociază cu structura site-ului, atunci când sunt indexate anunțuri din catalogul articolelor, arhivele, conținutul din bara laterală, paginile de paginare și alte elemente end-to-end ale resursei conținute în pagina canonică. Acest lucru este inerent în majoritatea CMS-urilor și magazinelor online, în care prezența unui catalog este o parte integrantă a structurii.

Am vorbit deja despre consecințele apariției duplicatelor, iar acest lucru se întâmplă din cauza distribuției masei de referință între duplicate, înlocuirea paginilor în index, pierderea unicității conținutului etc.

Cum să găsiți pagini duplicate pe un site web

Pentru a găsi duplicate, puteți utiliza următoarele metode:

  • Bara de căutare Google. Folosind site-ul de construcție:myblog.ru, unde myblog.ru este adresa dvs. URL, sunt identificate paginile din indexul principal. Pentru a vedea duplicatele, trebuie să accesați ultima pagina rezultatele căutăriiși faceți clic pe linia „afișați rezultatele ascunse”;
  • Comanda „Căutare avansată” în Yandex. Indicând adresa site-ului dumneavoastră într-o fereastră specială și introducând între ghilimele una dintre propozițiile articolului indexat care este verificat, ar trebui să obținem un singur rezultat. Dacă sunt mai multe, acestea sunt duplicate;
  • bara de instrumente pentru webmasteri în PS;
  • manual, inserând o bară oblică, www, html, asp, php, litere mari și mici în bara de adrese. În toate cazurile, redirecționarea ar trebui să aibă loc către pagina cu adresa principală;
  • programe speciale si servicii: Xenu, MegaIndex, etc.

Eliminarea paginilor duplicate

Există, de asemenea, mai multe modalități de a elimina duplicatele. Fiecare dintre ei are impactul și consecințele acestuia, deci nu este nevoie să vorbim despre cel mai eficient. Trebuie amintit că distrugerea fizică a duplicatului indexat nu este o soluție: motoarele de căutare încă își vor aminti despre asta. Prin urmare, cea mai bună metodă de a trata duplicatele este prevenind apariția lor folosind setările corecte pentru site.

Iată câteva dintre modalitățile de a elimina duplicatele:

  • Configurarea Robots.txt. Acest lucru vă va permite să blocați anumite pagini de la indexare. Dar dacă roboții Yandex sunt susceptibili la acest dosar, apoi Google captează chiar și pagini care sunt închise de el, fără să țină cont cu adevărat de recomandările sale. În plus, este foarte dificil să eliminați duplicatele indexate folosind Robots.txt;
  • redirecționare 301. Ajută la îmbinarea fotografiilor cu pagina canonică. Metoda funcționează, dar nu este întotdeauna utilă. Nu poate fi folosit în cazurile în care duplicatele ar trebui să rămână pagini independente, dar nu ar trebui să fie indexate;
  • Atribuirea unei erori 404 duplicate indexate. Metoda este foarte bună pentru a le elimina, dar va dura ceva timp până când efectul să apară.

Când nu puteți lipi nimic sau șterge nimic, dar nu doriți să pierdeți greutatea paginii și să fiți pedepsit de motoarele de căutare, atunci puteți utiliza atributul href canonic rel.

Atributul canonic rel pentru a combate duplicatele

Voi începe cu un exemplu. Magazinul online are două pagini cu fișe de produse cu conținut identic, dar pe una produsele sunt aranjate în ordine alfabetică, iar pe cealaltă după cost. Ambele sunt necesare și redirecționarea nu este permisă. În același timp, pentru motoarele de căutare, aceasta este o dublă clară.

În acest caz, este rațional să folosiți eticheta link rel canonical, care indică o pagină canonică care este indexată, dar pagina non-primară rămâne disponibilă utilizatorilor.

Acest lucru se face astfel: în blocul de cap al codului paginilor duplicate este indicat un link „link rel="canonical” href="http://site.ru/osnovnaya stranitsa”/”, unde stranitsa este adresa paginii canonice.

Cu această abordare, utilizatorul poate vizita liber orice pagină a site-ului, dar robotul, după ce a citit atributul canonic rel din cod, va merge la indexarea doar pe cea a cărei adresă este indicată în link.

Acest atribut poate fi util și pentru paginile cu paginare. În acest caz, se creează o pagină „Afișează tot” (un fel de „pânză”) și este acceptată ca canonică, iar paginile de paginare trimit robotul către aceasta prin rel canonical.

Astfel, alegerea metodei de combatere a duplicarii paginilor depinde de natura acestora apariția și necesitatea prezenta pe site.

Duplicatele paginilor site-ului, impactul acestora asupra optimizarea motoarelor de căutare. Metode manuale și automate pentru detectarea și eliminarea paginilor duplicate.

Influența duplicaturilor asupra promovării site-ului web

Prezența duplicaturilor afectează negativ clasamentul site-ului. După cum sa menționat mai sus, motoarele de căutare văd pagina originală și duplicatul acesteia ca două pagini individuale. Conținutul duplicat pe altă pagină nu mai este unic. În plus, greutatea link-ului paginii duplicate se pierde, deoarece linkul se poate transfera nu către pagina țintă, ci către duplicatul acesteia. Acest lucru se aplică atât pentru legăturile interne, cât și pentru legăturile externe.

Potrivit unor webmasteri, un număr mic de pagini duplicate, în general, nu va cauza un prejudiciu serios site-ului, dar dacă numărul acestora se apropie de 40-50% din volumul total al site-ului, dificultăți serioase de promovare sunt inevitabile.

Motivele duplicaturilor

Cel mai adesea, duplicatele apar ca urmare a setărilor incorecte ale CMS-urilor individuale. Scripturile interne ale motorului încep să funcționeze incorect și generează copii ale paginilor site-ului.

Este cunoscut și fenomenul duplicaturilor fuzzy - pagini al căror conținut este doar parțial identic. Astfel de duplicate apar, cel mai adesea, din vina webmasterului însuși. Acest fenomen este tipic pentru magazinele online, unde paginile cardurilor de produse sunt construite conform aceluiași șablon și, în cele din urmă, diferă unele de altele doar prin câteva rânduri de text.

Metode de găsire a paginilor duplicate

Există mai multe moduri de a detecta paginile duplicate. Puteți apela la motoarele de căutare: pentru a face acest lucru în Google sau Yandex, introduceți o comandă precum „site:sitename.ru” în bara de căutare, unde sitename.ru este domeniul site-ului dvs. Motorul de căutare va returna toate paginile indexate ale site-ului, iar sarcina dvs. va fi să le detectați pe cele duplicate.

Există o altă modalitate la fel de simplă: căutarea după fragmente de text. Pentru a căuta în acest fel, trebuie să adăugați o mică bucată de text de pe site-ul dvs., 10-15 caractere, în bara de căutare. Dacă rezultatele căutării pentru textul căutat conțin două sau mai multe pagini ale site-ului dvs., nu va fi dificil să detectați duplicatele.

Cu toate acestea, aceste metode sunt potrivite pentru site-urile formate dintr-un număr mic de pagini. Dacă site-ul are câteva sute sau chiar mii de pagini, atunci căutarea manuală a duplicatelor și optimizarea site-ului în ansamblu devin sarcini imposibile. Există programe speciale pentru astfel de scopuri, de exemplu, unul dintre cele mai comune este Xenu`s Link Sleuth.

În plus, există instrumente speciale pentru verificarea stării de indexare în panourile Google Webmaster Tools și Yandex.Webmaster. Ele pot fi folosite și pentru a detecta duplicatele.

Metode de eliminare a paginilor duplicate

Elimina pagini inutile se poate face și în mai multe moduri. Fiecare caz specific are propria sa metodă, dar cel mai adesea, la optimizarea unui site web, acestea sunt utilizate în combinație:

  • eliminarea manuală a duplicatelor - potrivită dacă toate cele inutile au fost detectate și manual;
  • îmbinarea paginilor folosind o redirecționare 301 – potrivită dacă duplicatele diferă doar prin absența și prezența „www” în URL;
  • folosind eticheta „canonic” - potrivită în cazul dublurilor neclare (de exemplu, situația menționată mai sus cu cardurile de produse dintr-un magazin online) și se implementează prin introducerea unui cod precum „link rel="canonical" href="http:/ /sitename.ru/ stranica-kopiya"/" în blocul principal al paginilor duplicate;
  • configurarea corectă a fișierului robots.txt - folosind directiva „Disallow”, puteți interzice indexarea paginilor duplicate de către motoarele de căutare.

Concluzie

Apariția paginilor duplicate poate deveni un obstacol serios în optimizarea site-ului și aducerea acestuia în poziția de sus, prin urmare această problemă trebuie abordată în stadiul inițial al apariției sale.