Benvenuto in Seonida.Google e robots.txt |
![]() |
|
|
LinkBack | Strumenti discussione | Modalità visualizzazione |
|
#11
|
|||
|
|||
|
Fradefra scrive:
"Per inciso, io parto dal presupposto che non sia neppure scorretto, soprattutto quando poi noi SEO facciamo la stessa cosa con lui, quando controlliamo automaticamente i posizionamenti con appositi programmi, quando lui sempre ha detto che non gli piace" In effetti, da questo punto di vista, il discorso non fa una grinza. Abituato a difendere ogni "malefatta" dei seo ma sempre pronto a giudicare le melefatte dei motori non equiparavo i 2 comportamenti. Invece dovrei vergognarmi. Sono il primo a sfruttare in ogni modo il lavoro di archiviazione dei motori per poi lamentarmi se gli stessi sfruttano i miei siti, robots o meno. Grazie Fradefra per avermi fatto capire che sbagliavo per ipocrisia. Pigot4 scrive: "Scusate ma io non ci vedo nulla di strano, con il robots diciamo a Google di non indicizzare, ma non di non visitare. Nessuno toglie la possibilità a Google di visitare una pagina e di non indicizzarla (la pagina è pubblica), se vogliamo che nemmeno la visualizzi dovremmo usare un htaccess o altra regola tramite server." Il robots.txt prega-supplica-spera che un dato spider (o piu' spider) non acceda ad una parte (o ad ogni parte) di un sito. Un classico e' il robots.txt che cerca di bloccare lo spider di Xenu, TeleportPro, programmi per catturare indirizzi email, etc etc. Insomma spider che nulla hanno a che vedere con i motori di ricerca... "These incidents indicated the need for established mechanisms for WWW servers to indicate to robots which parts of their server should not be accessed." -------- Pertanto primo punto: il robots.txt mira a non far spiderizzare (per un dato spider) un sito (in parte od in toto), e non si preoccupa se quel sito verra' indicizzato o meno. ----------------------------------- Chiediamoci: Cosa e' un bot? Cosa e' uno spider? Cosa e' un user agent? Il bot e' un' entita' artificiale "intelligente" (robot) che decide man mano cosa-quando-come spiderizzare. Lo spider e' un software (manovrato da un bot o da una persona) che legge in modo automatico cosa gli impone un bot od una persona. User agent e' il "nome" con cui viene definito per convenzione un software che accede a dei contenuti. ---- Premesso questo... un sito (attraverso il proprio robots.txt) a chi si rivolgerera'? Si rivolgera' ai bot, bot che inviano (sui nostri siti) i loro spider, spider identificabili tramite user agent. -------------------- Sembra una cosa banale e scontata... ma non lo e'. Infatti se un robots.txt volesse bloccare l'accesso al proprio sito a dei browsers (tipo i.e. o mozzilla) non gli servirebbe a nulla specificare gli user agent di quei browser.. perche' si tratta di user agent manovrati da persone (e non da bot). Un robots.txt si rivolge ai bot. Solo se un user agent e' gestito da un bot (o da uno spider che fa anche da bot) il bot potra' soddisfare la richiesta del robots.txt. La si giri come si vuole, si parla sempre di accedere o non accedere ad un sito, mai di indicizzarlo o meno. ------------------------------------- Pigot4 scrive: "Il punto è un altro: perché Google "spreca" risorse per visualizzare queste pagine?" Questo e' il punto. Google patisce da matti (come ognuno di noi) l'essere ignorato-bannato. Ricordiamoci che un motore puo' bannare un sito come e quando vuole. Ricordiamoci che un sito puo' bannare un motore come e quando vuole (tramite robots). I wm ed i motori patiscono un ban alla stessa maniera, nella stessa misura. |
|
#12
|
||||
|
||||
|
Citazione:
![]() Google ha forse più bisogno dei siti, di quanto i siti abbiano bisogno di lui! Se il non voler essere spiderizzati diventasse una policy comune, i motori di ricerca avrebbero grossi problemi. Vorrei, come al solito, fare un'altra precisazione provocatoria. Se robots.txt significa "spider, per favore, non leggere le pagine", questo non significa che ogni pagina non possa essere indicizzata! Infatti tutto quello che un umano legge con un browser, poi lo può catalogare dove gli pare. Le directory si basano su questo, no? Certo, capisco che indicizzare "umanamente" miliardi di pagine non sia facile, ma se una pagina fosse importante, unica, ecc. ecc., secondo me un motore potrebbe avere l'interesse ad indicizzarla comunque. A costo di spedirci un Quality Rater e fargli fare una inclusion manuale! |
|
#13
|
|||
|
|||
|
Citazione:
Citazione:
![]() |
|
#14
|
|||
|
|||
|
Fradefra scrive:
"Vorrei, come al solito, fare un'altra precisazione provocatoria. Se robots.txt significa "spider, per favore, non leggere le pagine", questo non significa che ogni pagina non possa essere indicizzata! Infatti tutto quello che un umano legge con un browser, poi lo può catalogare dove gli pare. Le directory si basano su questo, no?" E' una bella precisazione. Infatti ce ne dimentichiamo spesso, e diamo per scontato che il non indicizzare coincida con il non catalogare. Ai motori pero' piacciono i paradossi, si mormora che nei rari casi non ne esistano li inventino (o li facciano "inventare" ad hoc). Per esempio G dice, se tu wm blocchi il mio spider tramite robots per la tua pagina bloccata.html io G non te la spiderizzo, ma se voglio te la catalogo comunque (mio diritto) e ti frego perche' di fatto raggiungo il mio scopo. Se tu wm insisti... e metti all'interno della tua pagina bloccata.html il meta: META NAME="GOOGLEBOT" CONTENT="NOINDEX io G non te la potro' piu' indicizzare, ma potro' spiderizzarla tutte le volte che voglio... Perche'? Perche' affinche' io G possa rilevare la presenza del Meta, tu Wm dovrai levare dal tuo robots il blocco (verso il mio spider) alla tua pagina bloccata.html. Insomma, se mi blocchi l'accesso via robots io te la catalogo perche' non posso rilevare il meta, se tu invece me la fai leggere io non te la catalogo (ma la spiderizzo quanto mi pare). Comunque vada... ----------- Mi son sempre chiesto se le pagine elencate dentro un robots equivalessero per i motori come link. Mi dimentico sempre di fare il test, magari se avete voglia provate voi, poi ci dite. All'interno di un votro robots bloccate per tutti i motori l'accesso alla pagina nonesiste.html (o chiamatela come vi pare). La pagina nonesiste.html ovviamente non esiste. Dopo un mese e rotti levate dal robots il blocco a quella pagina (che non esiste). Se nei mesi successivi uno spider cerchera' di spiderizzare una pagina chiamata nonesiste.html (ricevendo un 404) vorra' dire che per quel motore anche il robots produce link interni. Test simpatico e di facile realizzazione. ---------- Pigot4 in realta' il robots serve unicamente per risparmiare risorse, ma di fatto come tu ricordi lo usiamo tutti impropriamente per evitare che alcuni nostri documenti "sensibili" siano ben in vista nei motori. Ma teoricamente e' un errore. ------- Solo una nota. In Rete ci sono una marea di "paradossi" e questioni (volutamente) poco chiare. Tuttavia molte menti lungimiranti affermano che questi incasinamenti (perche' di casini si tratta) sono le vere fondamenta della Rete libera, di quella liberta' attuale e futura che solo la Rete sa offrire ed offrira' a tutti noi. Non so se abbiano ragione... ma nel dubbio preferisco tenermi il robots cosi' come e', pur ricordandone costantemente le contraddizioni, per amor di verita'. |
![]() |
| Utenti attualmente attivi che stanno leggendo questa discussione: 1 (0 utenti e 1 visitatori) | |
| Strumenti discussione | |
| Modalità visualizzazione | |
|
|