Benvenuto in Seonida.Google e robots.txt |
![]() |
|
|
LinkBack | Strumenti discussione | Modalità visualizzazione |
|
#1
|
|||
|
|||
|
Google e' troppo simpatico.
Secondo me non lo riescono piu' a controllare, ha vita propria. ----- Google ha bannato da anni un mio sito. Tuttavia ogni giorno passava e spiderizzava alcune pagine del sito. Stufo (dopo anni di inutili spiderizzazioni) blocco tramite file robots.txt l'accesso al sito allo spider di google. ------- Dopo 6 mesi circa (dall'introduzione del robots.txt che ne vietava la spiaderizzazione) Google assegna pr3 al sito e lo sbanna. Me ne frego e lascio il robots.txt cosi' come e'. Permetto pertanto a chiunque di spiderizzarmi il sito, ma non a Google. Ieri vado per curiosita' sugli strumenti di Google e verifico quel sito. Come risultato ottengo il grafico che riporto. Google e' arrivato a spiderizzarmi 133 pagine in un giorno, benche' da tempo il mio robots.txt ne inibisca l'accesso. --------- Certo potrebbe avermi spiderizzato 133 volte (in un solo giorno) il file robots.txt... ma che senso avrebbe?? --------------------- Se chi gestisce google fosse in mala fede spiderizzerebbe cosa, come, quando vuole fregandosene dei robots.txt... ma tutto questo senza pero' palesarlo pubblicamente ed ufficialmente con grafici ufficiali. -------- Google e' diventato cosi' imponente-complesso-articolato che il suo braccio destro non riesce piu' a controllare cosa fa il braccio sinistro e viceversa. Per i piu' questa situazione potrebbe rappresentare una situazione critica... ed una critica alla situazione. Invece a mio avviso e' un bene. Perche' Google azienda si frazionera'. |
|
#2
|
|||
|
|||
|
Citazione:
Non puoi ottenere il dettaglio degli URL spiderizzati in quel dato giorno? |
|
#3
|
|||
|
|||
|
Citazione:
Citazione:
Nel caso di elementi disallow, ma linkati all'interno del sito stesso (o anche da fonti esterne), ho sempre pensato che, se solo volessero, gli spider potrebbero ignorare ufficialmente gli elementi indicati nel robots.txt, per poi visitarli e spiderizzarli con useragent (oltre a località, ip_address etc.) anonimi o comuni.... In tal modo non allerterebbero neanche i webmaster più smaliziati, ma continuerebbero comunque a racimolare dati... Tempo addietro feci alcuni test riguardanti le diverse possibilità di inibizione ai motori (meta tag, rel =nofollow, robots etc.), ma i risultati furono coerenti e non ebbi motivo di continuare i test; ammetto che il tuo caso è molto strano. Non lo hai scritto, ma immagino che il tuo sito completamente disallow non sia presente in SERP ? Non è che per caso hai scritto male il robots.txt? Ovviamente sto scherzando... |
|
#4
|
||||
|
||||
|
Agoago ben sa, ma alcuni altri no, che il robots.txt è solo una gentile richiesta fatta allo spider di non leggere qualcosa. Gentile richiesta e niente altro. Chi vuole passa e basta.
Per inciso, io parto dal presupposto che non sia neppure scorretto, soprattutto quando poi noi SEO facciamo la stessa cosa con lui, quando controlliamo automaticamente i posizionamenti con appositi programmi, quando lui sempre ha detto che non gli piace ![]() Che un sito bloccato venga "sbannato", secondo me ci sta tutta ![]() Un po' come farebbe una donna che ti rifiuta, ma se poi tu te ne vai ti viene a cercare ...e Google è molto donna !!!Agoago, quand'è che ti decidi a venire ad uno dei nostri happy hour milanesi al Art Factory? |
|
#5
|
|||
|
|||
|
Ciao a tutti,
è vero quello che dica l'amico Francesco, ma è altrettanto vero che questa è una infrazione non solo di una netiquette ma anche di una regola che va anche sul legale: ricordo infatti qualche tempo addietro della causa di alcuni giornali contro GG che hanno insinuato l'usurpazione del diritto di indicizzare i contenuti - l'hanno persa fondamentalmente perché la risposta è stata "s e nonvuoi che io indicizzi i tuoi contenuti allora devi utilizzare il file robots.txt" Ora se sta accadendo che GG se ne frega della richiesta di non accedere ai contenuti bloccati dal robots la vedo come una cosa abbastanza grave - voi che ne dite ?? |
|
#6
|
|||
|
|||
|
Grazie dell'ottima segnalazione, purtroppo non mi stupisce neanche molto... ormai Google fa come vuole... Magari tra 10 anni ci saranno delle regolamentazioni in merito o magari Google produrrà dentifrici...
|
|
#7
|
|||
|
|||
|
Novità (almeno per me sono tali) riguardo al robots.txt da Search Engine Roundtable.
Google esegue la scansione del tuo sito in assenza del file robots.txt? Dipende... In lingua italiana ne parla SimLeon su rankfirst.info. |
|
#8
|
|||
|
|||
|
Scusate ma io non ci vedo nulla di strano, con il robots diciamo a Google di non indicizzare, ma non di non visitare. Nessuno toglie la possibilità a Google di visitare una pagina e di non indicizzarla (la pagina è pubblica), se vogliamo che nemmeno la visualizzi dovremmo usare un htaccess o altra regola tramite server.
Il punto è un altro: perché Google "spreca" risorse per visualizzare queste pagine? A tal proposito porto un'esperienza personale: tempo fa, per errore, impedì a Google di indicizzare l'intero dominio, tale regola rimase su per 4 giorni. Lo spider appena vista la richiesta girò tutte le pagine di tutto il sito che aveva precedentemente visitato e tornò a visitare il robots ogni giorno (a tal proposito allego l'img). Perché guardare tutte le pagine quando ti ho appena detto che non voglio essere indicizzato? PS per la cronaca: lo stesso comportamento è avvenuto su 20 domini diversi |
|
#9
|
||||
|
||||
|
Citazione:
![]() |
|
#10
|
|||
|
|||
|
Citazione:
![]() |
![]() |
| Utenti attualmente attivi che stanno leggendo questa discussione: 1 (0 utenti e 1 visitatori) | |
| Strumenti discussione | |
| Modalità visualizzazione | |
|
|