Benvenuto in Seonida.Siamo onesti: il Google Webmaster Tool sta sbarellando! |
![]() |
|
|
LinkBack | Strumenti discussione | Modalità visualizzazione |
|
#1
|
|||
|
|||
|
(Titolo provocatorio
)Faccio subito una premessa: riporto dei bug individuati sull'account relativo al mio blog (Wordpress). Menu: Diagnostic -> Web Crawl Allo stato attuale ho 82 pagine localizzate sotto la voce "Not found". Posso immaginare che casi tipo come un server down possono incrementare il numero di queste pagina "Not found", ma posso anche immaginare che con il tempo, sempre che si tratti di server down, tale numero torni verso lo 0. Il mio caso è diverso: in sostanza non sono quasi mai a 0. E' posso anche giustificare la cosa pensando al numero di pagine indicizzate nel db. Però la cosa mi insospettisce quando clicco su quell'82 e vado a vedere di che pagine si tratta. Ve ne riporto qui qualcuna (lasciate stare il titolo e il logico contenuto )- http:// www. marcoziero. it/campioni-del-mondo/ - http:// www. marcoziero. it/chiusura-conto-corrente-gratuita/ - http:// www. marcoziero. it/discesa-sul-culo/ - http:// www. marcoziero. it/e-bravo-google/ - http:// www. marcoziero. it/eccolo/ La struttura permalink settata sul mio blog prevede che nella URL finiscano categoria e post (%category%/%post%). Quindi Google ha individuato queste pagine, c'ha tolto dall'URL la categoria ed ha provato ad accedervi. Ma è chiaro che non ha trovato nulla, se non un 404 personalizzato. E questo comportamento va avanti da parecchio tempo. La seconda questione è la seguente: qui si suggeriva un'istruzione da inserire nel Robots.txt per impedire l'indicizzazione delle SERP interne di Wordpress. Fatto. Il risultato è che questa mattina, nel Google Webmaster Tool, tra le "URL restricted by robots.txt" vedo anche queste URL: - http:// www. marcoziero. it/index.php?s=&paged=12 - http:// www. marcoziero. it/index.php?s=&paged=13 - http:// www. marcoziero. it/index.php?s=&paged=14 - http:// www. marcoziero. it/index.php?s=&paged=19 - http:// www. marcoziero. it/index.php?s=&paged=2 che altro non sono che queste pagine (cioè dall'index cliccando su "post precedenti"): - http:// www. marcoziero. it/page/12/ - http:// www. marcoziero. it/page/13/ - http:// www. marcoziero. it/page/14/ - http:// www. marcoziero. it/page/19/ - http:// www. marcoziero. it/page/2/ La questione è che sono le stesse pagine solo che allo "stato naturale", ovvero prima della riscrittura delle URL. Sinceramente non riesco a farmi un'idea precisa, però vedo dei limiti circa l'interpretazione dell'URL Rewrite da parte del Google Webmaster Tool. Nel primo caso non interpreta correttamente la regola nell'.htaccess e toglie dei parametri dalla URL (%category%, nel caso specifico), nel secondo caso invece non lo fa proprio e cerca di indicizzare la URL allo stato naturale. Qualcuno mi dà una mano per sbrogliare la matassa? ![]() |
|
#2
|
|||
|
|||
|
non è che a sbarellare è il tuo wp e google non fa altro che trovare link errati?
![]() |
|
#3
|
|||
|
|||
|
potrebbe anche essere. :P
ma non c'ho fatto nulla di particolare se non settare il permalink come scrivevo. secondo me il GWT fa fatica a gestire questa cosa. mai successo niente di simile a voi? |
|
#4
|
|||
|
|||
|
mentre rispondevo a must mi è passato per la mente che, forse, potrebbe essere il plugin che genera la sitemap a dare problemi...però, effettivamente, mi sembra una stupidaccine.
in ogni caso ho effettuato una ricerca al suo interno e compaiono solo le URL dopo che hanno già subito la riscrittura. |
|
#5
|
|||
|
|||
|
Ciao Marco,
ad essere precisi questo url indica la pagina 12 di una ricerca vuota: - index.php?s=&paged=12 Quindi anche se il contenuto poi è lo stesso, non è la stessa cosa di: - page/12/ il cui url non riscritto sarebbe index.php?paged=12 Questo per me si può ricollegare al fatto - saltato fuori anche nei commenti di in un tuo post, se non sbaglio - che Google invia i form con method get ed indicizza i risultati... Per l'altra cosa che notatavi, qualche indicazione la puoi avere da qui: http://blogsearch.google.com/blogsea...el-mondo%2F%27 Forse il tuo permalink per un certo periodo è stato NON %category%/%post%, ma semplicemente %post%? ![]() Ciao
__________________
SEMBOX |
|
#6
|
|||
|
|||
|
Ciao Fra_T,
grazie per la prima indicazione. Ora ho capito. Circa il secondo punto, sicuramente la prima versione del permalink era %post%, però da più di 15 mesi, quindi quasi tutta la vita del blog, non è più così. E' Google che ci mette tanto ad aggiornarsi? :P |
|
#7
|
|||
|
|||
|
Google Blog Search mi da l'impressione di un progetto un po' abbandonato a se stesso
comunque per indicizzare i post usa i feed, quindi come url utilizza quello che al tempo ha trovato nel feed e che ora non trova più...Che poi potrebbe eliminare i 404 o utilizzare un metodo per trovare i nuovi URL è un'altra storia...
__________________
SEMBOX |
|
#8
|
||||
|
||||
|
Io onestamente non credo che stia sbarellando, Marco.
Ogni volta che mi viene la tentazione di crederlo, vado a fondo e scopro invariabilmente che ha ragione lui e che ho fatto da qualche parte un errore io. ... ne ho trovati tanti di errori, tra sitemap.xml, robots.txt e feed da riempirci un manuale intero. Tutti o quasi saltati fuori grazie ai Tool per Webmaster. |
|
#9
|
|||
|
|||
|
Ciao,
io ho appena riscontrato un problema simile. GWT mi segna come errore 404 pagine regolarmente onlie ed, in effetti, si tratta di pagine riscritte. Il bello è che nel frattempo il mio page rank passa da 3 tre a quattro. dalla serie: evviva la google toolbar! Certe volte google mi fa venire mal di testa... Un caro saluto, danilo. |
|
#10
|
|||
|
|||
|
Sì sì, Francesco, non voglio "bocciare" il Webmaster Tool, anzi!
Tra l'altro inizia a diventare sempre più interessante anche a livello statistico. ![]() L'utilità è indiscussa, proprio per rintracciare tutti quegli errori che altrimenti mi sarei perso per strada. La mia perplessità è che in certe situazioni vada un po' in confusione. Credo che la risposta corretta sia stata quella di Fra_T, ovvero dove un tempo la struttura del mio permalink era diversa, e questa è rimasta memorizzata nel Blog Search, progetto un po' abbandonato. E' solo un peccato che ci sia uno spreco di risorse per crawlare url che non esistono. Ecco (scusa il ritardo con il quale ti ho risposto). ![]() |
![]() |
| Utenti attualmente attivi che stanno leggendo questa discussione: 1 (0 utenti e 1 visitatori) | |
| Strumenti discussione | |
| Modalità visualizzazione | |
|
|