El rastreador web de Google solo usa los primeros 15 MB del HTML de una página para determinar las clasificaciones, según la actualización de la documentación de ayuda.
Una actualización del documento de ayuda de Googlebot contiene la confirmación de que rastreará los primeros 15 MB de una página web y todo lo que pase después de este límite no se incluirá en los cálculos de clasificación.
Googlebot rastrea solo los primeros 15 MB de contenido HTML para posicionar
Google especifica en el documento de ayuda:
“Todos los recursos a los que se hace referencia en el HTML, como imágenes, videos, CSS y JavaScript, se obtienen por separado.
Después de los primeros 15 MB del archivo, Googlebot deja de rastrear y solo considera los primeros 15 MB del archivo para la indexación.
El límite de tamaño de archivo se aplica a los datos sin comprimir”.
Esto ha hecho que algunos miembros de la comunidad de SEO se pregunten si esto significa que Googlebot ignorará por completo el texto que esté por debajo de las imágenes en el corte de los archivos HTML.
«Es específico del archivo HTML en sí, como está escrito», aclaró John Mueller, defensor de las búsquedas de Google, a través de Twitter.
«Los recursos/contenidos incrustados que se introducen con etiquetas IMG no forman parte del archivo HTML«.
Qué significa esto para el SEO
Para garantizar que Googlebot lo pondere, el contenido importante debe incluirse ahora cerca de la parte superior de las páginas web.
Esto significa que el código debe estructurarse de forma que la información relevante para el SEO se sitúe en los primeros 15 MB de un archivo HTML o basado en texto compatible.
También significa que las imágenes y los vídeos deben comprimirse y no codificarse directamente en el HTML, siempre que sea posible.
Las mejores prácticas de SEO actualmente recomiendan mantener las páginas HTML a 100 KB o menos, por lo que muchos sitios no se verán afectados por este cambio. El tamaño de las páginas puede comprobarse con diversas herramientas, como Google Page Speed Insights.
En teoría, puede parecer preocupante que pueda haber contenido en una página que no se utilice para la indexación. Sin embargo, en la práctica, 15MB es una cantidad considerablemente grande de HTML.
Como afirma Google, los recursos como las imágenes y los vídeos se obtienen por separado. Según la redacción de Google, parece que este límite de 15 MB sólo se aplica al HTML.
Sería difícil sobrepasar ese límite con HTML, a menos que se publiquen libros enteros de texto en una sola página.
Si tienes páginas que superan los 15 MB de HTML, es probable que tengas problemas subyacentes que deban solucionarse de todos modos.
¿Cómo puedo saber cuál es el tamaño de una página?
Hay varias maneras, pero la más fácil es probablemente utilizar su propio navegador y sus herramientas de desarrollo. Por ejemplo, si usas las herramientas para desarrolladores de Chrome, podría verse de la siguiente forma: 24.1 kB en la columna Tamaño:
Fuente: Google Search Central