Seleccionar página

No es fácil ser un bot de un motor de búsqueda: rastrear durante todo el día y la noche; tratando de clasificar, organizar y evaluar la calidad de cada página en Internet; analizando el lenguaje, el contexto y los temas.

¡Pero un bot no se detiene! “Por favor, quiero un poco más” – esta es la voz de un bot, ansioso de obtener más contenido de tu sitio.

En algún momento, tenemos que parar y preguntarnos: ¿qué pasa si tenemos una página en nuestro sitio, y un robot no es capaz de rastrearla? Esta es la difícil situación de una página huérfana. Así que, ¡vamos a encontrarlas y a arreglarlas!

¿Qué es una página huérfana?

Una página huérfana sencillamente no tiene ningún enlace interno que apunte hacia ella. El propio nombre lo define: una página sin padre.

Las páginas huérfanas suelen ocurrir por error humano; un enlace que no existe o que es defectuoso y puede hacer que un motor de búsqueda no pueda rastrearla, lo cual es indudablemente problemático para el SEO. Por ejemplo, durante el rediseño de un sitio web, puedes eliminar sin saberlo los enlaces a una página antigua, pero la página en sí sigue existiendo.

A veces, en circunstancias adecuadas, una página huérfana puede estar perfectamente bien: estas páginas se crean normalmente para una campaña específica de PPC o correo electrónico y no se enlazan de forma intencionada a parte de la campaña. No importa cómo suceda, es importante mantener una buena comprensión de cómo tu sitio web está conectado internamente.

¿Son peligrosas las páginas huérfanas?

Donde hay luz, siempre hay oscuridad, ya sabes, para equilibrar el universo. Mientras que las páginas huérfanas no son en si mismas malas, pueden ser confundidas con páginas doorway.

Las conocidas como doorway pages tienen un contenido muy similar, ligeramente ajustadas a las variaciones de una palabra clave. Esto se aprecia en una situación en la que una empresa puede querer dirigirse a cientos de ciudades diferentes con páginas dirigidas individualmente, en la que sólo el nombre de la ciudad y el estado cambian a lo largo de cada página.

En su afán de ofrecer resultados de búsqueda de calidad, Google no quiere ver páginas construidas exclusivamente para centrarse en una infinidad de pequeñas variaciones de palabras clave.

Si una página huérfana contiene contenido demasiado específico o similar a otras páginas y se presenta en un mapa del sitio XML, sin una metaetiqueta de noindex, se corre el riesgo de ser confundida con una página doorway. Esta página pasaría a estar en el radar de Google como algo que solicitaste indexar, pero que no forma parte de la arquitectura de tu sitio. Para Google, eso es una semáforo en rojo que pueden acabar en una penalización, de forma algorítmica o manual.

Dado que las doorway pages pueden dar lugar a una penalización de Google, las páginas huérfanas que no sean doorway deben evitarse siempre que sea posible. Algunas páginas pueden incluso ser huérfanas a propósito, con el fin de crear páginas de destino para campañas de PPC o newsletter.

En el caso de las campañas de PPC y correo electrónico, a menudo son específicas para cada campaña, por lo que los profesionales del marketing no quieren que nadie navegue hacia ellas fuera del radio de alcance de la campaña. Las páginas de aterrizaje de PPC/email a menudo presentan un diseño reducido que dirigen a los usuarios hacia un objetivo específico, por lo que es posible que no incluyan la arquitectura de enlaces completa del sitio. Esta es una razón totalmente válida para tenerlos; simplemente debes asegurarte de que se aplica una metaetiqueta noindex:

<meta name=”robots” content=”noindex”>

Además del riesgo de las doorway pages, las páginas huérfanas no reciben mucho de la distribución equitativa de enlaces internos, por lo que si estás creando una página que esperas ver bien posicionada orgánicamente en Google, es importante que no sea huérfana tanto por razones de detectabilidad como de autoridad.

¿Cómo encuentro páginas huérfanas?

Tendrás que comparar dos conjuntos de datos de URL para encontrar páginas huérfanas.

  • Conjunto de datos de URL 1: Todas las URLs de páginas creadas para tu sitio web.
    • Usando archivos de registro (logs)
    • Usando WordPress
  • Conjunto de datos de URL 2: todas las URL de página que se pueden rastrear realmente.
    • Usando SEO Screaming Frog

La diferencia entre los dos conjuntos de datos de URL deberían mostrar todas las páginas huérfanas de tu sitio web.

Buscar todas tus páginas utilizando archivos de registro

La manera más fácil de obtener sus archivos de registro es iniciar sesión en cPanel y encontrar una opción llamada Raw Log Files o archivos log. Si aun así no puedes encontrarlo, es posible que tengas que ponerte en contacto con tu proveedor de hosting y pedirle que te proporcione los archivos de registro de tu sitio.

Los registros de acceso sin procesar permiten ver cuáles fueron las visitas a tu página web sin mostrar gráfico o cuadros. Estos logs puede ser muy útiles cuando quieres ver rápidamente quién te visitó.

Los registros sin procesar sólo pueden contener datos de unas pocas horas porque se descartan después de que el sistema los procesa. Sin embargo, si se activa el archivo, el sistema archiva los datos de log brutos antes de que el sistema los descarte. Así que adelante, ¡asegúrate de que estás archivándolos!

Una vez que tengas tu archivo de registro listo, ahora tenemos que recopilar el otro conjunto de datos de páginas que puede ser rastreado por Google, utilizando Screaming Frog.

Alternativamente, puedes hacerlo como sigue:

Encuentra todas tus páginas en WordPress

Un plugin muy útil de WordPress, llamado Export All URLs, puede ayudarte a exportar todas las páginas, entradas y todos los tipos de entradas personalizadas. Al exportar todas estas páginas desde WordPress podrás comparar y contrastar con una lista de las páginas que se encontraron cuando rastreaste tu sitio. Si hay algún valor atípico, habrás descubierto páginas que no fueron encontradas en un rastreo del sitio.

Desde aquí puedes evaluar si hay páginas que deberían formar parte de tu sitio e incorporarlas de nuevo, simplemente enlazando a tu página huérfana desde una página que sabes que ha sido rastreada y es accesible por un bot.

Haz una copia de seguridad de tu base de datos antes de instalar y activar cualquier plugin.

  • Instala y activa el plugin Export All URLs.
  • Selecciona todos los tipos (páginas, entradas y entradas personalizadas)
  • Seleccione todos los datos adicionales (URL, Títulos, Categorías)
  • Post status: Publicado
  • Tipo de Exportación:.csv

Una vez que tengas todas tus páginas de WordPress, ahora tenemos que recopilar el otro conjunto de URLs que se pueden encontrar cuando se rastrea, utilizando Screaming Frog SEO Spider.

Rastrear páginas con Screaming Frog SEO Spider

Screaming Frog es una herramienta fantástica y una de mis favoritas. Usando Screaming Frog SEO Spider, es posible rastrear nuestro sitio web como lo haría Googlebot, y exportar una lista de todas las URLs que se encontraron.

  1. Una vez que tengas preparado Screaming Frog, primero asegúrate de que tu método de rastreo sea el predefinido ‘Spider’ (Menú Mode: Spider)
  2. A continuación, asegúrate de que en Configuración > Spider, ‘Comprobar Enlaces Externos’ (Check External Links) está desactivado, para evitar el rastreo innecesario de sitios externos.
  3. Ahora puedes escribir la URL de tu sitio web y hacer clic en Start.
  4. Una vez que el rastreo se ha completado, sencillamente:
    1. Desplázate a la pestaña Internal.
    2. Filtrar por HTML.
    3. Haz clic en Exportar.
    4. Guárdalo en formato .csv.

Descubriendo Páginas Huérfanas

Ahora tenemos que tener nuestros dos conjuntos de datos de URL, ambos en formato .csv:

  • Todas las URLs de las páginas creadas para tu sitio web a partir de archivos de registro o WordPress.
  • Todas las URLs de las páginas que se pueden rastrear desde Screaming Frog.

Ahora lo que tenemos que hacer es comparar los datos de las URLs de los dos archivos .csv, y encontrar las URLs que no eran rastreables.

Descubrir páginas huérfanas para WordPress utilizando hojas de cálculo

Si recopilaste tus datos de WordPress puedes usar una hoja de cálculo para encontrar las discrepancias:

  • Abre una nueva hoja de cálculo en Microsoft Excel, Google Sheets o la herramienta de hoja de cálculo que prefieras.
  • Coloca todas las URLs del .csv de WordPress en la columna A.
  • Coloca todas las URLs del .csv de Screaming Frog en la columna B.

Si hay alguna página huérfana, te darás cuenta de que una columna (probablemente la columna A) contiene más URLs.

A continuación, eliminamos todos los valores duplicados de las columnas A y B:

Descubrir páginas huérfanas con Screaming Frog Log File Analyser

Si decidiste analizar un archivo de registros en lugar de lo explicado anteriormente, puedes usar Screaming Frog SEO Log File Analyser para cazar tus páginas huérfanas.

El programa es muy fácil de usar y como se puede ver en la imagen de abajo, tiene la capacidad de importar los dos conjuntos de datos que necesitamos analizar. Referido aquí simplemente como Archivo de Registro y Datos URL (este sería nuestro Screaming Frog SEO Spider .csv).

  1. Importar archivo  log.
  2. Importar datos URL (Screaming Frog SEO Spider)
  3. Desplázate a la pestaña URLs:
    1. Cambia la vista a “Not in URL Data”. Esto te mostrará todas las URLs que se encontraron el archivo log, pero no en los datos rastreados.

Qué hacer cuando encuentras páginas huérfanas

Cuando tengas tu listado de páginas huérfanas, lo que tienes que hacer es determinar el valor que tiene cada página huérfana:

Si quieres conservar una página, ¡adóptala!

  • Enlaza internamente a tu página huérfana desde una página que sepas que ya es accesible para usuarios y bots. Piensa en tus usuarios; dónde encajaría esta página huérfana naturalmente y proporcionaría valor a tu usuario.
  • Asegúrate de que tu nueva página se añada tanto a tu sitemap HTML como a tu sitemap XML.

Si no quieres mantener una página, ¡quítala y redirige a 301!

  • Si una página huérfana tiene muy poco contenido, contenido duplicado o ningún valor, puedes eliminarla por completo.

Nota: Recuerda que debes proporcionar un redireccionamiento 301 para la URL huérfana desde esta página a la siguiente página más relevante, ya que es posible que sea accesible desde una fuente externa.

Si quieres mantener una página huérfana, entonces no la indexes!

  • Es posible que tenga páginas que no quieras que formen parte del plan del usuario. En este caso, querrás asegurarte de que tu página tenga definida una metaetiqueta de noindex.

Verificación

Una vez que hayas elegido e implementado una de las tres opciones anteriores para cada una de tus páginas huérfanas, deberás repasar todo el proceso de nuevo. Esta vez, al comparar los dos conjuntos de datos de URL, deberías asegurarte de que todas tus páginas externas contengan una metaetiqueta noindex. Si todavía tiene páginas sin esta directiva, escoge una opción de arriba, hasta que todas sus páginas tengan un nuevo hogar.

Por último, querrás asegurarte de que todo el esfuerzo de tu trabajo se encuentre en el radar de Google.

Nota: Si estás usando el plugin Yoast SEO para gestionar tu Sitemap XML, tus nuevas páginas adoptadas deberían incluirse automáticamente y los siguientes pasos no deberían ser necesarios. Ahora bien, si aún no tienes configurada Google Search Console para tu sitio WordPress, Yoast te facilita algunas instrucciones precisas para conseguirlo cuando utilices su plugin.

Para los que no usen el plugin Yoast SEO, abrir Screaming Frog SEO Spider una vez más, para poder rastrear el sitio web de nuevo, y crear un nuevo y reluciente mapa de sitio XML.

  1. Escribe la URL de tu sitio web y haz clic en Inicio. Una vez que el rastreo alcance el 100%, elige sitemaps en el menú y luego Crea un sitemap XML.
  2. Se abrirá una serie de ajustes de configuración del sitemap. Como los ajustes predeterminados de exportación de mapas de sitio XML son los correctos, y sólo incluyen páginas HTML incluidas en la pestaña “interna” con una respuesta OK de 200 desde el rastreo, puedes seguir adelante y hacer clic en Siguiente.
  3. Una vez guardado y descargado el Sitemap XML, puedes enviarlo a Google Search Console. Esto le ayudará a realizar un seguimiento de la indexación de tus páginas y es una forma muy directa de informar a Google de que tienes páginas que deseas indexar. ¡Eso es todo!

En resumen: adopta no bloquees

Googlebot rastrea las páginas de nuestros sitios mediante enlaces internos que hemos creado. Recuerda siempre que si un usuario no puede acceder a él, es probable que Google tampoco pueda. Auditar páginas huérfanas puede ayudarte a descubrir páginas valiosas, e incluso a evitar la penalización.

Piensa en tu sitio web como un árbol. Puede ser fácil suponer que todas las páginas son accesibles, pero si cortas una rama, puedes encontrar que has quitado más ramificaciones de las que piensas. Así que cuando tu sitio web esté sufriendo algún tipo de cambio en su arquitectura, asegúrate de auditar las páginas huérfanas. Adopta, no bloquees.

Artículos de interés

Si te ha gustado comparte en:

Enviar comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.