GoogleHerramientas de Internet

Prevenir el indexado de páginas seguras en los motores de búsqueda

Prevenir el indexado de páginas seguras en los motores de búsqueda

Revisando las páginas de mi sitio indexadas en Google me encontré con que existía un problema, el motor indexaba muchas (la mayoría) de las páginas dos veces, una con el protocolo normal HTTP y otra con el de páginas seguras HTTPS. Esto supone un problema serio, ya que para Google es una duplicación de contenidos. Además, si alguno intenta acceder desde el buscador a una de las páginas con URL indicando que es HTTPS, se le llevará a una pantalla, dependiendo del navegador, en la que se muestra un mensaje de advertencia sobre un peligro potencial.

He buscado la forma de evitar esta doble indexación y, después de algunas pruebas y comprobaciones en mi servidor, me he decidido por adoptar la solución más fiable. He hecho lo siguiente:

Creé un nuevo archivo que llamé robots_https.txt, que subí al directorio raíz del servidor, con el siguiente contenido:

User-agent: Googlebot
Disallow: /

User-agent: *
Disallow: /

Modifiqué el archivo .htaccess para indicarle que cuando se produzca una solicitud https por parte del motor de búsqueda, sea dirigida al recién creado robots_https.txt. Este es el código que añadí:

RewriteEngine on
Options +FollowSymlinks
RewriteCond %{SERVER_PORT} ^443$
RewriteRule ^robots.txt$ robots_https.txt

Lo que hace este código es redirigir cualquier solicitud que se haga al puerto 443, utilizado por las conexiones seguras (SSL), al archivo robots_https.txt, que es el que impide la indexación. El archivo robots.txt sigue funcionando como hasta ahora, atendiendo a las conexiones normales, las que fluyen por el puerto 80.

Fabriciano González

Amante de la informática y de Internet entre otras muchas pasiones. Leo, descifro, interpreto, combino y escribo. Lo hago para seguir viviendo y disfrutando. Trato de dominar el tiempo para que no me esclavice.

5 Comentarios

  1. Hola Fabriciano, Yo tengo esto implantado pero me he dado cuenta que mi blog que está incrustado en mi web tiene las URL https y eso no lo puedo cambiar que yo sepa. Cómo podría hacer para que si se indexe la parte de https del blog?
    Muchas gracias
    Jaime

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.