Prevenir el indexado de páginas seguras en los motores de búsqueda
Revisando las páginas de mi sitio indexadas en Google me encontré con que existía un problema, el motor indexaba muchas (la mayoría) de las páginas dos veces, una con el protocolo normal HTTP y otra con el de páginas seguras HTTPS. Esto supone un problema serio, ya que para Google es una duplicación de contenidos. Además, si alguno intenta acceder desde el buscador a una de las páginas con URL indicando que es HTTPS, se le llevará a una pantalla, dependiendo del navegador, en la que se muestra un mensaje de advertencia sobre un peligro potencial.
He buscado la forma de evitar esta doble indexación y, después de algunas pruebas y comprobaciones en mi servidor, me he decidido por adoptar la solución más fiable. He hecho lo siguiente:
Creé un nuevo archivo que llamé robots_https.txt, que subí al directorio raíz del servidor, con el siguiente contenido:
User-agent: Googlebot Disallow: / User-agent: * Disallow: /
Modifiqué el archivo .htaccess para indicarle que cuando se produzca una solicitud https por parte del motor de búsqueda, sea dirigida al recién creado robots_https.txt. Este es el código que añadí:
RewriteEngine on Options +FollowSymlinks RewriteCond %{SERVER_PORT} ^443$ RewriteRule ^robots.txt$ robots_https.txt
Lo que hace este código es redirigir cualquier solicitud que se haga al puerto 443, utilizado por las conexiones seguras (SSL), al archivo robots_https.txt, que es el que impide la indexación. El archivo robots.txt sigue funcionando como hasta ahora, atendiendo a las conexiones normales, las que fluyen por el puerto 80.
Ok, entonces no debo preocuparme. Muchas gracias!!!!!
Si, es http://www.alqueso.es
El blog está en https://www.alqueso.es/es/blog
Muchas gracias
Jaime
En estos momentos tienes indexadas 58 páginas del blog. Puedes verlo escribiendo en Google site:www.alqueso.es/es/blog
Saludos.
Hola Fabriciano, Yo tengo esto implantado pero me he dado cuenta que mi blog que está incrustado en mi web tiene las URL https y eso no lo puedo cambiar que yo sepa. Cómo podría hacer para que si se indexe la parte de https del blog?
Muchas gracias
Jaime
Si el blog se carga con el protocolo HTTPS, los motores de búsqueda tendrían que indexar las páginas sin problemas.
Para echarle un vistazo a tu sitio web, ¿nos puedes indicar su URL?
Saludos.