El blog de Telepieza tiene muy pocos meses de vida en el mundo de internet, pero los spiders ya han empezado su función de absorber toda la documentación necesaria para alimentar sus Bases de Datos.
Los Spider los podemos clasificar en 3 grandes grupos :
- Spider para alimentar a los buscadores (Google, Yahoo, Msn, Alexa ……)
- Spider para alimentar a los blog de la Globosfera
- Spider para alimentar sus propias Bases de Datos y hacer daño enviando Spammer
Pero mejor es ver el resultado estadístico (Imagen Abajo) de uno de los plugins más populares del wordpress llamado wp-statpress
……………………………………………………….
La información presentada en sus estadísticas sobre los Spiders es de gran importancia. Podemos saber de los spiders quién nos está visitando y su frecuencia de visita.
En la imagen he colocado dos spiders maliciosos con una flecha, uno de ellos se llama Indy Library, su función es recoger todos los posts del blog para llenarlos de comentarios spammer o basura.
El segundo Spider con una flecha se llama radian6, dicho spiders es muy curioso, lee todos los post que según ellos tienen nombres de empresa para después controlar si hablas bien de ellos. Un ejemplo puede ser la marca Panasonic, si hablas en el blog sobre dicha marca, dentro de pocos días o semanas te encontraras con el spider Radian6.
Pero Radian6 es mucho más y he escrito un post sólo para él, porque se lo merece y la entrada es :
Las Empresas pagan para saber quien habla de sus marcas y productos.
Los demás Spiders de la imagen se catalogan cómo amigos, buscan nuestra información del blog para darnos clientes y a su vez alimentar sus Bases de Datos sin perjudicarnos.
Pero os tengo que dar una mala noticia, existen más Spiders malos que buenos y se han catalogado en más de 3.000 arañas malignas para hacernos la puñeta a todos nosotros en nuestro blog.
El fichero robots.txt una de sus funciones es prohibir el acceso de todos esos Spiders malos a nuestro Weblog, pero si tengo que describir todos sus nombres, me puedo quedar solo en el intento, mejor es lincar mi robots.txt y vosotros copiar y pegar en vuestro robots.txt de vuestra dirección del dominio. Les informo de la ubicación del fichero robots.txt es en la raíz de vuestro dominio, en mí caso es en http://www.telepieza.com.
El Spiders Radian6 no lo tengo en el robots.txt por ser el primero en entrar al blog, y por ese motivo le tengo aprecio.
El Spiders Indy Library es todo lo contrario, en tan sólo 10 minutos me realizó más de 600 accesos y gracias a él, me preocupe para colocar todos los spiders maliciosos posibles en mi robots.txt. Para más información sobre los robots.txt, ir a la página : http://www.robotstxt.org/wc/robots.html
Una vez cumplimentado el robots.txt de la página website del blog, tienes que comprobar la sintaxis de todas sus instrucciones y para ellos existen varias páginas web :
- Si tienes cuenta en google o quieres saber más sobre los robots : google support webmasters
- Si quieres acceder de forma rápida : Robots.txt Checker
- Otro acceso para comprobar la sintaxis de los robots.txt
Pero sólo he ganado algunas batallas, soy consciente de perder la guerra y entrarán en mi blog, pero me divierto como un niño pequeño viendo por ahora que no pueden entrar en mi fortaleza.
Saludos de Telepieza.