martes, marzo 03, 2009

Principales tendencias en las herramientas de vigilancia e inteligencia


Fuente:"La inteligencia Competitiva: factor clave para la toma de decisiones estratégicas en las organizaciones". página 160

************************
Se dice que el tamaño del espacio “Internet Profunda” es 500 veces mayor que Internet Libre, o
sea, unos 7.500 terabyte o 550 x 109 documentos. Es evidente que en los últimos años todas las empresas desarrolladoras de herramientas de búsqueda en Internet estén interesadas en acceder y explotar esta información.
Existen varias razones por las cuales los motores no acceden a esta parte de la web:
· Documentos o bases de datos demasiado voluminosos para que puedan indexarse completamente, además los motores no indexan el contenido total de una página cuando ésta es muy voluminosa.
· Páginas protegidas por su autor, mediante un archivo robot.txt que impide el acceso a los robots de los motores, solo acceden los usuarios que disponen de la dirección.
· Páginas que se generan dinámicamente, por ejemplo, a consecuencia de una solicitud, no existe una dirección URL estática, y los motores de búsqueda no la pueden indexar.
· Páginas están protegidas por un identificador login y una contraseña.
· Los motores de búsqueda no reconocen el formato de los documentos, antes del año 2001 los motores indexaban sólo los documentos en formato html. A partir de este año Google indexa PDF, Word, Excel y PowerPoint, y a partir del 2002 AlltheWeb indexa el formato Flash.
· Páginas no enlazadas, invisibles para los motores genéricos.
Para tener una idea de la magnitud de la información que existe en Internet en general, se cree que si toda la información depositada en las Intranets, mas las páginas web generadas por las bases de datos estuvieran incluidas junto con la Internet libre, el volumen alcanzaría los 550 billones de documentos y el 95% sería accesible públicamente. Página 161