viernes, octubre 20, 2006

Google y la Web Invisible

Copio y Pego de Ojobuscador

Buscando entre contenidos que son accesibles via formularios web
Inventado por Alon Y. Halevy, Jayant Madhavan, y David H. Ko
US Patent Application 20060230033
Publicado el 12 de Octubre de 2006
Entregado el 5 de Abril de 2006

Resumen

El presente invento provee de un sistema, que facilita la búsqueda en contenido que es accesible via formularios web. Durante este proceso, el sistema recibe una búsqueda conteniendo palabras claves. Seguidamente, el sistema analiza la búsqueda para crear un una búsqueda estructurada. El sistema luego ejecuta una búsqueda basandose en la búsqueda estructurada en una base de datos que contiene entradas, que describen los formularios. A continuación, el sistema ordena los formularios y utliza los rankings y las entradas de la base de datos asociada, para facilitar la búsqueda en el contenido que es accesible via formularios.

Mi impulso para leer la patente, fue considerar que razones existen para que muchos sitios oculten información, para la cual se necesita acceso con clave, y fui tan lejos que me he preguntado si Googlebot podría registrarse en esos sitios con el nombre de Goglebot; preguntas que surgieron de este extracto:

Los buscadores traducionales no tienen la capacidad de buscar entre datos que estan ocultos tras formularios web. Como consecuencia, un gran tamaño de datos posiblemente no pueda ser accedido por los buscadores tradicionales.

Lo que se necesita es un método y un aparato que facilite la búsqueda eficiente en información que está oculta trás formularios web.

Descripción general

Algunas de las cosas que he observado de la patente:

1. Cómo se encuentran los formularios que pueden ser indexados, incluyendo How forms are found on the web that can be indexed, incluyend crawling, submisión manual y otros métodos posibles.

2. Qué tipo de información es coleccionada e indexada sobre las páginas en las que se encuentra formularios.

3. Cómo se colecta información sobre el contenido de los formularios, incluyendo cuando se usa declaraciones “get”; y completando formualrios para extraer luego la información que resulta de esos formularios.

4. Recolección de meta-datos sobre la fuente del formulario, tales como el tipo de fuente, la “ubicación geográfica más relevante a la fuente” y quizá un pagerank para la fuente.

5. Recolección de meta-datos sobre el formulario mismo, como el tipo de formulario, ubicación geográfica más relevante de los objetos recuperados, campos, que campos requieren ser rellenados obligatoriamente, y posiblemente un mapeo entre los campos y clases de propiedades asociacos a esos campos.

6. Cómo rankear un formulario, incluyendo:

-aproximando un valor de page-rank basado en los enlaces entrantes de la página del formulario,
-valores de las palabras claves, basados en la relevancia del texto de la página
-un valor ontológico, basado en la relevancia de la clase ontológica de la búsqueda, para una búsqueda asociada con la página,
-un valor para el formulario, basado en la habilidad del formulario para responder a una búsqueda, y/o;
-un valor para la ubicación, basado en la distancia entre la ubicación más relevante para la página asociada con el formulario, desde ubicaciones identificadas en la búsqueda.

Tipos de información recolectadas sobre los formularios

1. Campos en el formulario-para cada uno de los campos:

- el nombre del parámetro (usado para llamar algunos server-side scripts)
- el texto visible del campo que puede ser leido por el humano
- tipos de campos (text, select box, radio button, o checkbox), y;
- valores ejemplares del campo (ejemplo, opciones en un select box)

2. El tipo de formularo-Los tipos de objetos que se obtienen al completar el formulario, como libros, hoteles, restaurantes. Una fuente puede tener varios formularios, que pueden relacionarse con deferentes clases de objetos. Por ekemplo, los diarios a veces tienen formularios para mirar casas, trabajos y autos en venta.

3. Ubicación geográfica: la ubicación geográfica especifica de los objetos recupersdos utilizando el formulario. Un hote, l por ejemplo, puede estar asociado a una dirección.

4. Campos obligatorios: qué campos son obligatorios para submitir el formulario. Puede exisitir más de una combinación.

5. Los tipos de informaciones obtenidos luego de completar el formulario exitosamente. Son descriptos como “Search Ontology” (búsqueda ontológica).

6. Schema mapping: el mapeto entre campos de un formulario y la búsqueda ontológica. Por ejemplo, un campo podría requerir el código postal, o la ciudad o estado.

7. Palabras clave adicionales: pueden ser palabras adicionales que describem el formulario.

Conclusión

Hay un núnmero de estrategias usadas en este documento para entregarle resultados a un usuario que busca en una gran base de datos. En general, estas estrategias intentan entender la fuente de la información, los formularios utilizados y cómo funcionan, información asociada con cada campo de cada formulario, contenido que puede ser recuperado ejecutando los formularios, cómo rankear la información que devuelve el formulario, y la ubicación asociada con la información, de ser necesario.

Si tienes interés en como se puede indexar la “web invisible”, esta patente muestra algunas estrategias para lograr ese objetivo. El coinventor, Dr. Halevy, describe en un paper que ha escrito llamado “Why Your Data Won’t Mix”, algunos de los problemas que impiden indexar tal variedad de información, organizada en diferentes maneras, basadas en reglas de negocio que no anticipan la necesidad de indexar de los buscadores.

En dicho documento, describe algunas de las estrategias implementadas para crear exitosamente www.everyclassified.com, que agrega contenido de miles de fuentes diferentes y de más de 5 mil mapeos semánticos de formularios web, en categorias comúnes de anuncios clasificados. Su empresa, Transformic Inc., que fue adquirida por Google probablemente en Septiembre de 2005, fue la creadora de everyclassified.com.

Traducción autorizada por Bill Slawski para OJObuscador.
Versión original en inglés: Google Diving into Indexing the Deep Web

4 comentarios:

Anónimo dijo...

Buenas días Lara:

En Denodo Technologies hace tiempo que disponemos de tecnología para la extracción y estructuración de información a partir de la web oculta.

Te invito a que visites nuestra página web, donde podrás encotrar más información.

http://www.denodo.com/castellano/denodo_itpilot.html

Recibe un cordial saludo y enhorabuena por el blog. Muy interesante.

Anónimo dijo...

Buenas días Lara:

En Denodo Technologies hace tiempo que disponemos de tecnología para la extracción y estructuración de información a partir de la web oculta.

Te invito a que visites nuestra página web, donde podrás encotrar más información.

http://www.denodo.com/castellano/denodo_itpilot.html

Recibe un cordial saludo y enhorabuena por el blog. Muy interesante.

Manel Regueiro

Lara dijo...

Gracias por la información. Y me alegro que te guste mi blog.

Anónimo dijo...

Visita nuestra web, y conoce todo lo que te estas perdiendo en internet porque no sabes donde o como buscarlo. ¿Sabes que significa Web invisible o Internet invisible? ¿Por que no encuentras lo que buscas en Internet? ¿Piensas que si no esta en Google no existe? Existen diversos sistemas avanzados de recuperacion de informacion en internet, busqueda en bases de datos, directorios, metabuscadores, intranets, opacs y muchos mas lugares donde tu no puedes entrar desde el buscador. La informacion invisible para los motores de búsqueda contiene la mayoria de las webs de internet.
Ayudanos a mejorar y enlaza o visita nuestra página.
http://webinvisible.iespana.es/