Interneteando: 2006-10-15

viernes, octubre 20, 2006

Google y la Web Invisible

Copio y Pego de Ojobuscador

Buscando entre contenidos que son accesibles via formularios web
Inventado por Alon Y. Halevy, Jayant Madhavan, y David H. Ko
US Patent Application 20060230033
Publicado el 12 de Octubre de 2006
Entregado el 5 de Abril de 2006

Resumen

El presente invento provee de un sistema, que facilita la búsqueda en contenido que es accesible via formularios web. Durante este proceso, el sistema recibe una búsqueda conteniendo palabras claves. Seguidamente, el sistema analiza la búsqueda para crear un una búsqueda estructurada. El sistema luego ejecuta una búsqueda basandose en la búsqueda estructurada en una base de datos que contiene entradas, que describen los formularios. A continuación, el sistema ordena los formularios y utliza los rankings y las entradas de la base de datos asociada, para facilitar la búsqueda en el contenido que es accesible via formularios.

Mi impulso para leer la patente, fue considerar que razones existen para que muchos sitios oculten información, para la cual se necesita acceso con clave, y fui tan lejos que me he preguntado si Googlebot podría registrarse en esos sitios con el nombre de Goglebot; preguntas que surgieron de este extracto:

Los buscadores traducionales no tienen la capacidad de buscar entre datos que estan ocultos tras formularios web. Como consecuencia, un gran tamaño de datos posiblemente no pueda ser accedido por los buscadores tradicionales.

Lo que se necesita es un método y un aparato que facilite la búsqueda eficiente en información que está oculta trás formularios web.

Descripción general

Algunas de las cosas que he observado de la patente:

1. Cómo se encuentran los formularios que pueden ser indexados, incluyendo How forms are found on the web that can be indexed, incluyend crawling, submisión manual y otros métodos posibles.

2. Qué tipo de información es coleccionada e indexada sobre las páginas en las que se encuentra formularios.

3. Cómo se colecta información sobre el contenido de los formularios, incluyendo cuando se usa declaraciones “get”; y completando formualrios para extraer luego la información que resulta de esos formularios.

4. Recolección de meta-datos sobre la fuente del formulario, tales como el tipo de fuente, la “ubicación geográfica más relevante a la fuente” y quizá un pagerank para la fuente.

5. Recolección de meta-datos sobre el formulario mismo, como el tipo de formulario, ubicación geográfica más relevante de los objetos recuperados, campos, que campos requieren ser rellenados obligatoriamente, y posiblemente un mapeo entre los campos y clases de propiedades asociacos a esos campos.

6. Cómo rankear un formulario, incluyendo:

-aproximando un valor de page-rank basado en los enlaces entrantes de la página del formulario,
-valores de las palabras claves, basados en la relevancia del texto de la página
-un valor ontológico, basado en la relevancia de la clase ontológica de la búsqueda, para una búsqueda asociada con la página,
-un valor para el formulario, basado en la habilidad del formulario para responder a una búsqueda, y/o;
-un valor para la ubicación, basado en la distancia entre la ubicación más relevante para la página asociada con el formulario, desde ubicaciones identificadas en la búsqueda.

Tipos de información recolectadas sobre los formularios

1. Campos en el formulario-para cada uno de los campos:

- el nombre del parámetro (usado para llamar algunos server-side scripts)
- el texto visible del campo que puede ser leido por el humano
- tipos de campos (text, select box, radio button, o checkbox), y;
- valores ejemplares del campo (ejemplo, opciones en un select box)

2. El tipo de formularo-Los tipos de objetos que se obtienen al completar el formulario, como libros, hoteles, restaurantes. Una fuente puede tener varios formularios, que pueden relacionarse con deferentes clases de objetos. Por ekemplo, los diarios a veces tienen formularios para mirar casas, trabajos y autos en venta.

3. Ubicación geográfica: la ubicación geográfica especifica de los objetos recupersdos utilizando el formulario. Un hote, l por ejemplo, puede estar asociado a una dirección.

4. Campos obligatorios: qué campos son obligatorios para submitir el formulario. Puede exisitir más de una combinación.

5. Los tipos de informaciones obtenidos luego de completar el formulario exitosamente. Son descriptos como “Search Ontology” (búsqueda ontológica).

6. Schema mapping: el mapeto entre campos de un formulario y la búsqueda ontológica. Por ejemplo, un campo podría requerir el código postal, o la ciudad o estado.

7. Palabras clave adicionales: pueden ser palabras adicionales que describem el formulario.

Conclusión

Hay un núnmero de estrategias usadas en este documento para entregarle resultados a un usuario que busca en una gran base de datos. En general, estas estrategias intentan entender la fuente de la información, los formularios utilizados y cómo funcionan, información asociada con cada campo de cada formulario, contenido que puede ser recuperado ejecutando los formularios, cómo rankear la información que devuelve el formulario, y la ubicación asociada con la información, de ser necesario.

Si tienes interés en como se puede indexar la “web invisible”, esta patente muestra algunas estrategias para lograr ese objetivo. El coinventor, Dr. Halevy, describe en un paper que ha escrito llamado “Why Your Data Won’t Mix”, algunos de los problemas que impiden indexar tal variedad de información, organizada en diferentes maneras, basadas en reglas de negocio que no anticipan la necesidad de indexar de los buscadores.

En dicho documento, describe algunas de las estrategias implementadas para crear exitosamente www.everyclassified.com, que agrega contenido de miles de fuentes diferentes y de más de 5 mil mapeos semánticos de formularios web, en categorias comúnes de anuncios clasificados. Su empresa, Transformic Inc., que fue adquirida por Google probablemente en Septiembre de 2005, fue la creadora de everyclassified.com.

Traducción autorizada por Bill Slawski para OJObuscador.
Versión original en inglés: Google Diving into Indexing the Deep Web

jueves, octubre 19, 2006

Seminario: Vixiancia tecnolóxica - Intelixencia competitiva

Introducción á vixiancia tecnolóxica / intelixencia competitiva

23 de octubre - Lunes

16:15.- Presentación.
16:30.- Introducción á Vixiancia Tecnolóxica/Intelixencia Competitiva.
17:15.- Casos prácticos:
• O caso dos biomateriais.
• Identificación de oportunidades de negocio na acuicultura chilena.
• Identificación de oportunidades tecnolóxicas nos sectores do calzado, textil e xoguetesplástico.
18:15.- Pausa-café.
18:30.- Casos prácticos:
• Sistema aberto de vixiancia tecnolóxia para pymes
• Identificación de tendencias en I+D no sector eléctrico
• Monitorización de información relevante para o negocio en boletíns oficiais.
19:30.- Introducción ás tecnoloxías de aplicación no ámbito da Vixiancia
Tecnolóxica e de Mercado.
19:45.- Demostracións:
• Mathéo Analyzer
• Solucións de indexación e búsqueda
• Solucións de extracción e estructuración de información.

Imparten: Denodo Technologies e Iale

miércoles, octubre 18, 2006

La libreria de mis sueños

Despues de esto ya nada volverá a ser igual. Si es que somos unos aficionadillos.

Un amiga que anda por el cono sur (Chile, Argentina...) me envia estas dos fotos de una libreria en Buenos Aires. Mas bien diria yo "LA LIBRERIA"....

El Ateneo, Buenos Aires

martes, octubre 17, 2006

Como redactar una patente

La verdad es que no hay mucha información sobre el tema asi que os dejo este enlace por si os interesa:

Thinking about writing a patent application?

Comentar tambien que la Oficina de Patentes Inglesa ha cambiado la Web. Es más rápida y de más facil acceso que la anterior....

The UK Patent Office

Interneteando