jueves, marzo 05, 2009

curso "Vigilancia Tecnológica y Buscadores Web"

El Instituto de Educación Contínua de la Universitat Pompeu Fabra de Barcelona ofrece el curso "Vigilancia Tecnológica y Buscadores Web", que tendrá lugar entre el 12 de marzo y el 8 de abril de forma online.
Este curso forma parte de la programación del Máster Online en Documentación Digital y puede realizarse de forma independiente al máster.
Curso: "Vigilancia Tecnológica y Buscadores Web"
Temario: Vigilancia tecnológica e inteligencia competitiva para SEM-SEO
Metabuscadores y multibuscadores
Buscadores especializados: visión panorámica
Buscadores de notícias
Evaluación de documentos digitales
Sindicación de contenidos: RSS y ATOM
Minería de datos
Búsqueda de patentes
Internet Invisible
Agentes de búsqueda
Monitorización
Servicios de Alerta
Entrevista y debate con Juan Carlos Vergara (Centro de Vigilancia, Normas y Patentes) Profesores: Cristòfol Rovira, Lluís Codina, Mari-Carmen Marcos y Rafael Pedraza
Fechas: Del 12 de marzo al 8 de abril (equivale a 10 créditos ECTS) Precio: 780 euros Información e inscripción: http://www.masterenbuscadores.com/prein.htm

martes, marzo 03, 2009

Herramientas de búsqueda

1. Acceso a información de alta calidad (Internet Invisible)
El número de aplicaciones y herramientas comerciales con capacidad de acceso en la Internet más profunda se ha multiplicado en los años recientes. Son herramientas de carácter gratuito, que recuperan información de calidad, y que ofrecen funcionalidades de mayor valor añadido para el trabajo profesional.
· Google patent permite el acceso a la colección de patentes
de los Estados Unidos
· Google scholar permite el acceso a publicaciones científicas de la
base de datos Medline.
· Google Book permite acceso a una gran colección de libros a nivel
mundial, previo acuerdo con casas editoras y autores.
· Clusty permite el acceso a información de Internet libre e Internet profunda
(patentes, publicaciones…)
· Scirus base de datos de publicaciones científicas, que da acceso a referencias científicas de varios proveedores de información (science direct, medline, ingenta connect,pubmed…)

2. Búsqueda en lenguaje natural
Se realizan muchos esfuerzos por grandes casas de la búsqueda en Internet, como Google, MSN por introducir la búsqueda en lenguaje natural en sus buscadores, pero estos esfuerzos todavía no tienen resultados visibles en el mercado
Aplicaciones relacionadas con la búsqueda en lenguaje natural:
· MSN Encarta , selección de artículos y elementos multimedia de
la enciclopedia Encarta, con buscador limitado en lenguaje natural.
· Google Answers esfuerzo fallido en el desarrollo de un buscador en lenguaje natural
· Gate , una conocida aplicación para ingeniería lingüística diseñada en la universidad de Sheffield
· TACSY , permite la búsqueda en lenguaje natural en la Clasificación Internacional de Patentes
· …
En España, una herramienta profesional destacada es Naveganza, buscador de tercera generación desarrollado por ISOCO (semántica) y Bitext (PLN) basado en la comprensión de los usuarios y los documentos aplicando Tecnología Semántica y de Lenguaje Natural, un paso importante hacia la Gestión Inteligente de Contenidos. Naveganza facilita la interacción de las personas con la inmensa cantidad de información no estructurada en un entorno profesional, y su segunda versión tiene mayor capacidad de comprensión, al incorporar todas las tecnologías de la lengua y semánticas. La meta es que en un futuro próximo se conviertan en asistentes
virtuales.
Bitext, pionera en la búsqueda basada en tecnología de lenguaje natural, suministra cuatro módulos que se integran en distintas soluciones: Natural Finder (buscadores), Natural Mail(correo electrónico), Natural GIS (sistemas de información geográfica) y Natural Asistant (atención al cliente). Estos productos se han aplicado a entidades de la administración pública fundamentalmente

3. Clasificación y categorización automática de resultados
La agrupación de los resultados de una búsqueda desde el punto de vista documental, tiene como soporte técnico la minería de texto y el análisis semántica. La clasificación automática de los resultados de la búsqueda inicia la cuenta atrás de los actuales directorios e índices, con indización manual, baja exhautividad y actualización de los contenidos.
Entre las aplicaciones destacadas en este sentido están:
· Clusty que ofrece junto con los resultados de la búsqueda, la agrupación o
clusterización de estos con un alto nivel de pertinencia.
· Kartoo , parecida a Clusty, pero con visualización gráfica de los resultados clisterizados
4. Soporte durante la búsqueda: filtros, tesauros, índices…
El ruido o el silencio documental son dos problemas asociados a los buscadores, principalmente a los genéricos. El uso de términos generales en la formulación puede devolver un elevado volumen de respuesta (ruido documental), o por el contrario, la incapacidad de los motores puede generar una ausencia de respuestas sobre un tema determinado (silencio documental).
Para dar respuesta a estos problemas, los buscadores ofrecen soporte a los usuarios, cuando se realiza una búsqueda, a través de filtros (herramientas de Internet), y de tesauros e índices (bases de datos especializadas).
Ejemplo de herramientas que ofrecen estas ayudas:
· Altavista , Internet libre
· Scirus , Internet Profunda
Otras demandas de búsqueda son las siguientes:
· Identificación de patrones de comportamiento en grandes volúmenes de información,
· Traducción automática durante la búsqueda (palabras de búsqueda y resultados),
· Visualización gráfica de los resultados,
· Búsqueda en formato multimedia: uso de imágenes, formulaciones (matemáticas, físicas, circuitos electrónicos, médicas…),

Fuente:"La inteligencia Competitiva: factor clave para la toma de decisiones estratégicas en las organizaciones, página 165".

Principales tendencias en las herramientas de vigilancia e inteligencia


Fuente:"La inteligencia Competitiva: factor clave para la toma de decisiones estratégicas en las organizaciones". página 160

************************
Se dice que el tamaño del espacio “Internet Profunda” es 500 veces mayor que Internet Libre, o
sea, unos 7.500 terabyte o 550 x 109 documentos. Es evidente que en los últimos años todas las empresas desarrolladoras de herramientas de búsqueda en Internet estén interesadas en acceder y explotar esta información.
Existen varias razones por las cuales los motores no acceden a esta parte de la web:
· Documentos o bases de datos demasiado voluminosos para que puedan indexarse completamente, además los motores no indexan el contenido total de una página cuando ésta es muy voluminosa.
· Páginas protegidas por su autor, mediante un archivo robot.txt que impide el acceso a los robots de los motores, solo acceden los usuarios que disponen de la dirección.
· Páginas que se generan dinámicamente, por ejemplo, a consecuencia de una solicitud, no existe una dirección URL estática, y los motores de búsqueda no la pueden indexar.
· Páginas están protegidas por un identificador login y una contraseña.
· Los motores de búsqueda no reconocen el formato de los documentos, antes del año 2001 los motores indexaban sólo los documentos en formato html. A partir de este año Google indexa PDF, Word, Excel y PowerPoint, y a partir del 2002 AlltheWeb indexa el formato Flash.
· Páginas no enlazadas, invisibles para los motores genéricos.
Para tener una idea de la magnitud de la información que existe en Internet en general, se cree que si toda la información depositada en las Intranets, mas las páginas web generadas por las bases de datos estuvieran incluidas junto con la Internet libre, el volumen alcanzaría los 550 billones de documentos y el 95% sería accesible públicamente. Página 161

lunes, marzo 02, 2009

Tema del mes de marzo en la SEDIC: La Vigilancia Tecnologica

La vigilancia tecnológica en el sector de la Documentación

Desde SEDIC se ha prestado una atención relativa a la vigilancia tecnológica. No se han realizado jornadas ni seminarios, tan sólo algunos cursos que se han impartido en 2007, 2005 y 2004.

Por ello os proponemos como tema del mes de marzo abordar la vigilancia tecnológica en sus diferentes aspectos. ¿Sigue siendo un sector de especialización con demanda en las organizaciones? ¿Están preparados los documentalistas para asumir este rol? ¿Cómo están evolucionando las fuentes de información que se tienen en cuenta preferentemente en los procesos de captación de tendencias?

El blog está abierto a todas las contribuciones que nos queráis hacer llegar sobre esta cuestión, análisis o experiencias.

*************************

Estaré muy pendiente a todo lo que se publique sobre el tema. Pero por lo que yo puedo intuir desde hace ya unos cuantos años, éste es un tema minoritario que no levanta muchas pasiones. Los documentalistas no acaban de verse en las empresas y las empresas no acaban de encajar a los documentalistas en sus plantillas. Prácticamente todas las referencias que hay sobre la VT son de centros públicos...tanto como "hacedores" de VT como de impulsores en las Pymes de esta materia. Espero con ansia las colaboraciones de los socios de la SEDIC para poder ver que opina la comunidad sobre este tema....