PRINCIPIOS DE INVESTIGACION EN MEDICINA Y CIRUGIA

INTERNET. ACCESO A BASES DE DATOS

Bienio 2001-2003

logo HGY Universidad de Valladolid fundacion BIS

Qué es Internet y qué recursos nos ofrece?

Cuando hablamos de Internet, a todos nos viene a la mente la posibilidad de acceder a documentos, sonido, vídeo y todo tipo de información a través de nuestro ordenador. De hecho mucha gente identifica el concepto de World Wide Web (literalmente "red que abarca todo el mundo") y sus ya familiares siglas 'www' con Internet. Aunque, como ya explicaremos en otro momento, Internet es mucho más que la Web, por ser ésta su aplicación más conocida y difundida, es un buen punto de comienzo para adentrarnos en el apasionante mundo de las redes de información.

Internet es básicamente una gran red de ordenadores comunicados entre sí. Esta red comenzó a surgir (como su antecesor, ARPANET) a finales de los años 60, por iniciativa del Departamento de Defensa de los Estados Unidos. Afortunadamente Internet ha seguido un desarrollo más "pacífico" y se convirtió rápidamente en un medio de comunicación muy eficaz entre investigadores y científicos de todo tipo. Sin embargo, las herramientas de comunicación existentes en esos momentos obligaban a los usuarios a tener un nivel alto de conocimientos informáticos para poder usar la red como medio de transmitir y recibir información.

Además, el acceso a los ordenadores no era tan fácil como lo es actualmente. Poca gente tenía un ordenador disponible en su casa, y menos conectado a Internet, y solo en grandes empresas o centros de investigación se podía acceder. Sin embargo, ocurrieron dos cosas fundamentales que han transformado nuestro mundo y lo van a seguir haciendo todavía una temporada:

A partir de 1980, con la llegada de los ordenadores personales, el abaratamiento del hardware y el despegue tecnológico (que ha permitido que nuestros ordenadores domésticos de hoy sean cientos de veces más potentes que los que llevaron al hombre a la luna), el acceso a la red se iba convirtiendo en una realidad para cualquiera que tuviera suficiente interés en ello, por no demasiado dinero.

Y por fin, en marzo de 1989, Tim Berners-Lee, un físico que trabajaba en el CERN (Centro Europeo de Investigación Nuclear), inventó la Web, como un medio de compartir información (en forma de documentos) entre los miles de investigadores que trabajaban en los aceleradores de partículas de ese Centro.

Cómo funciona Internet?

La Web se basa en varios elementos fundamentales:

  1. Un sistema de comunicación entre ordenadores a través de una red, basado en el protocolo TCP/IP.
  2. Un protocolo de comunicación de alto nivel entre dos ordenadores, conocido como 'http' (hypertext transfer protocol), que permite transmitir páginas desde un ordenador que hace las veces de servidor a otro que hace de cliente, y 'saltar' desde el cliente de un servidor a otro.
  3. Un lenguaje (HTML, hypertext markup lenguage) que permite dar formato a un documento y añadirle enlaces a otros documentos, imágenes, sonido, etc.

Aunque es posible que la mayoría de los asistentes al curso hayan hecho ya sus pinitos en la Web o incluso sean unos expertos (cada día más gente se adentra en este universo de información), debemos indicar a los no iniciados qué nos hace falta para acceder a la Web.

En primer lugar es necesario un ordenador que esté conectado a la red. La conexión puede ser directa, o bien puede ser telefónica a través de un modem (mediante una llamada telefónica establecemos una comunicación entre nuestro ordenador y otro que está físicamente conectado a la red, y que se encarga de transmitir nuestras peticiones y recibir los resultados).

En segundo lugar necesitamos un programa en nuestro ordenador que sea capaz de "hablar en http" con otros ordenadores. Esto es lo que se conoce como un navegador o browser (hoy en día los navegadores hacen mucho más que esto). Los más conocidos y usados son Internet Explorer de Microsoft y Netscape Navigator, pero existen muchos otros.

Si ya tenemos abierta una conexión con la red, no tenemos más que abrir uno de estos programas y podremos acceder a los millones de páginas Web que existen disponibles hoy día en la World Wide Web. Bueno, ya estamos preparados para 'navegar', que es como se conoce la acción de ir pasando de una página a otra para buscar información.

Páginas, formularios, CGIs, paginas activas...

Como las personas, las páginas Web tienen una dirección para acceder a ellas, y no podremos encontrar lo que buscamos si no conocemos esta dirección. En este punto existen dos posibilidades: que sepamos la dirección a donde vamos, o que, desgraciadamente, la desconozcamos.

El primer caso lo trataremos ahora, el segundo será objeto de la segunda parte de este tema. Supongamos que conocemos la dirección de la página Web a la que queremos ir.

En este caso, como ejemplo, vamos a visitar una página que conozco bien (soy el administrador o webmaster): la dirección es http://www.uninet.edu/hci/index.html.

Primero desentrañemos los misterios escondidos detrás de todas estas 'letrujas'. Lo mejor para entender esto es ir por partes.

Tras teclear esta dirección en el navegador, se inicia el proceso de acceso al documento. En el momento en que recibimos el documento, la conexión 'se cierra', y el servidor ha terminado su trabajo.

Nosotros ya podemos ver la página, que en este caso es la página 'home' o principal de nuestro Grupo de Trabajo sobre Historia Clínica Informatizada, que vamos a estudiar un poco.

Podemos observar que al pasar el puntero del ratón por encima de algunas zonas del documento en pantalla, cambia de aspecto (normalmente aparece una mano con un dedo extendido). Además, si nos fijamos en ese momento en la barra de estado del navegador, que normalmente está en la zona inferior, aparece una dirección de una nueva página o un nuevo recurso Web.

Así, si ponemos el puntero sobre la palabra 'ENTRAR', aparecerá en la barra de estado 'http://www.uninet.edu/hci/portada.html', y si pulsamos con el ratón sobre la palabra el navegador nos ofrecerá la página de portada del Grupo de Trabajo.

Esto es lo que hace cómodo el navegar por Internet, ya que podemos ir pasando de una página a otra gracias a estos 'enlaces', que es como se conocen estas zonas de los documentos que nos permiten ir a otras páginas Web.

Podemos tener enlaces en imágenes (por ejemplo, en nuestra página hay un enlace en el logo de Uninet) o incluso ocultos, siendo visibles solo al pasar el puntero del ratón por la zona correspondiente.

La velocidad con la que se cargan las páginas depende de la calidad de nuestra conexión a Internet fundamentalmente, y puede ser que tengamos que esperar algún tiempo en aquellas páginas que tienen muchas imágenes, o si el servidor Web está en una zona lejana de la red (con lo que las páginas tienen que viajar a través de muchos ordenadores hasta llegar al nuestro) o está atendiendo simultáneamente a muchas peticiones de páginas, por ejemplo.

Las páginas Web están organizadas en sitios Web, y normalmente las páginas de un determinado sitio tienen una jerarquía en árbol que permite navegar fácilmente por el sitio, cuyo contenido está organizado en base a un tema, compañía, autor, institución, etc.

Así por ejemplo, nuestro sitio Web sería 'http://www.uninet.edu/hci', del que ya hemos visto la página principal, y podemos pasar de unas páginas a otras del sitio para ver información sobre distintos aspectos relacionados con la Historia Clínica Informatizada en Cuidados Intensivos.

Además de poder ver páginas, es posible también 'bajarnos' (descargar a través de la red) programas, imágenes, sonido y guardarlos en nuestro ordenador. Algunas páginas llevan incluso incorporados programas o nos permiten enviar datos al servidor y que este nos de una contestación (por ejemplo, para comprar algo a través de la red).

Debemos tener en cuenta que existen páginas estáticas, esto es, páginas que no varían en cada descarga, y otras (sobre todo cuando accedemos a ellas a través de un formulario) cuyo contenido es dinámico y depende de parámetros que incluimos en nuestra petición o de datos que van cambiando en el servidor (por ejemplo, una página meteorológica puede contener un mapa del tiempo que va cambiando).

También debemos tener en cuenta que existen páginas pasivas, esto es, que únicamente muestran su contenido pero no realizan ningún tipo de procesamiento en el servidor, y páginas activas, que incorporan programas que se ejecutan en el servidor (suelen ser applets Java, javascript, controles ActiveX, VBScript, etc). Debemos ser cuidadosos con estas páginas, pues pueden contener virus o modificar ficheros de nuestro ordenador. Normalmente el navegador nos advierte antes de cargar una página de este tipo.

A través de algunas páginas Web podemos conseguir que el servidor realice un procesamiento previo antes de mandarnos la página de respuesta. Por ejemplo, enviando los datos de un formulario podemos conseguir suscribirnos a una lista de distribución de correo sobre un tema que nos interesa. Para ello se utilizan tecnologías conocidas como CGI, JSP, ASP, PHP y otras. El servidor toma nuestros datos y realiza un procesamiento en su base de datos para incluirnos en la lista de distribución de correo.

Algunas páginas contienen 'cookies', que son pequeños ficheros que se almacenan en nuestro ordenador y permiten al servidor de páginas Web conocer datos o características del ordenador o las preferencias del usuario cuando volvemos a solicitarle nuevas páginas.

Como se puede imaginar, el hecho de que los datos viajen por múltiples ordenadores traen a colación una serie de aspectos relacionados con la seguridad que trataremos en otro momento, pero que van tomando cada vez más importancia a medida que Internet se va metiendo más y más en nuestras vidas.

Cómo buscar información en la Web?

Vale, todo esto está muy bien, pero ¿cómo localizo yo entre los millones de páginas Web que existen aquellas que me interesan en este momento?. Paradójicamente, el problema actual del Internauta no es la falta de información, sino todo lo contrario, su exceso.

Debemos saber cómo encontrar lo que buscamos y filtrar rápidamente aquellas páginas que no nos interesan. Para ello se han creado unos sitios Web especiales, conocidos como buscadores, portales, guías Web y muchos otros términos parecidos.

Vayamos a algunos de ellos para hacernos una idea de lo que estamos hablando: en primer lugar, un buscador (Google), en la dirección 'http://www.google.com' (existen cientos de buscadores, tomemos este como ejemplo pues está en castellano y es probablemente el más potente buscador genérico que existe en la actualidad). Vemos que existe la posibilidad de buscar páginas, imágenes, grupos o en directorios, de realizar búsquedas avanzadas, limitar la búsqueda a páginas en castellano, etc. Más adelante inicidiremos sobre el tema de las búsquedas.

Ahora veamos lo que se conoce como un portal: vayamos a 'http://www.terra.es'. Como puede verse en la página, un portal hoy en día es mucho más que un buscador: podemos encontrar tiendas electrónicas, publicidad, chat (charlas con varios usuarios a través de la red), correo electrónico, etc.

Pero por ahora vamos a concentrarnos en las búsquedas. Dada la gran cantidad de información que existe disponible en la Red de Redes, debemos utilizar una estrategia de búsqueda adecuada, a no ser que queramos pasar innumerables horas ante el ordenador filtrando información inútil. Un ejemplo nos ayudará. Usaremos de nuevo 'http://www.google.com'. En este momento no nos vamos a centrar en estrategias y herramientas de búsqueda aplicadas a la Medicina, porque son objeto de otra de las partes del curso y por tanto se estudiarán más adelante en profundidad. Supongamos que queremos encontrar un buscador específico sobre Medicina (por ejemplo, para poner un enlace en una página personal que estamos creando).

En la página del buscador hay un recuadro donde podemos introducir una palabras relacionadas con lo que estamos buscando, y un botón para lanzar la búsqueda.

Tecleemos por ejemplo 'buscador medicina' y pulsemos el botón con el puntero del ratón, después de haber indicado que queremos la búsqueda en la Web, no solo en las páginas españolas.

Una vez hecho esto, a mí me aparecieron 47.100 páginas relacionadas con buscadores y medicina, y entre los primeros utilicé el enlace a http://www.buscamed.com (los buscadores procuran ordenar las páginas para poner las que se ajustan mejor a nuestra búsqueda entre las primeras).

Para ahorrar tiempo de búsqueda y obtener resultados de mayor calidad, debemos utilizar en lo posible las características avanzadas que poseen muchos buscadores.Por ejemplo, en la búsqueda avanzada de Google podemos utilizar condiciones lógicas en nuestras búsquedas (AND, OR, NOT), excluir términos, refinar la búsqueda con nuevas condiciones, restringir los sitios en los que se busca, etc.

Es posible localizar no solo páginas Web, sino también a personas, empresas, etc, a través de Internet. Podemos usar los mismos mecanismos de búsqueda que para un tema.

Así, si en Google buscamos 'maria jesus coma', nos aparecerán 9.600 páginas que tienen que ver con esta prolífica profesora.

También existen portales especializados en encontrar datos de determinadas personas, por ejemplo su correo electrónico, etc. Incluso las páginas amarillas o páginas blancas están disponibles on-line.

Aunque inicialmente sencillo, HTML se ha ido enriqueciendo (actualmente va por su versión 4.0), y permite posibilidades casi inimaginables de proporcionar información en una página Web. Como vemos, la Web se basa en el concepto de 'hipertexto', que significa algo así como que las páginas Web llevan más información aparte del texto en sí que contienen.

Correo electrónico

Mucho antes de que existiera la Web, el correo electrónico se ha usado como herramienta de comunicación entre usuarios de redes de ordenadores.

Básicamente, el correo electrónico funciona de una manera muy parecida al correo normal. Escribimos un texto, metemos una foto o cualquier otra cosa que queramos en el sobre, y lo echamos al correo en cualquier buzón. Sólo que el papel, el sobre y el buzón son algo diferentes.

El correo electrónico se basa en dos cosas:

  1. Un sistema de comunicación entre ordenadores, que explicaremos algo más detenidamente en otro tema del curso.
  2. Un protocolo de comunicación entre dos ordenadores, que en este caso puede ser 'smtp' para enviar correo o 'pop3' para recibirlo, que permite transmitir mensajes a otros usuarios, localizándolos por su dirección de correo.

Por tanto, necesitamos un ordenador conectado a la red (directamente o a través de otros ordenadores) y un programa cliente de correo que nos permita generar nuestros mensajes y recibir y contestar a los que nos envían. Hoy en día también podemos gestionar nuestro correo a través de la Web, usando un navegador en vez de un cliente de correo.

Existen muchos programas clientes de correo, y cabe citar entre ellos a los que acompañan a los navegadores y a los sistemas operativos. Algunos nombres son Eudora, Outlook, Pine y otros.

Básicamente, nuestro programa de correo puede funcionar hasta de tres formas distintas:

Bueno, ahora vamos a ver esto en la práctica. Supongamos que acabamos de tener un hijo y queremos mandarle a sus abuelos, que están a miles de kilómetros de distancia pero son muy modernos y tienen un ordenador conectado a Internet, un mensaje con la foto de rigor incluida.

Para ello abrimos el programa de correo electrónico, indicamos que queremos crear un nuevo mensaje, y tecleamos su contenido.

Como previamente hemos preparado la foto en formato jpeg (un formato gráfico que permite enviar imágenes en forma de fichero sin que ocupen demasiado), no tenemos más que hacer un 'attach' (añadir la imagen al mensaje), y ya tenemos todo preparado.

En el programa de correo aparecen unos campos que debemos rellenar (como si fuera el sobre del mensaje).

En primer lugar debemos poner la dirección de correo del destinatario en el campo correspondiente (algo así como 'abuelos@sumail.com').

Las direcciones de correo tienen dos partes: antes de @ se escribe el nombre del usuario, y después de @ va el nombre del servidor de correo, que identifica al ordenador que transmitirá finalmente el mensaje al receptor.

Al igual que necesitamos saber la dirección de alguien para mandarle una carta, debemos saber su dirección electrónica para mandarle un mensaje de correo electrónico o e-mail.

Como sabemos que los tíos están un poco envidiosos, podemos mandarles también el mensaje a ellos, por ejemplo indicando su dirección en el campo 'Cc:' .

Para que los abuelos sepan de qué va el mensaje al recibirlo, en el campo 'Asunto:' (o 'Subject:' si usamos un programa en inglés) podemos poner "Aquí teneis a vuestro nieto!!".

¿Qué sucede cuando pulsamos el botón de "Enviar mensaje"?.

Nuestro ordenador se pone en contacto con su servidor de correo, otro ordenador que hace las funciones del cartero que recoge las cartas en un buzón en la calle.

El servidor se encarga, al igual que hacen los funcionarios de la oficina de correos, de enviar el mensaje a través de otros ordenadores que actúan como oficinas "intermedias", hasta llegar al servidor de correo de los abuelos.

Cuando estos abran su programa de correo, este hará una consulta al servidor y obtendrá el correo electrónico pendiente, y los abuelos podrán ver a su nieto.

El correo electrónico es una herramienta utilísima para muchos aspectos de nuestra actividad diaria. Además de poder enviar y recibir mensajes con determinadas personas, a través de las llamadas 'listas de distribución', podemos mantenernos al día sobre las noticias que vayan surgiendo o participar en grupos de discusión de determinados temas (algo parecido a lo que son los grupos de noticias, que se explican a continuación).

Otras herramientas: trabajo a distancia

En este apartado vamos a tratar algunos aspectos "técnicos" de lo que Internet supone, aunque procuraremos hacerlo de una forma sencilla y entendible. Seguro que más de una vez os habeis preguntado "¿cómo diantre funcionará todo esto?".

Internet se sustenta sobre un desarrollo tecnológico surgido a lo largo de unos 30 años, por lo cual sería ilusorio explicarlo con cierta extensión. Sin embargo, algunas nociones nos pueden ser de utilidad.

Internet sigue un modelo "en capas", que van de lo más simple a lo más complicado. Para que una capa superior pueda funcionar, deben funcionar primero las capas inferiores.

Una primera capa sería la capa física, esto es, el medio que utilizamos para mandar los bits de un sitio para otro.

Sea mediante cable, ondas electromagnéticas, fibra óptica o lo que sea, nuestro ordenador debe tener un medio de enviar y recibir datos en forma de ondas, luz, o lo que sea.

Pero una vez que nuestro ordenador tiene, por ejemplo, un cable que lo conecta a la red, ¿cómo traducimos las ondas que corren por el cable a datos entendibles por nuestra máquina?.

En primer lugar necesitamos una tarjeta de red o un modem que sea capaz de convertir las ondas, la luz o las señales telefónicas a bits. Esto se denomina capa de acceso al medio o capa MAC, e incluye un hardware (tarjeta, modem, etc) y un software.

Los grupos de bits deben agruparse en paquetes que constituyen los mensajes que circulan a través de la red, y de esto se encarga una nueva capa (capa de enlace).

Ahora llega el momento de dirigir el 'tráfico' por la red, orientando a los paquetes de bits hacia su destino, y de esto se ocupa una nueva capa (capa de red). Se basa en un protocolo llamado IP (Internet protocol).

La siguiente capa (de transporte) permite establecer conexiones eficientes y fiables a los programas usuarios. Se basa en otros protocolos (TCP, UDP).

Por encima de todas estas capas está la capa de aplicación, donde se colocan las aplicaciones, que utilizan distintos protocolos (de algunos de ellos, como 'http' o 'smtp' ya hemos hablado). Básicamente, cualquier aplicación que utilice Internet como vía de comunicación, se coloca a este nivel.

Vamos a hablar de tres de estas aplicaciones, que corresponden a otros tres protocolos: 'ftp', 'telnet' y 'ssh'.

Su uso está mucho menos extendido que el correo o la Web, pero nos pueden ser muy útiles en determinadas circunstancias.

FTP (file transfer protocol)

Es un protocolo para transmitir ficheros de unas máquinas a otras a través de una conexión establecida mediante TCP/IP, o sea, mediante todo el tinglado de capas del que hemos hablado previamente.

Si, por ejemplo, quisiera traerme por la red un archivo de bibliografía que está en un servidor FTP remoto, mi ordenador puede utilizar este protocolo, más sencillo que 'http', para solicitarlo y recibirlo a través de Internet.

Debemos tener en cuenta de todas formas que "el viaje" de los archivos es un proceso costoso en tiempo. Dependiendo de la calidad de nuestra conexión a Internet, obtendremos tiempos de transferencia de ficheros entre los 2 y los 6 Kbps (a no ser que contemos con RDSI, cable o ADSL). Esto quiere decir que para un fichero de 500K, tardaremos unos dos minutos en recibirlo a través de la red si todo va bien. El fichero se 'parte' en pequeños trozos que luego se reagrupan a su llegada a nuestro ordenador.

Las ventajas de FTP son su sencillez y que es más rápido que usar la Web, aunque es menos vistoso y requiere ciertos conocimientos 'añadidos'. Además, se usa mucho (aunque no nos demos cuenta) al bajarnos programas a través de la red (nuestro navegador suele utilizar para esto 'ftp' porque es más rápido y eficiente).

TELNET

Es el 'abuelo' de los protocolos de red, y se usa para establecer una conexión remota con otro ordenador, y poder trabajar como si estuvieramos trabajando directamente con ese ordenador.

Su problema fundamental es que no es muy seguro: si conocemos la identidad y la clave de un usuario del sistema, podemos engañar al ordenador haciéndonos pasar por ese usuario desde cualquier lugar del mundo, sin que el servidor pueda asegurarse de que somos quienes decimos ser y estamos donde decimos estar.

Por ello surgió SSH (Secure Shell), que utiliza criptografía para garantizar la seguridad de las comunicaciones, tanto para el cliente (nosotros que nos conectamos) como para el servidor (el ordenador al que queremos acceder). El tema de la Seguridad es objeto de otra charla, por lo que no insistiremos en esto.

La ventaja que nos ofrecen todos estos protocolos es poder trabajar remotamente utilizando los recursos de un ordenador que puede estar físicamente muy lejos.

Introducción a HTML

Para que un navegador "entienda" lo que incluye una página Web, ésta debe estar escrita en un lenguaje conocido como HTML (hypertext markup language). HTML es un lenguaje de marcas. Esto quiere decir que el contenido de la página debe estar organizado y señalizado según una serie de marcas predeterminado. Así, toda página Web debe empezar por la marca <html> y terminar por la marca </html>

Para hacernos una idea de cómo funciona esto, utilizaremos una función de los navegadores que nos permite ver el código HTML de las páginas (Normalmente en el menú Ver -> Código fuente u origen)

Las páginas HTML tienen dos partes:

Como vemos, las marcas van en parejas, una donde empieza el contenido afectado por la marca, y otra donde termina. En caso de que se trate de una marca sin contenido, se puede indicar con el siguiente formato de marca: <marca />. Así, para introducir un salto de línea en un párrafo, se puede incluir un par de marcas <br> y </br> o bien poner directamente <br />.

Vayamos construyendo ahora una página Web muy simple para ir conociendo las marcas más habituales. Utilizaremos para ello una herramienta que nos permite crear páginas en html con facilidad. Existen muchas, usaremos una version de AceHTML que tiene la ventaja de ser gratuita. Al final se ofrece un enlace a un video en formato wmv que permite ver todos los pasos que se indican. Para visualizarlo hace falta un visor multimedia, que suele ir incluido en casi todos los sistemas operativos.

Al abrir el programa, nos encontraremos más o menos con esto (pulsar sobre la imagen para verla a pantalla completa):

Pantalla de AceHTML

Empezaremos por poner el título a la página (lo que aparece en la parte superior de la ventana del navegador), en este caso queremos poner "Página de prueba". Para ello, buscamos las marcas <title> y </title> y escribimos el texto anterior entre ambas. Usando el visor que

En el siguiente video se puede ver un ejemplo de edicion de un sencilla pagina Web, que se explicará de manera práctica durante el curso. Las marcas más habituales y la manera de emplearlas se detallan en esta página

Tras crear el título, podemos poner texto en el cuerpo de la página (que está entre <body> y </body>, colocar saltos de línea (con la marca <br>), imágenes (con la marca <img>) y enlaces a otras páginas con la marca <a>. Todo esto se explicará de manera más extensa durante el curso.

Video de ejemplo de empleo de la herramienta de edición de HTML. Si descarga este archivo por Internet, tenga en cuenta su tamaño (378K).