miércoles, 30 de diciembre de 2015

LECTURA DE ARCHIVOS DE TEXTO EN R


Primero se debe tener claro el tipo de archivo (.txt, .csv, .xls) en que se almacenaron los datos, el separador de decimales en campos numéricos (punto o coma), pero si uno de estos campos corresponde a coordenadas se debe utilizar el punto y así no tener inconvenientes con paquetes como geoR.  En Excel se debe revisar la categoría de cada columna en el Formato de celda, para asegurarnos que los números están almacenados como números y el texto en su categoría correspondiente.


Un signo de alerta se puede observar cuando en una columna de tipo numérico algunos números aparecen alineados al lado izquierdo (sin que previamente se hubiera modificado la alineación) y al intentar realizar una operación sencilla aparece un signo de admiración. Esto indica que algunos números pueden estar clasificados como tipo texto, este inconveniente se genera porque se utilizó un separador de decimales diferente al que se encuentra configurado por defecto en el teclado.



De acuerdo al tipo de archivo también se debe tener claro cuál es el separador entre campos, puede ser espacio, tabulación, coma, punto y coma, si se tienen campos de tipo texto  donde se almacenan “categorías” compuestas por varias palabras el separador no puede ser espacio en blanco porque a la hora de leer el archivo el programa interpreta que las palabras que inicialmente hacen parte de una sola variable terminen distribuidas en varias variables.
Una vez se tenga lo anterior revisamos en R el directorio actual digitando getwd() en la consola.




En lo posible el archivo a leer debe estar en una ruta corta, a continuación le indicamos al programa nuestro directorio de trabajo donde se encuentra el archivo, se puede realizar de dos formas:

1.    Digitando el  comando setwd("ruta completa"), teniendo presente que debe escribir la ruta completa donde se encuentra el archivo a trabajar, si va a copiar la ruta desde una ventana de exploración debe tener cuidado en reemplazar el slash invertido ( \ ) por el slash ( / ), en este caso no use  D:\Incendios sino D:/Incendios.  Además debe digitar entre comillas dobles las cuales son rectas ("  ") así  setwd("D:/Incendios"), los demás tipos de comillas no funcionan.




2.    Utilizando la barra de menú de R File – Change dir  e indique la ruta en la ventana que se despliega.





Una vez le hemos indicado el directorio de trabajo procedemos a leer el archivo, este se convierte en uno de los pasos más importantes porque algunas veces no logramos la lectura del archivo o la correcta interpretación de los campo; para ayudarnos utilizamos el R Commander a través del paquete Rcmdr, el cual debe estar previamente instalado utilizando el menú en Packages – Load package




Y simultáneamente aparece la ventana del RCommander



Aquí debemos nuevamente indicarle la ruta y archivo a leer


Elegimos Datos – Importar datos – desde archivo de texto, portapapeles o URL…, en este ejemplo el archivo es tipo texto.

A continuación se despliega una ventana donde le debemos especificar varios parámetros, si el encabezado del archivo lleva el nombre de las variables, dónde está almacenado, el separador de campos y el separador de decimales, si existe alguna duda podemos explorar el archivo.





Damos aceptar y nos aparece una ventana de exploración para indicarle el archivo en este ejemplo es varfinal.txt





Ahora para asegurarse que el conjunto de datos fue leído correctamente seleccione visualizar datos y explore la tabla completa



Este paso es útil para quienes no estamos muy familiarizados con el programa y detectemos errores simples durante la lectura del archivo, y así evitar que lo descartemos como programa estadístico.
El punto principal es copiar parte de la rutina que aparece en el R script del R Commander y corregir nuestra rutina y así utilizar la consola tradicional de R la cual permite utilizar todos los paquetes sin las limitaciones del R Commander.



Por tanto ya podemos ir a la consola R y verificamos si funciona, para  facilidad asigno el nombre f1 a nuestro data frame, digitamos

f1 <-read.table("varfinal.txt", header= TRUE, sep = "\t", dec= ".")

Y si no aparece algún mensaje de alerta digitamos f1 para llamar el data frame creado previamente y ver si los datos fueron leídos



No hay comentarios:

Publicar un comentario