Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática Ing. Kene A. Reyna Rojas 1 Practica de Laboratorio 04 Tema: Descripción de varios software estadísticos e instalación de un software biológico I. Objetivos 1.1. El estudiante conocerá algunas descripciones de software estadístico para tratamiento de datos. 1.2. El estudiante aprenderá a instalar un software de tratamiento genético biológico y su uso básico. II. Fundamento de la practica En la actualidad existen muchos software estadísticos, para el tratamiento de diferentes tipos de datos, entre los cuales tenemos 2.1. Software biológico: Existen muchos software biológicos para realizar estudios como ADN, Proteínas algunos son gratuitos como otro son licenciados en la práctica vamos a ver el software MEGA (pasteur 2007) (NCBI s.f.) 2.1.1. Mega 5: es una herramienta integrada para transmitir alineación automática y manual de secuencia, infiriendo árboles filogenéticos, extrayendo de la cantera bases de datos basadas en la Web, estimando tasas de evolución molecular, infiriendo secuencias ancestrales, y probando hipótesis evolucionistas. MEGA es una aplicación de múltiples Ventanas. Funciona con todas las ediciones de los sistemas operativos Windows. 2.2. Software Estadísticos En la actualidad existen muchos software estadísticos, para el tratamiento de diferentes tipos de datos, entre los cuales tenemos 2.2.1. BMDP es uno de los paquetes de software estadísticos más antiguos. El primer manual para BMDP Biomedical Computers Programs se publicó en 1961. En 1975 pasó a denominarse BMDP. Cubre un amplio abanico de métodos estadísticos pero su capacidad para manejar datos es limitada. Desventajas. Sus programas se ejecutan por separado: solo puede accederse a uno de ellos en cada ejecución. Los resultados de cada programa se pueden guardar en un archivo de BMDP y utilizarse como entrada en otros programas. (Wikipedia 2001) 2.2.2. CalEst es un paquete de Estadística y Probabilidad, es tanto didáctico como operativo. CalEst cuenta con una interface amigable que le permitirá obtener cálculos y gráficas rápidamente, faciles de interpretar. Además, le permite interactuar con diversas distribuciones de probabilidad (densidad y acumulada). Asimismo, incluye diversos tutoriales que permiten experimentar diversos
16
Embed
Universidad Nacional del Santa - biblioteca.uns.edu.pebiblioteca.uns.edu.pe/saladocentes/archivoz/curzoz/002_practica_de...manual de secuencia, infiriendo árboles filogenéticos,
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 1
Practica de Laboratorio 04
Tema: Descripción de varios software estadísticos e instalación de un software biológico
I. Objetivos
1.1. El estudiante conocerá algunas descripciones de software estadístico para
tratamiento de datos.
1.2. El estudiante aprenderá a instalar un software de tratamiento genético biológico y su
uso básico.
II. Fundamento de la practica
En la actualidad existen muchos software estadísticos, para el tratamiento de diferentes
tipos de datos, entre los cuales tenemos
2.1. Software biológico: Existen muchos software biológicos para realizar estudios como
ADN, Proteínas algunos son gratuitos como otro son licenciados en la práctica vamos a
ver el software MEGA (pasteur 2007) (NCBI s.f.)
2.1.1. Mega 5: es una herramienta integrada para transmitir alineación automática y
manual de secuencia, infiriendo árboles filogenéticos, extrayendo de la cantera
bases de datos basadas en la Web, estimando tasas de evolución molecular,
infiriendo secuencias ancestrales, y probando hipótesis evolucionistas. MEGA es
una aplicación de múltiples Ventanas. Funciona con todas las ediciones de los
sistemas operativos Windows.
2.2. Software Estadísticos
En la actualidad existen muchos software estadísticos, para el tratamiento de
diferentes tipos de datos, entre los cuales tenemos
2.2.1. BMDP es uno de los paquetes de software estadísticos más antiguos. El primer
manual para BMDP Biomedical Computers Programs se publicó en 1961. En 1975
pasó a denominarse BMDP. Cubre un amplio abanico de métodos estadísticos
pero su capacidad para manejar datos es limitada. Desventajas. Sus programas se
ejecutan por separado: solo puede accederse a uno de ellos en cada ejecución.
Los resultados de cada programa se pueden guardar en un archivo de BMDP y
utilizarse como entrada en otros programas. (Wikipedia 2001)
2.2.2. CalEst es un paquete de Estadística y Probabilidad, es tanto didáctico como
operativo. CalEst cuenta con una interface amigable que le permitirá obtener
cálculos y gráficas rápidamente, faciles de interpretar. Además, le permite
interactuar con diversas distribuciones de probabilidad (densidad y acumulada).
Asimismo, incluye diversos tutoriales que permiten experimentar diversos
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 2
aspectos de estadística y probabilidad. CalEst fue desarrollado en CONTECK por
los científicos Jorge Dominguez y Axel Dominguez. (Wikipedia 2001)
2.2.3. EViews es un paquete estadístico para Windows, usado principalmente para
análisis econométrico. Ha sido desarrollado por Quantitative Micro Software
(QMS). La versión 1.0 salió al mercado en marzo de 1994, reemplazando al
MicroTSP. La versión más actualizada del EViews es la 7.0. El EViews combina la
tecnología de hoja de cálculo con tareas tradicionales encontradas en software
estadístico tradicional, empleando una interfaz de usuario gráfica. Estas
características se combinan con un poderoso lenguaje de programación. El EViews
puede ser empleado para análisis estadístico general, pero es especialmente útil
para realizar análisis econométrico, como modelos de corte transversal, datos en
panel y estimación y predicción con modelos de series de tiempo. Entre los tipos
de archivo con los que es compatible destacan el Excel, SPSS, SAS, Stata, RATS, y
TSP. (Wikipedia 2001)
2.2.4. Octave o GNU Octave es un programa libre para realizar cálculos numéricos.
Como indica su nombre es parte de proyecto GNU. MATLAB es considerado su
equivalente comercial. Entre varias características que comparten se puede
destacar que ambos ofrecen un intérprete permitiendo ejecutar órdenes en modo
interactivo. Nótese que Octave no es un sistema de álgebra computacional como
podría ser Máxima, sino que usa un lenguaje que está orientado al análisis
numérico. El proyecto fue creado alrededor del año 1988 pero con una finalidad
diferente: ser utilizado en un curso de diseño de reactores químicos.
Posteriormente en el año 1992, se decide extenderlo y comienza su desarrollo a
cargo de John W. Eaton. La primera versión alpha fue lanzada el 4 de enero de
1993. Un año más tarde, el 17 de febrero de 1994 aparece la versión 1.0. El
nombre surge del nombre de un profesor de unos de los autores conocido por sus
buenas aproximaciones por medio de cálculos mentales a problemas numéricos.
(Wikipedia 2001)
2.2.5. KNIME (o Konstanz Information Miner) es una plataforma de minería de datos
que permite el desarrollo de modelos en un entorno visual. Está construido bajo
la plataforma Eclipse. Fue desarrollado originalmente en el departamento de
bioinformática y minería de datos de la Universidad de Constanza, Alemania, bajo
la supervisión del profesor Michael Berthold. En la actualidad, la empresa
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 3
KNIME.com GmbH, radicada en Zúrich, Suiza, continúa su desarrollo además de
prestar servicios de formación y consultoría. (Wikipedia 2001)
2.2.6. LISREL (acrónimo de linear structural relations), es un programa usado en análisis
de ecuaciones estructurales. Fue desarrollado en los años setenta por Karl
Jöreskog y Dag Sörbom, profesores ambos de la Universidad de Uppsala, Suecia.
Su versión más reciente es la 8.8 de agosto de 2009. LISREL está principalmente
basado en comandos, aunque las versiones más recientes han incorporado una
interfaz gráfica. Lo distribuye la empresa SSI (Scientific Software International).
(Wikipedia 2001)
2.2.7. Orange es un programa informático para realizar minería de datos y análisis
predictivo desarrollado en la facultad de informática de la Universidad de
Ljubljana. Consta de una serie de componentes desarrollados en C++ que
implementan algoritmos de minería de datos, así como operaciones de
preprocesamiento y representación gráfica de datos. Los componentes de Orange
pueden ser manipulados desde programas desarrollados en Python o a través de
un entorno gráfico. Se distribuye bajo licencia GPL (Wikipedia 2001)
2.2.8. R: es un lenguaje y entorno de programación para análisis estadístico y gráfico. Se
trata de un proyecto de software libre, resultado de la implementación GNU del
premiado lenguaje S. R y S‐Plus ‐versión comercial de S‐ son, probablemente, los
dos lenguajes más utilizados en investigación por la comunidad estadística, siendo
además muy populares en el campo de la investigación biomédica, la
bioinformática y las matemáticas financieras. A esto contribuye la posibilidad de
cargar diferentes bibliotecas o paquetes con finalidades específicas de cálculo o
gráfico. R se distribuye bajo la licencia GNU GPL y está disponible para los
sistemas operativos Windows, Macintosh, Unix y GNU/Linux. (Wikipedia 2001)
2.2.9. RapidMiner (anteriormente, YALE, Yet Another Learning Environment) es un
programa informático para el análisis y minería de datos. Permite el desarrollo de
procesos de análisis de datos mediante el encadenamiento de operadores a
través de un entorno gráfico. Se usa en investigación y en aplicaciones
empresariales. La versión inicial fue desarrollada por el departamento de
inteligencia artificial de la Universidad de Dortmund en 2001. Se distribuye bajo
licencia GPL y está hospedado en SourceForge desde el 2004. RapidMiner
proporciona más de 500 operadores orientados al análisis de datos, incluyendo
los necesarios para realizar operaciones de entrada y salida, preprocesamiento de
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 4
datos y visualización. También permite utilizar los algoritmos incluidos en Weka.
(Wikipedia 2001)
2.2.10. Statistical Package for the Social Sciences (SPSS) es un programa estadístico
informático muy usado en las ciencias sociales y las empresas de investigación de
mercado. En la actualidad, la sigla se usa tanto para designar el programa
estadístico como la empresa que lo produce. Originalmente SPSS fue creado como
el acrónimo de Statistical Package for the Social Sciences ya que se está
popularizando la idea de traducir el acrónimo como "Statistical Product and
Service Solutions". Sin embargo, aunque realizando búsquedas por internet estas
pueden llevar a la página web de la empresa, dentro de la página misma de la
empresa no se encuentra dicha denominación. Como programa estadístico es
muy popular su uso debido a la capacidad de trabajar con bases de datos de gran
tamaño. En la versión 12 es de 2 millones de registros y 250.000 variables.
Además, de permitir la recodificación de las variables y registros según las
necesidades del usuario. El programa consiste en un módulo base y módulos
anexos que se han ido actualizando constantemente con nuevos procedimientos
estadísticos. Cada uno de estos módulos se compra por separado. Actualmente,
compite no solo con software licenciados como lo son SAS, MATLAB, Statistica,
Stata, sino también con software de código abierto y libre, de los cuales el más
destacado es el Lenguaje R. Recientemente ha sido desarrollado un paquete libre
llamado PSPP, con una interfaz llamada PSPPire que ha sido compilada para
diversos sistemas operativos como Linux, además de versiones para Windows y
OS X. Este último paquete pretende ser un clon de código abierto que emule
todas las posibilidades del SPSS. (Wikipedia 2001)
2.2.11. Statistica (aunque la marca está registrada como STATISTICA, en mayúsculas) es
un paquete estadístico usado en investigación, minería de datos y en el ámbito
empresarial. Lo creó StatSoft, empresa que lo desarrolla y mantiene. StatSoft
nació en 1984 de un acuerdo entre un grupo de profesores universitarios y
científicos. Sus primeros productos fueron los programas PsychoStat‐2 y
PsychoStat‐3. Después desarrolló Statistical Supplement for Lotus 1‐2‐3, un
complemento para las hojas de cálculo de Lotus. Finalmente, en 1991, lanzó al
mercado la primera versión de STATISTICA para MS‐DOS. Actualmente compite
con otros paquetes estadísticos tanto propietarios, como SPSS, SAS, Matlab o
Stata, como libres, como R. El programa consta de varios módulos. El principal de
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 5
ellos es el Base, que implementa las técnicas estadísticas más comunes. Éste
puede completarse con otros módulos específicos tales como:
• Advanced: técnicas multivariantes y modelos avanzados de regresión
lineal y no lineal
• QC: técnicas de control de calidad, análisis de procesos (distribuciones no
normales, Gage R&R, Weibull) y diseño experimental
• Data Miner: minería de datos, análisis predictivos y redes neurales
El paquete puede ser extendido a través de una interfaz con el lenguaje R.
Además, se pueden modificar y añadir nuevas librerías usando el lenguaje .NET.
(Wikipedia 2001)
2.2.12. Minitab: es un programa de computadora diseñado para ejecutar funciones
estadísticas básicas y avanzadas. Combina lo amigable del uso de Microsoft Excel
con la capacidad de ejecución de análisis estadísticos. En 1972, instructores del
programa de análisis estadísticos de la Universidad Estatal de Pennsylvania
(Pennsylvania State University) desarrollaron MINITAB como una versión ligera de
OMNITAB, un programa de análisis estadístico del Instituto Nacional de
Estándares y Tecnología (NIST) de los Estados Unidos. Como versión completa en
el 2006 cuesta $1195 USD, pero una versión para estudiantes y académicos se
ofrece como complemento de algunos libros de texto. Minitab es frecuentemente
usado con la implantación la metodología de mejora de procesos Seis Sigma.
(Wikipedia 2001)
2.2.13. Weka (Waikato Environment for Knowledge Analysis ‐ Entorno para Análisis del
Conocimiento de la Universidad de Waikato) es una plataforma de software para
aprendizaje automático y minería de datos escrito en Java y desarrollado en la
Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNU‐
GPL. El paquete Weka contiene una colección de herramientas de visualización y
algoritmos para análisis de datos y modelado predictivo, unidos a una interfaz
gráfica de usuario para acceder fácilmente a sus funcionalidades. La versión
original de Weka fue un front‐end en TCL/TK para modelar algoritmos
implementados en otros lenguajes de programación, más unas utilidades para pre
procesamiento de datos desarrolladas en C para hacer experimentos de
aprendizaje automático. Esta versión original se diseñó inicialmente como
herramienta para analizar datos procedentes del dominio de la agricultura, pero la
versión más reciente basada en Java (WEKA 3), que empezó a desarrollarse en
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 6
1997, se utiliza en muchas y muy diferentes áreas, en particular con finalidades
docentes y de investigación. (Wikipedia 2001)
2.2.14. WinBUGS es un software estadístico para análisis bayesiano usando los llamados
métodos MCMC (Markov chain Monte Carlo). Está basado en el proyecto BUGS
(Bayesian inference Using Gibbs Sampling), iniciado en 1989. Corre sobre
Windows, aunque es posible ejecutarlo sobre Linux usando Wine. Lo desarrolla un
grupo de investigadores del MRC, Unidad de Bioestadística, Cambridge y el
Imperial College School of Medicine de Londres. (Wikipedia 2001)
2.2.15. World Programming System, también conocido como WPS, es un paquete
estadístico desarrollado por la compañía World Programming. WPS permite a sus
usuarios crear, editar y ejecutar programas escritos en el lenguaje SAS. El núcleo
de WPS, WPS Core, está desarrollado en C++ y ensamblador. Sobre Windows, WPS
tiene una interfaz gráfica conocida como WPS Workbench para gestionar ficheros
y editar y ejecutar programas que está basada en Eclipse. (Wikipedia 2001)
2.2.16. Statgraphics El Statgraphics Plus para Windows es un paquete para análisis de
datos estadísticos. El diseño del Statgraphics es intuitivo y provee un conjunto de
aspectos que lo hacen atractivo para profesionales que trabajan en cualquier
industria. Entre los principales aspectos del programa merecen destacarse el
StatAdvisor, que da una interpretación de los resultados; StatFolio, que permite
guardar y reutilizar los análisis realizados previamente; gráficos interactivos;
StatGallery que permite combinar textos y gráficos en múltiples páginas;
StatWizard, que guía en la selección de los datos y los análisis, y StatReporter que
permite organizar reportes del STATGRAPHICS Plus. El Statgraphics contiene
varios aspectos únicos que facilitan su uso y la generación de informes: El
StatAdvisor, Statfolios, StatGallery, StatReporter y StatWizard, los cuales
examinaremos brevemente.
III. Equipo multimedia (Hardware y Software) y materiales
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 16
V. Trabajo en laboratorio o domicilio
1. Realice los pasos de instalación de un software estadístico ejemplo SPSS
2. Realice una descripción de un software biológico
3. Realice los pasos de instalación de un software biológico
4. Haga una descripción tanto biológica y química de las estructuras orgánicas timina,
guanina, citosina, uracilo, adenina
5. Realice un ingreso de datos al mega5, de aminos ácidos y proteínas de una
sustancia cualquiera por ejemplo papa
6. Investigar que hace las otras opciones de la barra de herramientas del Mega5 ( Align,
Models, Distance, Diversity, Phylogeny, User Tree, Ancestors, selection, Rate, clocks).
VI. Bibliografía
• NCBI. http://www.ncbi.nlm.nih.gov. s.f. http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3dinstall.shtml (último acceso: 06 de abril de 2011).
• pasteur, institut. http://bioweb2.pasteur.fr. 31 de diciembre de 2007. http://bioweb2.pasteur.fr/intro‐en.html (último acceso: 6 de abril de 2011).
• wikipedia. http://es.wikipedia.org. 15 de enero de 2001. http://es.wikipedia.org/wiki/Bioinform%C3%A1tica (último acceso: 06 de abril de 2011).
• Wikipedia. http://es.wikipedia.org/. 15 de enero de 2001. http://es.wikipedia.org/wiki/Categor%C3%ADa:Paquetes_de_software_estad%C3%ADstico (último acceso: 05 de abril de 2011).