Top Banner
Como hacer troubleshooting y no morir en el intento Fer Gleiser [email protected] @fergleiser
21

Cómo hacer troubleshooting y no morir en el intento

Mar 21, 2017

Download

Internet

sys army
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Cómo hacer troubleshooting y no morir en el intento

Como hacer troubleshooting y no morir en el intento

Fer Gleiser

[email protected] @fergleiser

Page 2: Cómo hacer troubleshooting y no morir en el intento

Introduccion

● Que es● Objetivos● Metodologias● Ejemplos practicos

Page 3: Cómo hacer troubleshooting y no morir en el intento

Objetivos

● Desarrollar tecnicas para resolver problemas● Mejorar el tiempo de resolucion● Mejorar el diagnostico

Page 4: Cómo hacer troubleshooting y no morir en el intento

(Anti) Metodologias

● Street light● Blame-someone-else● Random change● Googlemancia

Page 5: Cómo hacer troubleshooting y no morir en el intento

(pseudo) Metodologias

● Shotgun debugging● Tools method

Page 6: Cómo hacer troubleshooting y no morir en el intento

Metodologias

● USE● Metodo cientifico● Universal Troubleshooting Process● TSA analysis● Checklists● Diagnostico diferencial

Page 7: Cómo hacer troubleshooting y no morir en el intento

Puntos Importantes

● Definir bien el problema● Analisis del ambiente (alguna vez anduvo? Que

cambio?)● Criterios de estimacion● Causas comunes primero● Cherry picking● Distinguir causa de sintoma

Page 8: Cómo hacer troubleshooting y no morir en el intento

Lo mas Importante!

● Lo mas importante no es llegar rapido a la causa

● Lo mas importante es descartar rapido todo lo que no es la causa

Page 9: Cómo hacer troubleshooting y no morir en el intento

Primeros pasos

● Prepararse● Hacer plan de control de daños● Definir CLARAMENTE cual es el problema● Reproducir el problema● Mantenimiento preventivo y correctivo

Page 10: Cómo hacer troubleshooting y no morir en el intento

Siguientes pasos

● Buscar la causa raiz● Corregir el problema● Hacer las pruebas y verificar que este

corregido● Festejen :)● Evitar que vuelva a ocurrir

Page 11: Cómo hacer troubleshooting y no morir en el intento

Como acotar el problema

● Diffing● Negative testing● Hacer pruebas que descarten la mayor

cantidad de causas a la vez● Drill down● Divide and Conquer

Page 12: Cómo hacer troubleshooting y no morir en el intento

Ejemplo 1: ping asimetrico

● Dos hosts en la misma red● Desde el host A puedo llegar al B, pero no al reves

Page 13: Cómo hacer troubleshooting y no morir en el intento

Ejemplo 1: ping asimetrico

Page 14: Cómo hacer troubleshooting y no morir en el intento

Ejemplo 2: backup lento

● Sintoma: Sin previo aviso el backup de un server pasa de 80 minutos a casi 14 horas

Page 15: Cómo hacer troubleshooting y no morir en el intento

Ejemplo 2: backup lento

Page 16: Cómo hacer troubleshooting y no morir en el intento

Ejemplo 3: Relaying denied a usuarios legitimos

● Los usuarios no pueden enviar mail hacia afuera en forma remota

● Desde la oficina funciona bien● Hacia otros usuarios internos funciona bien

Page 17: Cómo hacer troubleshooting y no morir en el intento

Ejemplo 3: Relaying denied a usuarios legitimos

Page 18: Cómo hacer troubleshooting y no morir en el intento

Ejemplo 4: Es el samba o no?

● Crash aleatorio de la aplicacion● Sospechan de un file server con samba

Page 19: Cómo hacer troubleshooting y no morir en el intento

Ejemplo 4: Es el samba o no?

Page 20: Cómo hacer troubleshooting y no morir en el intento

Ejemplo 5: storage con latencia

● Pruebas de carga sobre storage nuevo● DBA reporta que los tiempos no son todo lo buenos que deberian ser

● Cuando se hace el backup los requests a la base se encolan y provocan timeouts

Page 21: Cómo hacer troubleshooting y no morir en el intento

Ejemplo 5: storage con latencia