Меню

Разведочный анализ

разведочный анализ в аналитике обучения

Нет времени читать? Подпишитесь на обновления!
Разведочный анализ (Exploratory Data Analysis) — это процесс анализа данных, способствующий выдвижению гипотез, когда отсутсвтует представление о связи между переменными или оно недостаточно.
Важно отметить, что РА— это не набор готовых методов анализа, а философия того, как следует анализировать данные, что искать и как интерпретировать.
В разведочном анализе часто используется статистическая графика — графическая техника, используемая для визуализации количественных данных.

Это необходимо для того, чтобы:

  • максимизировать понимание набора данных;
  • выявить базовую структуру;
  • извлечь важные переменные;
  • выявить выбросы и аномалии;
  • проверить исходные предположения;
  • разработать скупые модели;
  • определять оптимальные параметры.
    Причина сильной зависимости в графике заключается в том, что основная роль РА — открывать глаза, а графика дает аналитикам возможность заставлять данные раскрывать свои структурные секреты и быть всегда готовыми получить новое, часто непредвиденное, понимание данных. В сочетании с естественными возможностями распознавания образов, которыми все мы обладаем, графика открывает большие шансы для этого.
      Довольно распространенные методы использования графики в РА это:

      • предоставление необработанных данных с помощью гистограмм, диаграмм рассеяния, вероятностных графиков;
      • вычисление простых статистических данных: добавление линии среднего значения и стандартного отклонения;
      • сопоставление нескольких графиков.
      Чтобы наглядно показать важность графической интерпретации данных, хочется привести в пример Квартет Энскомба: есть четыре набора числовых данных, у которых простые статистические свойства идентичны, но их графики существенно отличаются. Каждый набор состоит из 11 пар чисел.
      процесс разведочного анализа
      ссылка на источник: https://clck.ru/DALSk
      Данный пример показывает важность построения графиков при анализе данных и проверке различных предположений.
      В заключение хочется привести утверждение Энскомба, взятое из книги Аналитическая культура Карла Андерсона:
      «Большинство статистических вычислений строятся на предположениях относительно поведения данных. Эти предположения могут оказаться неверными, и тогда результаты вычислений тоже будут содержать ошибку. Всегда следует пытаться проверять, являются ли предположения верными. А если они ошибочны, мы должны быть способны понять, что с ними не так. В этом весьма полезны графики».
      Екатерина Дудкина
      Product Owner «Курсометр»