Проанализируем базу пассажиров Титаника, и создадим формулу интеллектуального анализа данных в Excel одним щелчком мыши с NeoNeuro Data Mining!
Скачайте NeoNeuro, распакуйте и запустите установку. Откройте приложение NeoNeuro Data Mining:
Приложение автоматически открывает пример обучения элементарных математических машин. Вы можете нажать кнопку «Вычислить», чтобы увидеть результаты, изменить значения и «Рассчитать» еще раз.
В нашем руководстве мы исследуем конкуренцию в области интеллектуального анализа данных Titanic из Kaggle, которая размещена на странице https://www.kaggle.com/c/titanic/data
Скачать базу пассажиров Титаника на русском языке.
Откройте Train.csv в NeoNeuro, через диалоговое окно Открыть или перетащив из проводника файлов.
NeoNeuro автоматически предлагает разделить параметры (столбцы) на важные и несущественные и использует последний параметр в качестве результата.
Серые столбцы - это параметры, которые не будут использоваться при анализе. Вы можете изменить в контекстном меню выбрав “Не использовать” – обозначено на скриншоте жёлтым цветом. Посмотрите на строку Тип (вторая строка таблицы) - здесь NeoNeuro отражает тип, который автоматически был распознан, пользователь может изменить тип. Предполагается, что типы счетчиков и комментариев не важны. Для удобной работы определяются категориальные и числовые типы. Численные параметры разделяются в кластерах.
Результат (или метка) всегда является последним столбцом, он отмечен зеленым цветом здесь. В столбце результата «Титаник» находится «Выживший», который по умолчанию является вторым, поэтому нажмите мышью на заголовок «Выживший» и выберите «Результат» в контекстном меню, как показано на скриншоте.
</p>
Нажмите кнопку анализа. Это единственный щелчок, который вам нужно сделать!
Фактически в этом примере мы изменили параметр Результат, это еще один клик, но во многих примерах столбец «Результат» является последним по умолчанию и достаточно одного щелчка.
NeoNeuro имеет инновационный анализ данных, который одним щелчком вычисляет наиболее важные параметры, визуально показывает влияние каждого значения и каждого параметра в конечном результате и даже генерирует формулу Excel, которая может использоваться в ваших бизнес-процессах или научных исследованиях.
NeoNeuro автоматически вычисляет значения важности каждого столбца, вы можете увидеть наиболее ценные столбцы с оранжевыми метками в верху таблицы. Эти три столбца автоматически используются для создания формул в таблице ниже. Стоимость тарифа зависит от класса, поэтому нажмите «Цена» и нажмите «Удалить», нижняя часть таблицы будет выглядеть на следующем скриншоте.
Окно анализа имеет две таблицы, разделенные движущимся разделителем и настройки, которые работают с нижней таблицей.
Верхняя таблица описывает все параметры и их влияние на результат (метку).
Нижняя таблица показывает до 3 параметров и делает из них «Дерево», чтобы показать влияние каждого «уровня» на результат. Настройки ниже позволяют визуализировать строки в нижней таблице «Дерева», чтобы показать наиболее ценные строки. Также на нижней панели вы можете найти формулу Excel. Он автоматически копируется в буфер обмена.
Кнопка Применить закрывает окно и оставляет только выбранные столбцы. Вы можете скопировать/вставить их в Excel для работы с формулой.
Нажмите кнопку «Применить».
Откройте Excel (или Open Office или аналогичную электронную таблицу, которая поддерживает формулы), и вставьте формулу в первую строку, столбец D (формула уже находится в буфере обмена, если нет, пожалуйста, нажмите «Анализ» снова). Вы увидите там «Неизвестно», это значение написано в формуле, если оно не может дать точный ответ. Вы можете изменить это Неизвестно внутри формулы.
=ЕСЛИ(A1="мужской"; 0; ЕСЛИ(И(A1="женский";B1=1); 1; ЕСЛИ(И(A1="женский";B1=2); 1; "Неизвестно")))
Примечание для английских языков Windows / Excel: ЕСЛИ и И переводятся в IF и AND.
Вернитесь в главное окно NeoNeuro и выберите все (Ctrl + A) или Edit> Select all), скопируйте в буфер обмена и вставьте в Excel в ячейке A1.
Дважды щелкните ячейку формулы, в правом нижнем углу:
формула распространиться до конца, и вы увидите предсказанные результаты.
Эта же формула работает также в Open Office и других электронных таблицах. Следующий снимок экрана сделан в Google Docs:
Мы изучили самый простой способ генерации формул интеллектуального анализа данных для Excel. Вернемся к инструменту анализа данных NeoNeuro Data Mining Analysis, чтобы понять, как NeoNeuro помогает в предварительном анализе данных, например, для дальнейшей реализации на Python или R.
Откройте train.csv снова.
Установите параметр «Выживший» для параметра «Результат» и откройте инструмент «Анализ».
Этот скриншот показывает множество аналитических данных, которые легко получить в одном окне.
Мы можем найти:
• много визуальных диаграмм, где зеленые цвета – Выжившие и красные – Не выжившие. Цвета можно найти в верхней таблице, последнем столбце (результат).
• влияние каждого значения в каждом параметре. Например, поместите указатель мыши в возрасте <8
Подсказки показывают:
• общее количество детей менее 8 лет, это 50 человек или 6% от всех людей в этом наборе данных.
• каждое значение исследуется по его влиянию на параметр Выживший. Здесь мы видим, что Выживший = 1 для 34 случаев или 68%. Это на 30% больше, чем «нормальное» значение Выживший, которое составляет 38%, вы можете найти в последнем столбце:
• коэффициенты каждого параметра показывают влияние параметра на результат.
• нижняя таблица позволяет исследовать «дерево» некоторых комбинированных параметров, влияющих на результат. Эти же диаграммы показаны для каждой комбинации, как в верхней таблице.
• по умолчанию таблица использует 3 параметра, которые имеют самые высокие коэффициенты. Вы можете изменить их на любые параметры, которые вам нужны, перетащить их, удалить их.