Книги

Наука о данных. Базовый курс

22
18
20
22
24
26
28
30

Таблица, в которой каждая строка содержит данные, относящиеся к конкретному объекту, а каждый столбец — параметры определенного атрибута объектов в таблице. Это основной способ ввода информации для глубинного анализа данных и алгоритмов машинного обучения.

Атрибут (Attribute)

Каждый объект набора данных описывается рядом атрибутов (также называемых признаками или переменными). Атрибут фиксирует один фрагмент данных, относящихся к объекту. Атрибут может быть базовым или производным.

База данных (Database)

Центральное хранилище данных. Наиболее распространена реляционная структура базы данных, которая хранит данные в таблицах, где каждая строка отведена одному объекту, а каждый столбец — одному атрибуту. Это представление идеально подходит для хранения данных с четкой структурой, которые могут быть разложены на базовые атрибуты.

Большие данные (Big Data)

Большие данные часто определяют как «3V»: экстремальный объем (Volume), разнообразие типов (Variety) и скорость обработки данных (Velocity).

Высокопроизводительные вычисления (High Performance Computing, или HPC)

Нацелены на разработку и реализацию моделей для объединения большого количества компьютеров в кластер, способный эффективно хранить и обрабатывать большие объемы данных.

Выхлопные данные (Exhaust Data)

Данные, являющиеся побочным продуктом процесса, основной целью которого является нечто иное, чем сбор данных. Например, для каждого перепоста, ретвита или лайка в соцсетях создается ряд «выхлопных данных»: кто поделился, кто просмотрел, какое устройство использовалось, какое время суток и т. д. (В отличие от намеренно собранных данных.)

Выявление аномалий (Anomaly Detection)

Включает поиск и идентификацию экземпляров данных, которые являются нетипичными в наборе. Эти отклонения часто называют аномалиями или выбросами. Часто применяется при анализе финансовых транзакций для обнаружения потенциальных мошеннических действий и запуска расследований.

Глубинный анализ данных (Data Mining)

Процесс выявления в наборах данных полезных закономерностей для решения конкретной проблемы. CRISP-DM определяет стандартный жизненный цикл проекта глубинного анализа данных. Тесно связан с наукой о данных, но охватывает меньший круг задач.

Глубокое обучение (Deep Learning)

Модель глубокого обучения — это нейронная сеть, которая имеет несколько (больше двух) слоев скрытых элементов (или нейронов). Глубокие сети являются глубокими именно в смысле количества слоев нейронов. Сегодня большинство глубоких сетей имеют от 10 до 100 слоев. Сила глубокого обучения состоит в том, что на более поздних уровнях нейроны способны изучать производные атрибуты, составляя их из атрибутов, изученных нейронами на более ранних уровнях.

Данные (Data)

В самом общем смысле данные — это набор характеристик (или измерение) некоей реальной сущности (человека, объекта или события).

Дерево решений (Decision Tree)