По данным университета Беркли ежегодный прирост информации в мире составляет 1 миллион терабайт (1 экзобайт). Причём большая часть информации представлена в цифровом виде. Это означает, что за последующие три года прирост информации превысит объём информации, накопленный за всю историю человечества до этого момента. Откуда же берётся такое большое число данных? Различные электронные датчики постоянно регистрируют такие процессы как использование кредитной карты, разговор по телефону и т.п. Причём многие данные сохраняются с большой степенью детализации. Делается это потому, что для людей представляет ценность эта информация. Она может содержать в себе скрытые знания, закономерности и потому, при соответствующем анализе, способна оказать влияние при принятии решений в различных областях человеческой деятельности. Существует множество способов поиска скрытых закономерностей в данных машиной, алгоритмами, но также не стоит упускать из вида возможности человека по анализу данных. Полезно сочетать огромные вычислительные ресурсы современных компьютеров с творческим и гибким человеческим мышлением. Визуальный анализ данных призван вовлечь человека в процесс отыскания знаний в данных. Основная идея заключается в том, чтобы представить большие объёмы данных в такой форме, где человек мог бы увидеть то, что трудно выделить алгоритмически. Чтобы человек смог погрузиться в данные, работать с их визуальным представлением, понять их суть, сделать выводы и напрямую взаимодействовать с данными. Из-за сложности информации это не всегда возможно и в простейших графических видах представления знаний, таких как деревья решений, дейтаграммы, двумерные графики и т.п. В связи с этим возникает необходимость в более сложных средствах отображения информации и результатов анализа.
С помощью новых технологий пользователи способны оценивать: большие объекты и маленькие, далеко они находятся или близко. Пользователь в реальном времени может двигаться вокруг объектов или кластеров объектов и рассматривать их со всех сторон. Это позволяет использовать для анализа естественные человеческие перцепционные навыки в обнаружении неопределённых образцов в визуальном трёхмерном представлении данных.
Визуальный анализ данных особенно полезен, когда о самих данных мало что известно и цели исследования до конца не понятны. За счёт того, что пользователь напрямую работает с данными, представленными в виде визуальных образов, которые он может рассматривать с разных сторон и под любыми углами зрения, в прямом смысле этого слова, он может получить дополнительную информацию, которая поможет ему более чётко сформулировать цели исследования.
Таким образом, визуальный анализ данных можно представить как процесс генерации гипотез. При этом сгенерированные гипотезы можно проверить или автоматическими средствами (методами статистического анализа или методами Data Mining), или средствами визуального анализа. Кроме того, прямое вовлечение пользователя в визуальный анализ имеет два основных преимущества перед автоматическими методами:
визуальный анализ данных позволяет легко работать с неоднородными и зашумлёнными данными, в то время как не все автоматические методы могут работать с такими данными и давать удовлетворительные результаты;
визуальный анализ данных интуитивно понятен и не требует сложных математических или статистических алгоритмов.
Визуальный анализ данных обычно выполняется в три этапа:
беглый анализ - позволяет идентифицировать интересные шаблоны и сфокусироваться на одном или нескольких из них;
увеличение и фильтрация - идентифицированные на предыдущем этапе шаблоны отфильтровываются и рассматриваются в большем масштабе;
детализация по необходимости - если пользователю нужно получить дополнительную информацию, он может визуализировать более детальные данные.