Билет № 19.Статистические методы обработки маркетинговой информации

Статистические методики обработки в большинстве случаев используются для работы с информацией, полученной в результате применения различного рода опросных методик.

Применение методов статистической обработки и анализа информации требует, чтобы необработанные данные должны сначала прошли предварительную подготовку, прежде чем для их анализа можно будет использовать статистические методы. Она является важным элементом статистической обработки. Качество результатов, полученных посредством использования статистических методов, и их последующая интерпретация в значительной степени будут зависеть от того, насколько хорошо данные были подготовлены и конвертированы в форму, пригодную для анализа. Среди основных процедур подготовки данных можно перечислить следующие:

редактирование данных;

кодирование;

статистическая корректировка данных (если требуется).

Задача редактирования данных – выявление пропусков, неоднозначностей и неточностей в ответах. Редактирование должно осуществляться как самим интервьюером и его руководителем в ходе сбора данных, так и аналитиком непосредственно перед их анализом. Среди проблем, которые должны выявляться, можно перечислить следующие.

Ошибки интервьюера – интервьюер не предоставил респонденту необходимые инструкции;

Пропуски – респондент не ответил на какой-либо вопрос — преднамеренно или из-за неспособности ответить;

Неоднозначности – ответ оказался неприемлемым или нечетким (например, непонятно, в каком из квадратиков поставлен значок при выборе из нескольких вариантов);

Непоследовательность – иногда нарушена логика в последовательности ответов (например, респондент, который является адвокатом, может отметить квадратик, показывающий, что он не окончил среднюю школу);

Недостаток сотрудничества – если анкета длинная и содержит сотни вопросов, респондент может «взбунтоваться» и отметить один и тот же вариант (например, на шкале «согласен — не согласен») в длинной серии вопросов

Не соответствующий требованиям респондент – в выборку мог попасть не соответствующий требованиям респондент (например, если выборка состоит только из женщин старше 18 лет, все остальные должны быть исключены)

Для решения подобных проблем существует несколько вариантов действий. Лучше всего попытаться еще раз связаться с респондентом, особенно если вопросы, о которых идет речь, очень важны. Следующий вариант – просто не учитывать данную анкету. Такие действия будут оправданны, если очевидно, что респондент либо не понял, как отвечать на анкету, либо не пожелал сотрудничать.

Менее экстремальный вариант – отбросить лишь проблемные вопросы, сохранив баланс остальных: некоторые респонденты могут пропускать вопросы, связанные, например, с возрастом или доходом, при этом нормально отвечая на остальные. В той части анализа, которая связана с доходом или возрастом, будут учитываться лишь те респонденты, которые на эти вопросы ответили, однако для остального анализа можно использовать данные, полученные от всех участников. Еще один подход – кодировать все не соответствующие требованиям или пропущенные ответы как «не знаю» или «нет мнения». Такая методика может упростить анализ данных, не внося существенных искажений в их интерпретацию.

Побочным продуктом процесса редактирования является то, что он позволяет оценить работу интервьюера и дать ему соответствующие наставления. Если интервьюер постоянно допускает одну и ту же ошибку, то это выявляется в процессе редактирования.

Кодирование – это технический прием, с помощью которого данные распределяются по категориям; он связан со спецификацией альтернативных категорий или классов, в которые должны омещаться ответы, а самим классам должны назначаться кодовые номера.

Посредством кодирования сырые данные превращаются в символы – обычно цифровые, которые можно табулировать и подсчитывать. Однако это преобразование не должно осуществляться автоматически; оно требует здравого суждения кодировщика.

Первый этап кодирования заключается в уточнении категорий или классов, к которым будут относиться ответы. Не существует какого-то магического числа категорий. Скорее, это число будет зависеть от исследуемой проблемы и специальных позиций анкеты, используемых для генерирования информации. Выбор ответов должен быть взаимоисключающим и исчерпывающим, чтобы каждый ответ логически попадал в одну, и только одну, категорию. По ряду вопросов правомерны и множественные ответы

Кодирование закрытых вопросов и большинства средств балльной оценки не представляет трудностей, потому что оно устанавливается при конструировании носителя собираемых данных. Затем респонденты кодируют себя своими ответами, или их кодирует тот, кто берет интервью, регистрируя ответы в предусмотренной для этого контрольной ведомости.

Кодирование открытых вопросов может оказаться весьма затруднительным и зачастую много более дорогим, чем кодирование закрытых вопросов. Кодировщику приходится определять подходящие категории на базе ответов, которые не всегда предсказуемы. Международные исследования могут создавать особые проблемы кодирования, поскольку разные понятия могут означать разные вещи.

Если анкет так много, что необходимо использовать нескольких кодировщиков, дополнительной проблемой может стать возникновение несоответствия в самом кодировании. Чтобы удостовериться в логической последовательности обработки данных, эту работу необходимо разделять по задачам, а не в равных долях делить анкеты между кодировщиками. Позволяя кодировщикам сосредоточивать энергию на одном или нескольких вопросах, исследователи могут добиться уверенности в том, что для каждого вопроса будет применяться состоятельный набор стандартов. Такой подход более эффективен еще и по той причине, что кодировщики могут легко запоминать всего несколько кодов, и поэтому им не придется сверяться с книгой кодов, приступая к очередному носителю собранных данных. По существу, когда несколько лиц кодируют один и тот же вопрос в различных пачках анкет, важно, чтобы они же кодировали выборку работы других, что даст гарантию использования согласованного набора критериев кодирования.

Второй этап кодирования касается назначения кодовых номеров классов. Например, мужской пол может обозначаться буквой М, а женский — буквой Р. Как альтернативный вариант, эти классы могут обозначаться 1 — мужчина и 2 — женщина. Вообще говоря, для обозначения классов лучше использовать цифры, а не буквы. На этой стадии также лучше использовать цифры в том виде, как они зафиксировались в форме сбора данных, а не раскладывать их на более мелкие категории. Например, если имеются данные о фактическом возрасте людей, не рекомендуется кодировать возраст как 1 = до 20 лет, 2 = 20-29 лет, 3 = 30-39 лет и т. д. Это привело бы к ненужной потере информации в ее исходном измерении, а если возникнет необходимость градации, это можно будет сделать с той же легкостью на более поздней стадии анализа.

Когда для анализа данных предполагается использовать компьютер, кодирование необходимо выполнять таким образом, чтобы данные оказывались готовыми для ввода в машину. Вне зависимости от того, как будет обрабатываться ввод, либо с помощью чувствительных к меткам форм, либо непосредственно через клавиатуру терминала, полезно обеспечить наглядность ввода посредством многоколонной записи. Кроме того, рекомендуется следовать установившимся традициям кодирования данных.

Располагать только один символ в каждой колонке. Когда вопрос допускает множество ответов, разрешать отдельные колонки для кодирования каждого варианта ответа.

Использовать только числовые коды, а не буквы алфавита или специальные символы вроде @ или пробел. Для большинства компьютерных программ при обработке статистических данных манипулирование чем иным, чем цифры, сопряжено с трудностями.

Использовать ровно столько колонок поля, назначаемого для переменной, сколько необходимо для полного охвата всех ее возможных значений. Так, если переменная такова, что десяти кодов от 0 до 9 для охвата категории недостаточно, необходимо использовать две колонки, обеспечивающие 100 кодов от 00 до 99. Кроме того, любому полю должна назначаться не более чем одна переменная.

Использовать стандартные коды для «отсутствия информации». Так, все ответы «не знаю» должны кодироваться цифрой 8, «нет ответов» — цифрой 9, а «не применялось» обозначаться как 0. Лучше, если во всем исследовании для каждого из этих типов «нет информации» используется один и тот же код.

Кодировать в каждой записи идентификационный номер респондента. Как правило, нет и не будет необходимости идентифицировать в этом номере имя респондента. Этот код просто связывает анкету с кодирующими данными. Такая информация часто полезна на тапе очистки данных (обсуждается позднее). Если анкета координируется не с одной записью, то в каждой записи кодируются идентификационный номер респондента и порядковый номер. Колонка 10 первой записи может указывать, как респондент ответил на вопрос 2, а в колонке 10 второй записи могут содержаться данные о том, мужского или женского пола эта {персона.7

Завершающий этап процесса кодирования состоит в подготовке книги кодов, которая содержит общие инструкции, указывающие, каким образом была закодирована каждая позиция данных. В ней перечисляются коды каждой переменной и категории, включенные в каждый код. Далее в ней указывается, где в компьютерной записи располагается переменная и каким образом эта переменная читается – например, с десятичной точкой или как целое число. Последняя информация обеспечивается установлением формата.

Таким образом, книга кодов – это книга, в которой описывается каждая переменная, дается ее кодовое имя и идентифицируется ее местоположение в записи.После того как значения ответов введены в компьютерный файл, для получения необходимой информации можно использовать компьютерную статистическую программу. Однако перед тем как проводить анализ данных, их необходимо проверить на предмет выявления ошибок, которые могли произойти в процесс ввода. После того как ошибки устранены, можно проводить статистическую корректировку данных.Существует много способов статистической корректировки данных, повышающих пригодность данных для анализа. Наиболее часто используемые процедуры статистической корректировки данных приведены ниже.

Присвоение весов. Присвоение весов – это процедура, при которой каждому ответу в базе данных приписывается число в соответствии с некоторым заранее определенным правилом. Наиболее часто присвоение весов проводится для того, чтобы сделать данные по выборке более репрезентативными по некоторым характеристикам по отношению к целевой совокупности. Категориям респондентов, недостаточно представленным в выборке, присваивают больший вес, а тем, кого оказалось слишком много, – меньший. Присвоение весов производится также для того, чтобы увеличить или уменьшить в выборке число случаев, соответствующих определенным характеристикам.Присвоение весов также может использоваться для придания большей важности ответам респондентов с определенными характеристиками. Например, если исследование проводится с целью определения емкости рынка нового напитка для спортсменов, исследователь может присвоить больший вес мнениям молодых респондентов. Присвоение весов нужно использовать с осторожностью, вести записи о его проведении и включать информацию о нем в отчет об исследовательском проекте.

Переопределение переменных. Переопределение переменных — процедура, при которой существующие данные модифицируются таким образом, чтобы создать новые переменные, или несколько переменных объединяются с целью уменьшения их общего числа. Например, предположим, что первоначально переменная определяется как причина покупки машины с 10 категориями ответов. Эти категории можно объединить в четыре группы: качество функционирования, внешность, цена и обслуживание. Переопределение также может предполагать использование отношения двух переменных с целью создания новой, взятие квадратного корня и логарифмов, использование фиктивных переменных.Фиктивные переменные широко используются для переопределения переменных, имеющих категории ответов. Их также называют двоичными, дихотомическими или качественными переменными. Общее правило их использования выглядит так: если существуют определенное число уровней качественной переменной, для их определения используются число фиктивных переменных на одну меньше. Причина, по которой используются такое количество фиктивных переменных, состоит в том, что лишь такое число уровней (или категорий) являются независимыми, а информация по исключенному уровню может быть получена по оставшимся фиктивным переменным. Продукт можно купить либо в течение первой, либо в течение второй половины года (качественная переменная с двумя уровнями). Поэтому время покупки может быть представлено в виде всего одной фиктивной переменной. Эта переменная будет принимать значение «1» в случае, если продукт был приобретен в течение первой половины года, и «0» — если в течение второй.

Преобразование шкалы. Еще одна широко используемая процедура статистической корректировки данных — преобразование шкалы. Преобразование шкалы предполагает манипулирование значениями шкалы для того, чтобы обеспечить совместимость с другими шкалами. В одном и том же исследовании для измерен;: различных переменных могут использоваться различные шкалы. Таким образе сопоставление полученных по разным шкалам значений было бы бессмысленно. Даже если для всех переменных используется одна и та же шкала, разные респонденты могут использовать ее по-разному. Некоторые участники исследования могут постоянно использовать нижнюю часть порядковой шкалы, другие – верхнюю. Эти различия можно исправить, преобразовав данные соответствующим образом.Одной из наиболее часто используемых процедур преобразования шкалы является стандартизация. Стандартизация (нормирование) позволяет исследователю сравнивать переменные, для измерения которых были использованы шкалы различных типов. Например, если объем продаж измеряется в долларах, а цена – в центах, дисперсия объема продаж будет больше по сравнению с дисперсией цены – из-за различий единиц измерения. Для того чтобы сравнить дисперсии, обе переменные необходимо привести к одинаковым единицам измерения. Этого можно достичь посредством стандартизации: после нее среднее каждой переменой должно равняться нулю, а стандартное отклонение — единице. Математически это выглядит следующим образом: сначала производится вычитание среднего из каждой переменной, после чего она делится на стандартное отклонение. Стандартизацию можно проводить лишь с данными, которым соответствуют интервальная или относительная шкала. Дальнейшая обработка информации, полученной в ходе маркетингового исследования, предполагает осуществление табулирования данных, которое представляется собой первичный этап их анализа.Табулирование заключается просто в подсчете количества событий, которые попадают в различные категории. Табулирование может принимать форму простой табуляции или перекрестной табуляции.Простая (или одномерная) табуляция – подсчет количества событий, которые попадают в каждую категорию, когда категории базируются на одной переменной.Простая табуляция связана с подсчетом для единственной переменной. Она может повторяться для каждой из переменных исследования, но табуляция для каждой переменной не зависит от табуляции для других переменных.

Перекрестная табуляция – подсчет количества событий, которые попадают в каждую из нескольких категорий, когда категории базируются на двух и более переменных, рассматриваемых одновременно.

Перекрестная табуляция позволяет проверить наблюдается ли какая-либо взаимосвязь между рассматриваемыми переменными.

Табуляция может выполняться целиком от руки, целиком машиной или частично машиной и частично от руки. Какой из подходов более эффективен, зависит и от числа необходимых табуляций, и от количества событий в каждой табуляции. Число табуляций является прямой функцией количества переменных, тогда как количество событий — это прямая функция размера выборки. Чем меньшее число табуляций требуется и чем меньше выборка, тем более привлекательными становятся ручные методы. Однако привлекательность любого подхода также в значительной степени зависит от сложности табуляций. Сложность возрастает по мере увеличения числа переменных, получаемых для одновременной обработки в перекрестной табуляции. Сложность также возрастает с увеличением числа категорий на одну переменную.

Хотя в очень простых исследованиях ручная табуляция может оказаться полезной, особенно если вопросов немного и число возможных ответов ограничено, большинство исследований полагается на компьютерную табуляцию, использующую пакеты программ. Существует громадное количество таких программ. Некоторые из них, в дополнение к отчетности о количестве событий в каждой категории, могут рассчитывать итоговые статистики и графически представлять гистограммы значений. Базисный ввод для такого рода статистических анализов называется массивом данных, в котором перечисляются значения каждой переменной для каждого блока статистической выборки. Каждая переменная занимает особое место в записи для блока выборки, что упрощает доступ к ее значениям для всех событий. Местоположение каждой переменной определяется в книге кодов.Для дальнейшего статистического анализа и обработки маркетинговых данных могут применяться более сложные статистические аналитические методики, которые можно классифицировать следующим образом:

Вариационный (дисперсионный) анализ (ряд, распределение частот значений переменной) – математическое распределение, цель которого – подсчет ответов, связанных с различными значениями одной переменной (частот), и дальнейшее выражение их в процентном виде (частность).

Данный вид анализа используется при получении данных по таким вопросам как: влияет ли выбор канала сбыта на объем продаж? Влияет ли вид упаковки на объем продаж? Влияет ли цвет рекламного объявления на его запоминаемость? И др.

Регрессионный анализ – статистический метод установления формы и изучения связей между зависимой переменной и одной или несколькими влияющими переменными.

Данный вид анализа используется при получении данных по таким вопросам как: какова будет цена на товар в следующем году? Как влияет объем инвестиций в авиастроении на спрос на сталь и цветные металлы? Как изменится объем продаж, если расходы на рекламу увеличатся на 50%?Дискриминантный анализ – метод для анализа данных в том случае, когда зависимая переменная категориальная, влияющие переменные интервальные.Данный вид анализа используется при получении данных по таким вопросам как: можно ли считать достаточным основанием для выдачи кредита доход, возраст, образование человека? По каким наиболее существенным признакам можно определить эффективных продавцов и неэффективных? По каким признакам можно определить курящих и некурящих людей? И др.Факторный анализ – метод для сокращения числа переменных и их обобщения.

Данный вид анализа используется при получении данных по таким вопросам как: как можно охарактеризовать различные модели сотовых телефонов с учетом этих факторов? Можно ли сократить множество факторов, которые по мнению покупателей телефонов являются важными, до небольшого числа? И др.

Кластерный (классификационный) анализ – классификации объектов на относительно гомогенные (однородные) группы, исходя из рассматриваемого набора переменных.Данный вид анализа используется при получении данных по таким вопросам как: можно ли классифицировать избирателей с точки зрения их интереса к политике? Существуют ли различные категории читателей глянцевых журналов? Можно ли разделить покупателей на группы в зависимости от их потребностей? И др.

Совместный (сопряженный) анализ – это один из методов анализа зависимости, при котором выделяется одна зависимая переменная и ряд независимых и устанавливается влияние изменения независимых характеристик на зависимую величину.

Данный вид анализа используется при получении данных по таким вопросам различные уровни как: как характеристики продукта повлияют на степень его предпочтительности? др.

Многомерное шкалирование (ММШ, позиционирование) - методы для представления восприятий и предпочтений респондентов с помощью наглядного изображения на плоскости по четырем шкалам (линейкам).

Данный вид анализа используется при получении данных по таким вопросам как: каков имидж покупателя? Изменилось ли отношение покупателей к товару за последние 3 года? Насколько товар соответствует представлению покупателей об идеальном продукте? И др.

Анализ и обработка данных – не самоцель; они предназначены для получения информации, которая поможет решить имеющуюся проблему. На выбор соответствующего метода оказывают влияние несколько факторов, среди которых можно перечислить следующие:

цели исследования;тип данных;процедура проведения исследования;допущения, на которых основана статистическая проверка, и связанные с этим проблемы.При проведении комплексного исследования маркетологи используют в большей или меньшей степени практически все перечисленные методы анализа. После проведения всестороннего анализа качественной и количественной информации маркетологи должны сформулировать выводы, дать рекомендации, разработать стратегию и др.