Разработка проекта по анализу данных

Сегодня мы находим данные повсюду. Социальные сети, тематические и новостные порталы, обучающие сайты – все они содержат массу свободно доступной информации. Работа специалиста по анализу данных заключается в том, чтобы:

  1. поставить задачу,
  2. собрать массив данных,
  3. подготовить его для обработки,
  4. провести работу по извлечению необходимой информации,
  5. сделать выводы и подготовить отчет о проделанной работе.

Например, нам необходимо исследовать частоту использования эмодзи в социальных сетях. Для этого мы:

  1. ставим задачу по изучению первых 15 по распространенности эмодзи в Твиттере, Инстаграме и Фейсбуке,
  2. ищем готовые наборы данных для каждой из социальных сетей (или создаем их сами) и отдельно – данные по эмодзи в целом,
  3. делаем массивы данных для каждой из социальных сетей однородными: эмодзи в каждом наборе данных должны иметь одинаковые названия и отсортированы по частоте использования,
  4. подсчитываем относительную (относительно общего количества) частоту использования самых популярных эмодзи и их отношения для каждой из социальных сетей,
  5. делаем выводы: 10–15 самых популярных эмодзи составляют лишь небольшую долю от общего их количества, то есть, люди любят разнообразие. При этом, самые популярные эмодзи для разных социальных сетей не всегда совпадают, то есть, у каждой сети есть свой «эмодзи-почерк».

Таким образом, для создания своего проекта по анализу данных необходимо заранее спланировать исследование и не останавливаться на получении первых выводов, даже если они кажутся незначительными, и довести исследование до результата – отчета. Отсутствие результата – тоже результат!

Постановка задач

Для постановки задачи необходимо с самого начала думать о количественных и измеримых параметрах. «Я хочу исследовать статистику самых популярных видео на Ютюбе!», захочет сказать исследователь. Но цель сформулирована слишком размыто. Что значит «самых популярных»? Какая статистика? Каких видео? Вообще или только в мае 2020 года? Или на период карантина в городе Москве? Или только русскоязычных видео? Нужно конкретнее:

  1. Необходимо указать конкретный временной промежуток. Даже со статистикой эмодзи в предыдущем примере, которая, казалось бы, не меняется год от года, есть важные изменения.
  2. Нужно выделить количественные и измеримые параметры. Видео, попавшие за апрель и май в тренды в русскоязычном Ютюбе, ранжирование будет сделано по числу просмотров и периоду, за которые они были набраны. Дополнительно, будет измерено количество лайков и дизлайков для каждого видео, продолжительность ролика, будут проанализированы теги и описания под видео.
  3. Нужно четко определить границы выборки, чтобы цель была достижима. Ведь если окажется, что надо проанализировать параметры 500 видео, а к сбору информации о первых 100 цифры для следующих уже выросли на 10%, исследование нельзя будет выполнить корректно.
  4. Наконец, не следует забывать о том, что поставленная задача должна удовлетворять реальной цели исследования. Зачем мы хотим анализировать самые популярные видео на Ютюбе? Если для того, чтобы выбрать тему своего канала, тогда следует исследовать не просто самые популярные видео, а такие, которые будут интересны предполагаемой аудитории своего канала.

Сформулированная по приведенным правилам задача удовлетворяет критериям SMART (по-английски, умный):

Это мнемоническая аббревиатура, используемая в менеджменте и проектном управлении для определения целей и постановки задач. Первое известное использование термина встречается в работе Пола Майра в 1965 и позже в ноябре 1981 году в работе Management Review by George T. Doran.

Она расшифровывается так:

  1. Specific (Конкретность),
  2. Measurable (Измеримость),
  3. Attainable (Достижимость),
  4. Relevant (Уместность),
  5. Time-bound (Ограниченность во времени).

По-русски аналогично сформулирован принцип ВОДКИ. Цели и задачи должны быть:

  1. Вдохновляющими, сконцентрированными на результат, а не действия;
  2. Ограниченными по времени;
  3. Дерзкими, но достижимыми;
  4. Конкретными;
  5. Измеряемыми.

Обоснование выбора набора данных

После постановки задач по приведенным критериям обоснование выбора данных происходит автоматически: уже ясно, зачем нам исследование, почему набор данных именно такой и по каким параметрам его следует обрабатывать и анализировать.

Подготовка проекта к защите

Когда хотя бы приблизительно готовы выводы, проект готовится к защите. Обычно:
  1. Готовятся тезисы исследования: ответы на вопросы «в каких данных что искалось и что удалось выяснить»;
  2. Готовится презентация с как минимум четырьмя слайдами:

Практическая часть

Ссылки