“Наука про дані” (Data Science) – це набір методологій, призначених для того, щоб взяти різні форми даних, які доступні нам сьогодні, та використати їх для отримання важливих висновків. Щодня дослідники та різні організації збирають інформацію про кожен лайк, клік, банківську транзакцію, твіт, геолокацію тощо. Ця інформація може бути використана для кращого опису сьогодення чи кращого прогнозування майбутнього. Зокрема, з допомогою даних можна описати поточний стан організації чи процесу (наприклад, відслідковувати споживання електроенергії через інформаційну панель), виявити аномальні події (наприклад, шахрайські дії з картками), діагностувати причини подій та поведінки (наприклад, активність користувача на стрімінгових сервісах), прогнозувати майбутні події (наприклад, кількість населення).

Мета освітньої траєкторії “Наука про дані” визначається через систему здатностей, які має продемонструвати студент після її засвоєння, а саме:

  • здатність обирати та налаштовувати апаратно-програмні засоби, хмарні сервіси і середовища розроблення систем аналізу даних, машинного і глибинного навчання, комп’ютерного зору тощо;
  • здатність застосовувати у певній предметній галузі математичні моделі, методи й алгоритми для проектування, розроблення і модернізації систем аналізу даних, машинного і глибинного навчання, комп’ютерного зору тощо;
  • здатність до виявлення статистичних закономірностей недетермінованих явищ, застосування методів обчислювального інтелекту, зокрема статистичної, нейромережевої та нечіткої обробки даних, методів машинного навчання та генетичного програмування тощо;
  • здатність застосовувати теоретичні та практичні основи методології та технології моделювання для дослідження характеристик і поведінки складних об’єктів і систем, проводити обчислювальні експерименти з обробкою й аналізом результатів;
  • здатність до інтелектуального аналізу даних на основі методів обчислювального інтелекту включно з великими та погано структурованими даними, їхньої оперативної обробки та візуалізації результатів аналізу в процесі розв’язування прикладних задач.

Результати навчання

У результаті успішного завершення освітньої траєкторії “Наука про дані” студент повинен знати та вміти застосовувати на практиці такі основні методи, інструменти і технології:

  • мови програмування Python і R, алгоритми і структури даних, реляційні та нереляційні бази даних, об’єктно-орієнтоване програмування, функційне програмування, тестування, найкращі практики програмування тощо;
  • бібліотеки jupyter, numpy, pandas, scipy, scikit-learn, keras, matplotlib, seaborn, statistics та інші пакети і програмні каркаси;
  • вибірка, дисперсія, розподіл, кореляція, p-значення, t-критерій Ст’юдента, трансформація даних та багато інших понять із статистики та аналізу даних;
  • міжгалузевий стандартний процес дослідження даних, методи машинного навчання, глибинне навчання, методи комп’ютерного зору, обробки природної мови, нейронні мережі, налаштування гіперпараметрів моделі, підбір цільової функції та метрики для оцінювання результату, методи аналізу часових рядів (зокрема інтегровану модель авторегресії ковзного середнього), інші методи машинного навчання;
  • методи й алгоритми обчислювального інтелекту та інтелектуального аналізу даних в задачах класифікації, прогнозування, кластерного аналізу, пошуку асоціативних правил з використанням програмних інструментів підтримки багатовимірного аналізу даних на основі технологій DataMining, TextMining, WebMining;
  • візуалізація даних, дослідження найкращих практик опублікованих на arxiv.org, змагання Kaggle, веб-сервіси від Амазон, Гугл та багато іншого.

Компоненти освітньої траєкторії (дисципліни)

Освітню траєкторію “Наука про дані” формують такі основні дисципліни:

  • Вища математика
  • Алгоритми і структури даних
  • Об’єктно-орієнтоване та функційне програмування на мові Python
  • Бази і сховища даних
  • Основи штучного інтелекту
  • Хмарні технології
  • Автоматизація життєвого циклу програмного продукту
  • Аналітика даних
  • Основи машинного навчання
  • Вступ до комп’ютерного зору
  • Вступ до глибинного навчання

Майбутні позиції та ролі в ІТ

Випускники нашого університету, які обрали освітню траєкторію “Наука про дані” можуть працювати на таких основних позиціях: інженер даних (Data Engineer), аналітик даних (Data Analyst), дослідник даних (Data Scientist) та дослідник даних із спеціалізацією у машинному навчанні (Machine Learning Scientist).

На практиці, під час виконання проектів у ІТ-компаніях, усі описані вище ролі часто уособлені в одній людині, проте останнім часом можна спостерігати тенденцію пошуку рекрутерами саме спеціалізованих фахівців, пов’язаних з “Наукою про дані”, а не “майстрів на всі руки”, що, на наш погляд, є хорошою практикою.

Розглянемо кожну із позицій детальніше.

  1. Інженер даних. Розробляє інформаційну архітектуру, створюють конвеєри даних (data pipelines) та системи зберігання, підтримує доступ до даних.

Етапи робочого процесу, за який відповідає фахівець: збір та зберігання даних (І етап).

Інструменти. SQL – для зберігання та впорядкування даних. Java, Scala або Python – мови програмування для обробки даних. Оболонка – командний рядок для автоматизації та запуску завдання. Хмарні обчислення – Amazon Web Services, Azure, Google Cloud Platform.

  1. Аналітик даних. Виконує простий аналіз, що описує дані. Створює звіти та інформаційні панелі для узагальнення даних. Очищує дані для аналізу. Аналітики менше задіюються до програмування та статистичного аналізу ніж інші ролі.

Етапи робочого процесу, за який відповідає фахівець: підготовка даних (ІІ етап); дослідження та візуалізація даних (ІІІ етап).

Інструменти. SQL – для отримання та агрегування даних. Електронні таблиці (Excel або Google Sheets) – для виконання простого аналізу невеликої кількості даних. Інструменти бізнес-аналітики (Tableau, Power BI, Looker) – для створення інформаційних панелей та візуалізації даних. Може використовувати Python або R для очищення та аналізу даних.

  1. Дослідник даних. Досвідчений у статистичних методах. Проводить експерименти та аналізує дані для отримання знань (тобто формує нові ідеї на основі даних, а не лише описує їх). Застосовує класичні методи машинного навчання для прогнозування.

Етапи робочого процесу, за який відповідає фахівець: підготовка даних (ІІ етап); дослідження та візуалізація даних (ІІІ етап); експерименти з даними та прогнозування (IV етап).

Інструменти. SQL – для отримання та агрегування даних. Python та/або R – повторно застосовує код, що містять бібліотеки, пов’язані з “Наукою про дані”, наприклад, pandas (Python) та tidyverse (R) для повсякденних завдань дослідника даних та/або створює оригінальні алгоритми та рішення у інноваційних проектах.

  1. Дослідник даних із спеціалізацією у машинному навчанні. Здійснює прогнозування та екстраполяцію на основі даних. Розв’язує завдання класифікації (зокрема, незбалансованої). Розв’язує задачі глибинного навчання, зокрема пов’язані з комп’ютерним зором, обробкою зображень і природної мови.

Етапи робочого процесу, за який відповідає фахівець: підготовка даних (ІІ етап); дослідження та візуалізація даних (ІІІ етап); особливий акцент на останньому етапі – експерименти з даними та прогнозування (IV етап).

Інструменти. Python та/або R – у доповнення до інструментарія звичайного дослідника даних, використовує бібліотеки машинного навчання, наприклад, TensorFlow або Spark та інші.

Які особливості організації навчання за цією освітньою траєкторією, як побудований навчальний процес?

Варто виділити декілька особливостей організації навчального процесу за траєкторією “Наука про дані”, що робить підготовку дослідників даних у нашому університеті унікальною:

  • виконання проектних робіт, зокрема пов’язаних з “Наукою про дані” (деталі тут);
  • студентський клуб “Наука про дані” (деталі тут);
  • найкращі студенти матимуть змогу виконувати проекти у ІТ-компаніях, зокрема пов’язані з “Наукою про дані”, на випускному курсі у межах підготовки бакалаврської кваліфікаційної роботи;
  • кожен студент має безкоштовний доступ до платних курсів на ресурсах DataCamp.com та DataQuest.io.

Над якими проектами працюють студенти? Цікаві кейси

У травні 2020 року студенти бакалаврату захистили власні проектні роботи, над якими вони працювали впродовж усього навчального року (2019/2020).

Серед них варто виділити проектні роботи, пов’язані з “Наукою про дані”:

  1. Розумний дверний дзвінок (відео). Керівник проектної роботи – Юрій Ратушняк

Надзвичайно приємно, що студент Богдан Борисей, який презентував цей проект на конкурсі студентських доробок у галузі природничих і технічних наук, які мають значення для Львівщини, сприяють подальшому розвитку науки та суспільному прогресу, став лауреатом премії від ЛОДА та ЛОР і отримав перше місце (деталі тут)

  1. Відеоаналітика черги торгової точки. Керівник проектної роботи – Юрій Ратушняк

Студенти розпочали розробку ще до запровадження карантину і, як виявилося, надзвичайно актуальної системи з огляду на контроль за дотриманням карантинних обмежень по кількості відвідувачів торгової точки.

  1. Виявлення випадків здійснення шахрайських операцій в системах електронних платежів (змагання на Kaggle). Керівник проектної роботи – Павло Ткаченко

Студенти використовували методи і засоби “Науки про дані” для аналізу мільйонів транзакцій, щоб виявити закономірності, які відповідають шахрайській поведінці.

2020/2021 навчального року  студенти взялися за виконання нових проектів, серед яких дотичними до “Науки про дані” є два:

  1. Робоча назва проекту “Антифейк платформа”. Керівник проектної роботи – Олексій Максимів

Метою проекту є зменшення рівня дезінформації в суспільстві щодо політики у результаті перевірки інформації на достовірність. Дані збираються парсингом публікацій користувачів сервісу. Для безпосереднього аналізу тексту використовується обробка природної мови. Після аналізу приймається рішення про достовірність інформації. Бот сервісу у соцмережах коментує відповідні публікації згідно отриманих результатів. Як наслідок, ті публікації, де інформація не відповідає дійсності, не будуть мати сенсу для подальшого поширення.

  1. Розумна парковка. Керівник проектної роботи – Юрій Ратушняк

Студенти розробляють апаратно-програмну систему для моніторингу (занятих /вільних) паркувальних місць на основі відеопотоку з камер. Така система дозволить суттєво знизити витрати часу та пального при пошуку місця для паркування. Також потрібно розробити зручний інтерфейс для користувачів (інформаційне табло/веб-сервіс/мобільний застосунок), реалізувати рішення для автоматичного створення або завантаження схеми місць для паркування, надати можливість інтеграції в інші продукти завдяки створенню API.

Викладацька команда

Для представлення викладацької команди освітньої траєкторії “Наука про дані” доречно процитувати гаранта освітньої програми, професора університету Тарас Рака: “… До викладання професійно-орієнтованих дисциплін запрошуємо фахівців, які мають значний практичний досвід в контексті конкретної дисципліни і безпосередньо працюють в компаніях чи над власними проектами. Взаємодія студентів з такими фахівцями дає їм можливість завжди отримувати актуальні знання, працювати з актуальними на даний момент технологіями та інструментами, розуміти як розвивається ринок ІТ-галузі…” (деталі тут).

Усі викладачі освітньої траєкторії “Наука про дані” мають тривалий стаж роботи в ІТ компаніях різного масштабу і/або на фрілансі і/або викладання профільних дисциплін у закладах вищої освіти. Крім того, викладачі мають відповідну освіту і наукові ступені, пов’язані з інформаційними технологіями або дотичними спеціальностями.

Керівник напряму

Ратушняк Юрій – керівник напрямку досліджень і розробок ІТ СТЕП Університету та керівник освітньої траектрорії “Наука про дані”.

  • Кандидат технічних наук (спеціальність “Інформаційні технології”).
  • Понад 10 років в ІТ та понад 5 років в Data Science.
  • Виконував ролі R&D Specialist, Data Analyst, Data Scientist і Machine Learning Scientist у ІТ-компаніях (SoftServe, ISG) та на фрілансі.
  • Основний досвід та компетентності пов’язані зі статистикою, системним аналізом, обробкою зображень і комп’ютерним зором, великими даними, машинним і глибинним навчанням, мовами програмування Matlab/Python/R, аналізом та розробкою науково-технічної документації та статей.
  • Профіль у Linkedin 

Кому і як краще вибрати даний напрям? Поради абітурієнтам

Усім хто хоче обрати освітню траєкторію “Наука про дані” рекомендуємо мати достатньо високий рівень знань з математики, особливо з таких розділів як лінійна алгебра, статистичні методи та теорія ймовірностей (ці дисципліни ви вивчатимете на 1 і 2 курсах університету). Крім того рекомендуємо добре освоїти дисципліни, пов’язані з програмуванням. Постійно розвивайте свої м’які навички, зокрема вміння спілкуватися з людьми.

Ще декілька порад. Зосередьтесь на якійсь одній мові програмування. Рекомендуємо Python. У доповнення до занять в університеті завершіть декілька відкритих курсів (класика – Machine Learning на Coursera, а також MLcourse.ai). Виконуйте якомога більше проектів з реальними даними. Спробуйте себе у змаганнях на Kaggle. Ставайте частиною онлайн та офлайн спільноти “Наука про дані”, слідкуйте за останніми трендами в галузі.

Чому ця освітня траєкторія є актуальною?

Останні 5 років професія дослідника даних потрапляє на найвищі сходинки найрізноманітніших рейтингів. Наприклад, з 2016 року дослідник даник – це професія номер один у США і лише у 2020 році перемістилась на третю позицію. Окрім цього дослідник даних та подібні посади фахівців, що працюють у галузі “Наука про дані” мають стабільно високу медіану зарплат у порівнянні з іншими ІТ-спеціалістами, високу кількість вакансій у різних сферах людської діяльності (медицина, ІТ, банківська справа, тощо) на найрізноманітніші позиції, пов’язані з опрацюванням даних, а найосновніше – один з найвищих рівнів задоволеності працівників своєю роботою (інформація згідно рейтингу Glassdoor).

Ще одним важливим фактором на користь актуальності освітньої траєкторії “Наука про дані” є те, що зростання зайнятості у серпні-вересні 2020 року (з огляду на пандемію COVID-19) дослідників даних є одним з найвищих серед ІТ-спеціальностей і складає 11% за даними Dice.com (деталі тут).

Подібні тренди, щоправда у менших масштабах, спостерігаються і на українському ринку праці (згідно даних DOU.ua). 

З огляду на те, що “Наука про дані” залишається прибутковою галуззю ІТ, університети в усьому світі продовжують створювати відповідні освітні спеціалізації. За даними DataSciencePrograms.org, станом на кінець 2020 року існує понад 830 окремих програм, пов’язаних з “Наукою про дані” на різних рівнях освіти, що пропонують приблизно у 500 університетах по всьому світу, а магістр зі спеціалізацією “Наука про дані” – це найпопулярніший ступінь.

Наш університет не є виключенням. Ми пропонуємо освітні продукти, які зменшать нестачу на ринку праці висококваліфікованих фахівців для роботи з даними, а саме: освітню траєкторію “Наука про дані” для бакалаврського рівня і освітньо-професійну програму “Прикладний штучний інтелект” для магістерського рівня.

Основні тренди в галузі

У статті “Top 10 Data and Analytics Trends for 2021” представлені 10 трендів у “Науці про дані” 2021 року на думку фахівців Gartner.

 

 

Якщо маєте запитання щодо вступу, бажаєте побачити атмосферу нашого університету та дізнатися більше про досягнення та успіхи наших студентів – реєструйтеся на консультацію:

Для цього просимо зареєструватися:

Детальніше про умови вступу та правила прийому в IT STEP University можна дізнатися за телефонами: