Як у Львові вчать комп’ютер бачити і аналізувати поведінку людей

Одна з найцікавіших тем, що стосуються нашого майбутнього — безумовно, штучний інтелект. Він асоціюється у нас з “Зоряними Війнами”, “Термінатором” та купою інших фільмів. В цих стрічках роботи бачать, думають та поводяться, як люди, допомагають їм, або, навпаки, — повстають проти них.

Наразі штучний інтелект використовують для куди скромніших завдань, наприклад — розпізнавання об’єктів та образів. І саме над цим активно працюють у Львові. Давай спробуємо розібратися, як навчити комп’ютер бачити так само, як бачить людина. 

Допоможе нам проректор IT Step University Дмитро Пелешко. З ним поговоримо про комп’ютерний зір, штучний інтелект та можливі загрози роботів майбутнього для людини.

Дмитро Пелешко — доктор технічних наук, професор. Близько 15 років займається комп’ютерним зором (computer vision) та побудовою систем інтелектуального аналізу фото зображень та відеопотоків.

Для чого комп’ютеру бачити?

Комп’ютерний зір — розділ штучного інтелекту, що займається видобуванням інформації з зображень, їхньою обробкою й використанням отриманих даних для вирішення всіляких прикладних задач без участі людини: від зчитування штрихкоду в супермаркеті до доповненої реальності. Над якими завданнями, пов’язаними з комп’ютерним зором, займаються викладачі й студенти IT Step University, розповів Дмитро Пелешко:

“Проект, який наш студент планує закінчити до кінця цього року, пов’язаний з керуванням комп’ютером за допомогою рухів очей. Людина повністю паралізована, у неї нічого не рухається, хіба очі. Навпроти стоїть камера, яке розпізнає рухи ока та кліпання, за допомогою яких можна керувати комп’ютером — відкривати аплікації, читати, гортати.

Ще один проект стосується швидкісних поїздів. На вході в, скажімо, інтерсіті, стоятиме камера, що ідентифікує людей, та пристрій, що ідентифікує телефон — і не потрібен ніякий провідник. Навіть більше, система відстежуватиме поведінку пасажирів і намагатиметься виявити, наскільки вони є безпечними.

Також ми виконуємо багато завдань, пов’язаних з прогнозуванням, зокрема поведінковим. Наприклад, система безпеки для одиноких людей похилого віку, що спостерігатиме за людиною, яка живе сама, й визначатиме загрозливі зміни у її поведінці.

Ще ми працювали над розробкою системи, яка даватиме психологам попередню оцінку пацієнта, прослідкувавши за ним всього лише п’ять хвилин, без передісторії. Виглядає все так: психолог навмисне сидить далеко від дверей, з яких заходить пацієнт, на іншому поверсі. За той час, що пацієнт йде, камера розпізнає його і видає психологу психоемоційний стан.

Тут застосовуються нейронні мережі, які вчаться додумувати так, як додумує людина. Наразі вони роблять багато помилок, проте дозволяють нам розв’язувати такі завдання, про які ще вчора ніхто не думав.”

Як навчити комп’ютер бачити?

Без сумніву, очі — одні з найважливіших органів чуття. Вони дають нам можливість інтерпретувати та аналізувати ситуацію, в якій знаходимось, та приймати адекватні рішення. Звернімо увагу на відмінності між тим, як бачить людина і як бачить комп’ютер.

Люди з дитинства вчаться розпізнавати об’єкти, усвідомлюють зміну їхніх форм та розмірів в залежності від розташування та освітлення. Весь накопичений досвід вони використовують для того, щоб додумувати картинку при недостатній кількості інформації: наприклад, спостерігаючи 2-Д зображення — уявити, яким воно виглядало б у 3-Д. Чи, бачачи елемент зображення, вирваний з контексту, добудувати інші деталі й зрозуміти, про що йдеться. Нейрони, призначені для обробки зорової інформації, займають близько 30% кори.

Для того, щоб комп’ютер бачив, використовують цифрові й інтелектуальні камери. І це зовсім не те саме, що людське око. Отримуючи зображення з камери, комп’ютер не може спиратися на здогадки та припущення. Для нього все побачене — це ціла купа пікселів, які треба аналізувати з допомогою відповідного програмного забезпечення, що обробляє зображення.

Ще всередині 2000-х комп’ютер не міг відрізнити кота від собаки на фото, навіть при використанні найкращих на той час алгоритмів.

Зараз же все значно простіше: в нас є нейронні мережі, яким можна подати на вхід зображення, і вони з дуже високою точністю скажуть, хто на фото — кіт чи пес. Більше того, вони зможуть навіть визначити породу, при потребі.

Нейронні мережі мають величезну кількість параметрів. І налаштовує їх не програміст вручну, а сам комп’ютер в процесі машинного навчання, знайомлячись з величезною кількістю фотографій.

До чого все це приведе?


Думки експертів щодо штучного інтелекту, який бачитиме як людина, чутиме як людина та думатиме як людина (а згодом, ймовірно, — і краще), розходяться. Хтось бачить в ньому вирішення всіх людських проблем, хтось — пряму загрозу для людства.

Проректор IT Step University дотримується думки, що все буде ок і комп’ютери не перевершать інтелект людини. “В мене не такі апокаліптичні бачення, як в Маска чи як були в Хокінга. Не думаю, що машина, створена людиною, рано чи пізно стане розумнішою за неї. Тому що навряд чи вдасться побудувати ідеальну систему, яка додумуватиме так, як додумуємо ми. Принаймні, наразі механізми цього додумування не є до кінця зрозумілими.”

Що відбувається за дверима цього універу — ти, мабуть, вже знаєш: тут нема нудних лекцій, викладачі — справжні бро, а такими проектами студенти займаються вже з першого курсу. Якщо захочеш дізнатися більше чи навіть вступити — тисни сюди.