Как машинное зрение стало неотъемлемой частью нашей повседневной жизни?

На протяжении многих десятилетий люди мечтали о создании машин с характеристиками человеческого интеллекта, способных думать и действовать как люди. Одной из самых захватывающих идей было наделить компьютеры способностью «видеть» и интерпретировать окружающий мир. Вчерашняя фантастика стала сегодняшней реальностью.
Благодаря достижениям в области искусственного интеллекта технология компьютерного зрения сделала огромный скачок к тому, чтобы интегрироваться в нашу повседневную жизнь. Ожидается, что к концу 2022 года рынок компьютерного зрения достигнет 48,6 миллиарда долларов, что делает его чрезвычайно перспективной технологией UX.
В этой статье мы рассмотрим, когда появилось машинное зрение и как оно работает.
Что такое машинное зрение?
Машинное зрение – это область компьютерной науки, которая фокусируется на создании цифровых систем, способных обрабатывать, анализировать и понимать визуальные данные (изображения или видео) так же, как это делает человек. Концепция компьютерного зрения основана на обучении компьютеров не только обрабатывать изображение (на уровне пикселей), но и понимать его. Технически машины пытаются получить визуальную информацию, обработать ее и интерпретировать результаты с помощью специальных программных алгоритмов.
Вот несколько распространенных задач, для решения которых могут использоваться системы машинного зрения:
- Классификация объектов. Система анализирует визуальный контент и относит объект на фото/видео к определенной категории. Например, система может найти кошку среди всех объектов на изображении.
- Идентификация объекта. Система анализирует визуальный контент и идентифицирует конкретный объект на фото/видео. Например, система может найти конкретную кошку среди всех кошек на изображении.
- Отслеживание объекта. Система обрабатывает видео, находит объект (или объекты), соответствующий критериям поиска, и отслеживает его перемещение.
Как работает машинное зрение?
Для того, чтобы понять как работает машинное зрение, приведем элементарный пример. Возьмем фотографии пиццы маргариты и мороженого. Вы предоставляете системе искусственного интеллекта множество фотографий, на которых изображены оба продукта. Затем компьютер пропускает фотографии через несколько уровней обработки – которые составляют нейронную сеть – чтобы пошагово отличить мороженое от пиццы маргариты. Предыдущие уровни рассматривают основные свойства, такие как линии или края между светлыми и темными частями изображения, в то время как последующие уровни определяют более сложные особенности, такие как формы или даже лица. Это происходит потому, что системы машинного зрения работают, воспринимая изображение (или видео) как серию пикселей, каждый из которых помечен значением цвета. Эти метки служат в качестве входных данных, которые обрабатываются системой при прохождении изображения через нейронную сеть.

Когда появилось машинное зрение?
Машинное зрение – совсем не новая технология. Первые эксперименты начались еще в 1950-х годах, и тогда оно использовалось для обработки машинописного и рукописного текста. В течение следующих нескольких десятилетий еще больше технических изобретений способствовали созданию машинного зрения: например, была разработана технология компьютерного сканирования, которая впервые позволила компьютерам оцифровывать изображения. Затем появилась возможность превращать двухмерные изображения в трехмерные формы. Технология распознавания объектов, позволяющая распознавать текст, появилась в 1974 году. И только к 1982 году машинное зрение действительно начало формироваться.
Интересные факты о машинном зрении:
- Первая отрасль, которую изменило машинное зрение, стало сельское хозяйство. Да, да, именно оно. Prospera, стартап, базирующийся в Тель-Авиве, использует камеры для наблюдения не только за посевами, но и за “самочувствием” растений, выявляя заболевания (например, увядание растений). Вот и другой пример – американская компания John Deere, специализирующаяся на производстве промышленной техники, обратилась за помощью к стартапу в области машинного зрения “Blue River”. После внедрения “умных” камер на основе машинного зрения стало возможно различать здоровые и нездоровые культуры во время прохождения техники по полю. Тем самым, на нездоровые растения распределяются пестициды и гербициды (такая система тоже основана на машинном зрении).
- Беспилотное вождение – это, вероятно, самая большая возможность в машинном зрении на сегодняшний день. Создание самоуправляемого автомобиля – почти полностью задача машинного зрения. Датчики – это, по сути, “органы чувств” беспилотного автомобиля и основа его дальнейших действий. В настоящее время существует четыре основных типа датчиков: камера, лидар, радар, ультразвуковой датчик.
- Некоторые ситуации показывают, что машинное зрение эффективнее человеческого. Например, Команда Google CV разработала аппарат, который может диагностировать диабетическую ретинопатию (осложнение, которое может привести к слепоте у пациентов с диабетом, но поддается лечению, если ее обнаружить на ранней стадии) лучше, чем врач-офтальмолог. С помощью технологии, которая была отработана на сотнях тысяч изображений, Google использует CV для проверки фотографий сетчатки глаза в надежде на более раннюю стадию заболевания.
Источники: xd.adobe.com, venturebeat.com

Анастасия Андриянова