Человек машине помощник

8 Июня 13:08
Этот блог обычно посвящен распознаванию автомобильных номеров. Но, работая над этой задачей, мы пришли к интересному решению, которое можно с легкостью применять для очень широкого круга задач компьютерного зрения. Об этом сейчас и расскажем: как делать систему распознавания, которая вас не подведет. А если подведет, то ей можно подсказать, где ошибка, переобучить и иметь уже чуть более надежное решение, чем прежде. Добро пожаловать под кат!

Представьте, перед Вами встала задача: найти на фотографии пиццу и определить, что это за вид пиццы. 

Давайте коротко пройдемся тем стандартным путем, которым мы часто ходили. Зачем? Чтобы понять, как делать… не надо.

Шаг 1: наберем базу

Шаг 2: для надежности распознавания можно отметить что есть пицца, а что фон (так включим сегментационную нейронную сеть в процедуру распознавания, но оно часто того стоит):

Шаг 3: приведем ее в “нормализованный вид” и классифицируем с помощью еще одной сверточной нейронной сети:

Отлично! Теперь у нас есть обучающая база. В среднем размер обучающей базы может быть несколько тысяч изображений.

Берем 2 сверточные сети, например, Unet и VGG. Первая обучается на входных изображениях, затем нормализуем изображение и обучаем VGG для классификации. Отлично работает, передаем заказчику и считаем честно заработанные деньги.

Это так не работает!

К сожалению, почти никогда. Есть несколько серьезных проблем, которые возникают при внедрении:

ЧИТАТЬ МАТЕРИАЛ

Комментарии:

Открой меня
Обязательно поучаствуйте: ×