Алгоритм распознавания речи от Mozilla приблизился к человеческому уровню

0
84

Mozilla презентовала инструмент распознавания речи DeepSpeech, обладающий близкой к человеческой точностью определения. Преодолев запланированные 10 % ошибок по отдельному слову, DeepSpeech достиг результата в 6,5 %. У Microsoft аналогичный показатель составляет 5,5 %, а коэффициент ошибок человека равен 5,83 %.

Алгоритм реализован на инструменте машинного обучения с открытым кодом TensorFlow, разработанном компанией Google в 2015 году. Вместе с этим специалисты Mozilla применили метод «глубокого обучения многослойной нейросети», основанный на исследовании учёных из китайской компании Baidu.

Инструменты от компании Mozilla с открытым кодом для разработчиков предоставляются бесплатно. Вдобавок к этому Mozilla предлагает модули для установки алгоритма распознавания речи в программы.

Помимо этого, компания выпустила набор краудсорсинговых записей в рамках проекта Common Voice. Желающие могут помочь в развитии ИИ по распознаванию речи, продиктовав три фразы на сайте проекта. Common Voice и алгоритм Mozilla пока работают только с английским языком, но в будущем разработчики обещают добавить и другие языки.

Крупные IT-компании (Amazon, Apple и Google) имеют преимущество перед стартапами и проектами с открытым исходным кодом. Их продукты собирают большие объёмы данных для обучения, так как пользователи взаимодействуют с системами голосовой связи. Речь идёт о продуктах Alexa, Siri и Google Assistant. Однако на текущий момент объём данных проекта Common Voice уже превзошёл полный звуковой корпус TED Talks. Последний является одним из крупнейших в мире голосовых наборов с открытым исходным кодом.

ОСТАВЬ КОММЕНТАРИЙ

avatar