«Нейросети могут давать настолько же точные оценки, как и человек»

Голосовые помощники стали частью обычной жизни. Они могут строить маршрут, включать музыку и фильмы, отвечать на вопросы. Качество речи голосовых ассистентов требует оценки. Для решения этой задачи студенты мастерской по прикладному искусственному интеллекту ИМШ НИУ ВШЭ и VK разработали нейросети, способные оценивать синтез речи.
Никита Шевцов
«Технологии Text-to-Speech превращают текст в речь. Это те самые голоса, которые мы слышим в навигаторах или аудиокнигах. Чтобы понять, насколько хорошо работает синтез, раньше требовалась ручная проверка: люди слушали записи и выставляли оценки. Мы решили автоматизировать этот процесс. Студентам мастерской предстояло создать систему, которая заменит субъективную оценку на нейросетевую модель. Ручная разметка не только дорогая и долгая, но и требует участия множества специалистов», — говорит Никита Шевцов, руководитель проекта мастерской по прикладному искусственному интеллекту ИМШ НИУ ВШЭ и VK.
Студенты мастерской ИМШ и VK использовали открытые англоязычные датасеты SOMOS, содержащие 20 100 аудиофрагментов, 200 TTS-систем, 987 асессоров и более 350 000 оценок.
На их основе были подготовлены и внедрены две метрики: MOS (Mean Opinion Score) — оценка одного аудиофайла от 1 до 5; SBS (Side-by-Side) — сравнение двух аудиофрагментов с выбором лучшего. Также были разработаны пять моделей: для MOS — MOSNet, MOSNetBert, WhisperBert; для SBS — NeuralSBS, NeuralSBSBert. Модели работают как в аудиоформате, так и в мультимодальном формате.
«Мы увидели, что нейросети могут давать настолько же точные оценки, как и человек. MOS-модели показали RMSE ≈ 0,4, что близко к человеческой погрешности 0,62. Модель NeuralSBS определяет лучшее аудио в 73% случаев — на уровне среднего субъективного слушателя. Это открывает путь к ускорению и удешевлению оценки качества TTS», — отметил Никита Шевцов.
Следующий этап — переобучение моделей на русском языке. Команда также рассматривает возможность интеграции оценочных моделей в пайплайны CI/CD, чтобы внедрить автоматическую проверку качества в производственные процессы генерации речи.
«Автоматическая оценка синтеза речи — это шаг к более надежным и масштабируемым TTS-системам. Мы собираемся сделать ее доступной для широкой разработки», — добавил Никита Шевцов.
Вам также может быть интересно:
В НИУ ВШЭ пройдет II конгресс «Генетика и сердце»
Высшая школа экономики, Национальная исследовательская лига кардиологической генетики (НИЛКГ) и Центральная государственная медицинская академия (ЦГМА) Управления делами Президента РФ организуют II Конгресс с международным участием «Генетика и сердце». Мероприятие состоится 7–8 февраля 2026 года в Центре культур НИУ ВШЭ.
Ученые ВШЭ выяснили, как сила авторитета формирует доверие
Исследователи Института когнитивных нейронаук НИУ ВШЭ выяснили, как мозг реагирует на аудиодипфейки — реалистичные поддельные записи речи, созданные с помощью ИИ. Выяснилось, что люди склонны доверять мнению авторитетного спикера даже в тех случаях, когда новые утверждения противоречат его прежней позиции. Это работает и в ситуациях, когда утверждение не согласуется с собственным мнением слушающего. Исследование опубликовано в журнале NeuroImage.
МИЭМ ВШЭ и Инновационный центр «Альфачип» заключили соглашение о сотрудничестве
Среди основных задач — совместные проекты в области микроэлектроники, участие специалистов компании в сопровождении научно-исследовательской деятельности студентов и аспирантов. Также планируется подготовка совместных научных публикаций, организация производственной практики и стажировок студентов, повышение квалификации специалистов компании.
«Я — профессионал»: ВШЭ — в лидерах по числу студентов в заключительном этапе
С сентября самые талантливые студенты со всей страны боролись за право стать частью вселенной карьерных возможностей «Я — профессионал» и получить доступ к бонусам при поступлении в магистратуру Высшей школы экономики, стажировкам в известных компаниях-партнерах («Яндекс», Сбербанк, ВТБ, РЖД и др.) и денежному вознаграждению до 300 000 рублей. Вышка вошла в число лидеров по количеству студентов, прошедших в заключительный этап олимпиады «Я — профессионал», который состоится с февраля по апрель 2026 года.
Математик из НИУ ВШЭ в Нижнем Новгороде нашел способ решить уравнение, нерешаемое с XIX века
Ученый из НИУ ВШЭ в Нижнем Новгороде и ИППИ РАН Иван Ремизов совершил концептуальный прорыв в теории дифференциальных уравнений. Ему удалось вывести универсальную формулу для решения задач, которые более 190 лет считались нерешаемыми аналитическим путем. Полученный результат радикально меняет картину мира в одной из старейших областей математики, важной для фундаментальной физики и экономики. Результаты работы опубликованы во Владикавказском математическом журнале.
НИУ ВШЭ и ГК InfoWatch подписали соглашение о сотрудничестве
Соглашение ознаменует новый этап сотрудничества между НИУ ВШЭ и ГК InfoWatch, который направлен на развитие образовательных программ и укрепление практико-ориентированного подхода в подготовке кадров для цифровой экономики. Стороны договорились совместно разрабатывать и проводить экспертизу учебных программ. Кроме того, эксперты ГК InfoWatch будут вести преподавательскую работу в рамках обучения студентов IT- и ИБ-направлений Высшей школы экономики.
В Вышке повысят квалификацию руководители, отвечающие за информационную безопасность
В НИУ ВШЭ стартовал набор на программу повышения квалификации «Кибербезопасность как стратегия», выпускники которой будут внедрять на своих предприятиях лучшие практики стратегического и операционного управления информационной безопасностью. Начало занятий запланировано на 16 марта. В чем актуальность программы, на кого она рассчитана и чему будут обучать слушателей, рассказал ее руководитель, директор Центра программных разработок и цифровых сервисов МИЭМ НИУ ВШЭ Антон Сергеев.
НИУ ВШЭ, MR и ГК «А101» будут готовить специалистов по территориальному развитию
В 2026 году на факультете городского и регионального развития (ФГРР) Вышки открывается новая образовательная программа бакалавриата «Девелопмент и городское планирование». Ключевые партнеры образовательной программы — компания MR и Группа компаний «А101».
МИЭМ ВШЭ проведет XXX, юбилейную межвузовскую конференцию имени Е.В. Арменского
20–27 апреля в Московском институте электроники и математики имени А.Н. Тихонова ВШЭ пройдет главное для МИЭМ научное студенческое событие года — юбилейная, XXX ежегодная межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов имени основателя и первого ректора МИЭМ Евгения Викториновича Арменского. В конференции могут принять участие студенты, аспиранты вузов и молодые специалисты, работающие в сфере электроники, в ИТ-области, телекоммуникациях, материаловедении. Отдельная секция конференции открыта для школьников.
Участники СВО и их дети впервые смогут поступить в НИУ ВШЭ на бюджетные места на онлайн-программы
В рамках приемной кампании 2026 года Высшая школа экономики впервые открыла бюджетный набор на онлайн-программы бакалавриата с целью выделить места для поступления абитуриентов по отдельной квоте. Ранее прием на образовательные программы, реализуемые в онлайн-формате, осуществлялся только на платной основе.


