Авторы: Шаврина, Татьяна; Феногенова, Алена; Емельянов, Антон; Шевелев, Денис; Артемова, Екатерина; Малых, Валентин; Михайлов, Владислав; Тихонова, Мария; Черток, Андрей; Евлампиев, Андрей;
Издание: In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)
Аннотация:
В этой статье мы описываем метод оценки общего понимания русского языка — Russian SuperGLUE. Последние достижения в области универсальных языковых моделей и моделей архитектуры Transformer требуют разработки методики их широкой диагностики и проверки на общие интеллектуальные навыки — обнаружение естественно-языкового вывода, здравого смысла, способности выполнять простые логические операции вне зависимости от тематики текста или лексики. Впервые для русского языка с нуля был разработан бенчмарк из девяти заданий, собранных и организованных по аналогии с методикой SuperGLUE. Мы также предоставляем исходные данные, оценку человеком, платформу с открытым исходным кодом для оценки моделей и упорядоченный по качеству список моделей для русского языка. Кроме того, мы представляем первые результаты сравнения многоязычных моделей в наборе переведенных диагностических тестов и предлагаем первые шаги к дальнейшему расширению или оценке современных моделей независимо от языка.
Ссылка: https://aclanthology.org/2020.emnlp-main.381/
2. SumTitles: a summarization dataset with low extractiveness, 2020.
Авторы: Малых, Валентин; Чернис, Константин; Артемова, Екатерина; Пионтковская, Ирина;
Издание: In Proceedings of the 28th International Conference on Computational Linguistics
Аннотация:
Существующие корпуса для реферирования диалогов являются весьма экстрактивными. Мы представляем методологию оценки экстрактивности корпуса и представляем новый корпус диалогов из фильмов с низким уровнем экстрактивности для абстрактного реферирования текста наряду с базовой оценкой. Корпус содержит 153 тыс. диалогов и состоит из трех частей: 1) автоматически выровненные субтитры, 2) автоматически выровненные сцены из сценариев и 3) выровненные вручную сцены из сценариев. Мы также представляем алгоритм выравнивания, который мы используем для построения корпуса.
Ссылка: https://aclanthology.org/2020.coling-main.503/
3. Grad-tts: A diffusion probabilistic model for text-to-speech, 2021.
Авторы: Попов, Вадим; Вовк, Иван; Гогорян, Владимир; Садекова, Таснима; Кудинов, Михаил;
Издание: In Proceedings of International Conference on Machine Learning
Аннотация:
Диффузионные вероятностные модели для генерации объектов (Denoising Diffusion Probabilistic Models, DDPM) — одна из самых горячих тем последних двух лет в машинном обучении. Первые прорывные результаты в задаче генерации изображений с помощью этих моделей были получены летом 2020; через 3 месяца DDPM были впервые успешно применены в задаче генерации звуковой волны (вокодинг). В этой статье мы представляем GRAD-TTS, новый алгоритм синтеза речи по тексту. Диффузионный декодер создает мел-спектрограммы путем постепенного преобразования шума, предсказанного кодировщиком. Генерация речи с помощью обученной модели производится с использованием методов стохастического исчисления, а именно численного решения стохаcтических дифференциальных уравнений. Наш подход позволяет обобщить традиционные вероятностные модели диффузии на случай восстановления данных из шума с различными параметрами и позволяет сделать эту реконструкцию гибкой, явно контролируя баланс между качеством звука и скоростью вывода. Оценка ассессоров показывает, что Grad-TTS конкурирует с современными подходами преобразования текста в речь с точки зрения Mean Opinion Score.
Ссылка: http://proceedings.mlr.press/v139/popov21a.html
4. Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain Detection.
Авторы: Подольский, А., Липин, Д., Бут, A., Артемова, Е., Пионтковская, И.
Издание: In Proceedings of the AAAI Conference on Artificial Intelligence
Аннотация:
Реальные приложения, в значительной степени полагающиеся на машинное обучение, такие как диалоговые системы, требуют методов обнаружения выбросов в данных. Модели классификации пользовательских намерений должны быть снабжены механизмом, позволяющим отличать известные ситеме намерения от неизвестных, чтобы диалоговый агент мог отвергнуть последние и избежать нежелательного поведения. Однако, несмотря на повышенное внимание, уделяемое этой задаче, лучшие методы обнаружения выбросов для намерений еще не полностью разработаны. В этой статье проводится тщательное сравнение методов обнаружения намерений-выбросов. Мы отдаем предпочтение методам, не требующим доступа к внешним данным при обучении, сбор которых чрезвычайно трудоемкий из-за лексической и стилистической вариативности высказываний пользователей. Мы оцениваем несколько контекстных кодировщиков и методов, доказавших свою эффективность, на трех наборах данных для классификации намерений, дополненных высказываниями, не относящимися к предметной области. Наши основные результаты показывают, что точная настройка кодировщиков на основе Transformer для данных в предметной области приводит к превосходным результатам. Расстояние Махаланобиса вместе с представлениями высказываний, полученными с помощью кодировщиков на основе Transformer, значительно превосходят другие методы (1-5% с точки зрения AUROC) и показывает лучшие результаты для всех наборов данных. Более широкий анализ показывает, что причина успеха заключается в том, что дообученная модель артихектуры Transformer способна строить однородные векторные представления высказываний в предметной области, обнаруживая геометрическое несоответствие высказываний извне предметной области. В свою очередь, расстояние Махаланобиса легко фиксирует это несоответствие.
Ссылка: https://ojs.aaai.org/index.php/AAAI/article/view/17612
5. Gaussian LPCNet for multisample speech synthesis.
Авторы: Попов, В., Кудинов, М., Садекова, Т.
Издание: In Proceedings of ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
Аннотация:
Вокодер LPCNet недавно был представлен сообществу, занимающемуся генерацией речи по тексту, и в настоящее время набирает все большую популярность благодаря своей эффективности и высокому качеству синтезируемой с его помощью речи. В данной работе мы представляем модификацию LPCNet, которая в 1,5 раза быстрее, имеет вдвое меньше ненулевых параметров и синтезирует речь того же качества. Такое усовершенствование стало возможно в основном благодаря двум особенностям, которые мы вводим в исходную архитектуру: предлагаемый вокодер предназначен для генерации 16-битного сигнала вместо 8-битного µ-компандированного сигнала, и он предсказывает два последовательных значения возбуждения одновременно независимо от друг друга. Чтобы показать, что эти модификации не приводят к ухудшению качества, мы обучаем модели для пяти разных языков и проводим расширенную оценку человеком.
Ссылка: https://ieeexplore.ieee.org/abstract/document/9053337/