Разработанный несколько лет назад тип архитектуры нейросетей под названием «трансформер» становится все популярным, его использую для решения абсолютно разных нестандартных задач. Чаще всего этот инструмент применяют в работе с языком, но ученые считают, что в будущем трансформер будет самым востребованным типом архитектуры.
Преимущество нейросети заключается в том, что она обрабатывает информацию в рандомном порядке, если мы говорим о работе с языком, трансформер изучает текст полностью, а не планомерно. Такой подход дает возможность анализировать слова в контексте, а не обособленно.
Летом 2020 года в мире разработчиков фурор произвел генератор текста GPT-3 (Generative Pre-trained Transformer). Именно трансформер обрабатывает для него текст. Искусственный интеллект отвечает на вопросы, пишет стихи, новостные заметки, финансовую аналитику и даже пишет программные коды. Хотя GPT-3 и называют генератором «хорошо звучащей чуши», разработчики пророчат ему большое будущее.
На этом ученые не останавливаются. Например, они планируют использовать трансформер в работе с компьютерным зрением – распознавание изображений. А еще его можно применить для апгрейда беспилотных автомобилей.
В 2021 у классического трансформера появился брат близнец, он работает не с текстом, а с изображением. Он анализирует не отдельные пиксели, как это делали его предшественники, а группы пикселей. В чем его преимущество? Такая обработка быстрее и точнее.
На функции анализа разработчики не остановились, теперь трансформер не только анализирует тексты и изображения, он их создает. Атлас Ван из Техасского университета в своей научной работе описал механизм создания изображения нейронной сетью.
Кажется, области применения нейросети безграничны: трансформер может учить роботов распознаванию движений и идентификации эмоций человека. И это не предел, в дальнейшем функционал будет расширяться.