Новости Спам, уходи: RETVec от Google на страже вашей электронной почты

NewsMaker

I'm just a script
Премиум
13,854
20
8 Ноя 2022
Новый инструмент поддерживает больше сотни языков «из коробки» и обещает значительное улучшение безопасности.


hc0t0vgizei4avj3es26gmkck4uv82es.jpg


Google представила новый многоязычный текстовый векторизатор Для просмотра ссылки Войди или Зарегистрируйся (Resilient and Efficient Text Vectorizer), предназначенный для обнаружения потенциально вредоносного контента, такого как спам и мошеннические письма в Gmail .

RETVec обучен устойчиво реагировать на манипуляции с текстом на уровне символов, включая вставки, удаления, опечатки, гомоглифы и многое другое. Модель разработана на основе новаторского кодировщика символов, способного эффективно кодировать все символы и слова в формате UTF-8.

На платформах, таких как Gmail и YouTube, уже давно используются модели классификации текста для выявления фишинговых атак, неприемлемых комментариев и мошенничества. Однако злоумышленники известны своими контрстратегиями для обхода этих защитных мер, включая применение текстовых манипуляций.

RETVec, уже на старте работающий с более 100 языками, направлен на создание более устойчивых и эффективных текстовых классификаторов как на сервере, так и на устройствах, при этом он отличается повышенной надёжностью и эффективностью.

Векторизация — методология обработки естественного языка ( NLP ), позволяющая преобразовывать слова или фразы из словаря в соответствующее числовое представление для дальнейшего анализа компьютером.

Эли Бурсзтейн и Марина Чжан из Google отметили: «Благодаря своей новаторской архитектуре RETVec работает "из коробки" на всех языках и со всеми символами UTF-8 без необходимости предварительной обработки текста, что делает его идеальным кандидатом для использования на устройствах, в вебе и при масштабной классификации текста».

Интеграция RETVec в Gmail улучшила обнаружение спама на 38% и снизила количество ложных срабатываний на 19,4%, а также понизила использование моделью тензорных вычислительных устройств ( TPU ) на 83%.

Модели, обученные с помощью RETVec, демонстрируют повышенную скорость вывода за счёт компактного представления. Уменьшение размера моделей снижает вычислительные затраты и задержку, что критично для масштабных приложений и моделей, работающих на устройствах.
 
Источник новости
www.securitylab.ru

Похожие темы