ВВЕДЕНИЕ
Проблемой блокировки интернет-сайтов с агрессивным содержанием занимается целый ряд российских и зарубежных компаний. Существует целый рядобзоров, например, которые исследуют вопросы,связанные с блокировкой ресурсов Интернета. Общество и личность имеет право на защиту от вредоносного контента. При этом важно сохранить весь позитивный потенциал информационно-коммуникационныхтехнологий. В настоящее время наблюдается низкийуровень грамотности населения в области использования информационно-коммуникационных технологий.Пользователи не имеют представлений о необходимойкомпьютерной гигиене, нормах поведения в современной информационной среде, реальных угрозах для себя, своей семьи, рабочего коллектива, о методах борьбы со злонамеренными информационными воздействиями. Решением перечисленных проблем может статьсоздание системы формирования безопасного контента, доставляемого пользователю. Цель работы: рассмотреть основные методы блокирования негативногоконтента и предложить схему формирования безопасного контента.
МЕТОДЫ И ПОДХОДЫ
Основными технологическими методами для блокирования доступа пользователей к нежелательномуконтенту являются: блокирование по IP-адресу сервера, на котором находится нежелательный материал;искажение DNS-записей; блокирование по URL-адресу; фильтрация через HTTP прокси-сервер; нарушение работы сети (DDoS атака на сервер, физическоеотключение или изменение настроек сетевого оборудования). Главным преимуществом этих методов является относительная простота реализации с помощью базового сетевого оборудования, используемого интернет-провайдерами. Следует отметить, что при применении таких методов блокирования веб-сайтов, содержащих нежелательный контент, становится недоступным проведение операций с другими сервисами наданном сервере или домене. Другой проблемой является использование «белых» и «черных» списков разрешенных или запрещенных ресурсов, отнесенных к запрещённому контенту. В большинстве случаев формирование списков происходит в ручном режиме. Использование «черных» списков адресов имеет очевидный недостаток в скорости реагирования системы навозникновение новых ресурсов. При современном интенсивном развитии сети Интернет каждый день появляется много новых ресурсов, еще не зарегистрированных в системах безопасного доступа, а URL-адрес ресурса попадает в «черный» список уже после посещения его пользователем. Методы блокирования нежелательных сайтов, рассмотренные выше, легко обходятсяпри помощи различных технических решений, в частности, прокси-серверов и VPN.
Альтернативой технологическим методам являетсяпакетная фильтрация, когда содержимое запрашиваемого интернет-сайта анализируется в момент обращения к этому ресурсу. Под содержимым интернет-сайтапонимается доменное имя, различные метаданные,текст, изображения и т. д. Загрузка страниц сайта вбраузер блокируется, если содержимое определяетсякак нежелательное. При использовании пакетнойфильтрации изучаются не только заголовки пакетов,содержащих URL-адрес, но и все их содержимое. Метод позволяет фильтровать нежелательный контент нетолько в веб-страницах, но и в других сетевых протоколах: электронной почте, сервисах мгновенных сообщений и т. д.
Одним из самых важных элементов контентнойфильтрации являются алгоритмы, реализующие контекстный (полнотекстовый) поиск. Наиболее известныеалгоритмы, реализующие поиск всех вхождений подстроки в текст. Полнотекстовый поиск в силу объективных причин стал однимиз первых реализованных подходов. Однако, несмотряна активную работу в этом направлении, существуютпроблемы, связанные с низкой ревалентностью поиска.Проблемы вызваны существованием омонимов, синонимов, слов с совпадающими словоформами, профессионального и молодежного сленга, ошибок в правописании и ряд других. Все это приводит к низким результатам фильтрации контента реальных информационных ресурсов и пропуску нежелательной информации.
Одним из способов преодоления перечисленныхтрудностей является применение методов поиска посходству. Алгоритмы поиска по сходству (нечеткого поиска) являются основой систем проверки орфографии, полноценных поисковых систем, систем обнаружения антиплагиата. Алгоритмы без индексации нетребуют предварительной обработки текста и могутработать с непрерывным потоком данных. Предназначены для поиска по заранее неизвестному тексту имогут быть использованы, например, в текстовых редакторах, программах для просмотра документов или ввеб-браузерах для поиска по странице. Наиболее известным является алгоритм Baeza–Yates–Gonnet.Особенностью всех алгоритмов поиска по сходству с индексацией является то, чтоиндекс строится по словарю, составленному по исходному тексту, или списку записей в подготовленнойзаранее базе данных. Алгоритмы используют различные подходы к решению проблемы – одни из них используют сведения к точному поиску, другие используют свойства метрики для построения различных пространственных структур и т. д. На сегодняшний день для оптимального соотношения производительности и простоты реализации можно использовать развитие метода n-грамм или хеширование по сигнатуре.
Следует отметить, что весьма перспективным является использование метода поиска нечетких дубликатов (алгоритм шинглов), который позволяет предположить, являются ли два объекта частично одинаковыми или нет.
Алгоритмы, реализующие методы поиска по ключевым словам и поиска по сходству, имеют свои собственные достоинства и недостатки. Стоит отметить так-же то, что методы противоположны друг другу, т. е.что у одного является недостатком – у другого это преимущество. В основном это касается скорости работыалгоритма, точности работы, ресурсоемкости.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
В качестве собственного решения по фильтрациинегативного веб-контента можно использовать HTTP-прокси сервер, т. к. подобный метод является наиболееоптимальным с точки зрения затрат на производство(не требуется разработка специального оборудования).Использование HTTP-прокси сервера предполагаетвозможность гибкой системы настройки фильтрации,что значительно уменьшит количество ложных срабатываний. Преимуществом использования HTTP-проксисервера является то, что скорость фильтрации страницы не зависит от физических возможностей клиента.Не менее важным преимуществом прокси-сервера является возможность разработчика вносить изменения валгоритм фильтрации без необходимости обновлятьПО, установленное у клиента. Наличие выделенногоудаленного сервера предполагает, что разработчикамбудет предоставлена возможность расширить вычислительную мощность системы фильтрации.
Общая схема связей потоков в системе формирования безопасного контента представлена на рис. 1.
После получения пользовательского веб-запроса прокси-сервер перенаправит его по месту назначения и получит в ответ страницу от запрашиваемого веб-сервера.Полученная веб-страница должна будет пройти проверку на наличие негативного контента, для этого балансировщик нагрузки вычислительных единиц определит наиболее свободную единицу и передаст веб-страницу на дальнейшую обработку.
Получив веб-страницу, вычислительная единицаприменит по отношению к ее содержимому разработанные алгоритмы поиска негативного контента. Порезультатам работы фильтрационных алгоритмов вотношении страницы будет вынесено решение об изменении ее содержимого. В случае отсутствия негативного контента страница будет возвращена пользователю без изменений. При наличии в содержимомвеб-страницы нежелательного контента будет произведено изменение страницы и возврат пользователю переработанной версии страницы (возврат страницы сошибкой загрузки, частичным содержанием или сформированным образовательным контентом). Изменениявеб-страницы должны зависеть от степени «негативности» обнаруженного контента, настроек системы фильтрации, категории пользователя и ряда других свойств.
Перспективно создать клиентскую версию системы,реализованной виде собственного веб-браузера. Браузер предполагается создать на основе свободно распространяемого исходного кода проекта Chromium (компоненты которого распространяются под лицензиямиApache License, BSD license, ICU License, LGPL, libjpeglicense, libpng license, MIT License, MS-PL,MPL/GPL/LGPL, zlib license). В таком случае можнонадеяться на получение собственного многоплатформенного решения (Windows, MacOS X, Linux).
Отметим, что для корректной работы полноценнойсистемы доставки безопасного контента необходимареализация механизмов защиты. Необходимо использовать многофакторную авторизацию, генерацию одноразовых ссылок, защиту от изменений настройкиHTTP-прокси серверов, защиту от подмены сессий, от программ автоматизированного взлома. Подобныйподход является оправданным, т. к. основной цельюсистемы доставки безопасного контента является обеспечение собственной безопасности, а также безопасности доверенных лиц.
Проблемой блокировки интернет-сайтов с агрессивным содержанием занимается целый ряд российских и зарубежных компаний. Существует целый рядобзоров, например, которые исследуют вопросы,связанные с блокировкой ресурсов Интернета. Общество и личность имеет право на защиту от вредоносного контента. При этом важно сохранить весь позитивный потенциал информационно-коммуникационныхтехнологий. В настоящее время наблюдается низкийуровень грамотности населения в области использования информационно-коммуникационных технологий.Пользователи не имеют представлений о необходимойкомпьютерной гигиене, нормах поведения в современной информационной среде, реальных угрозах для себя, своей семьи, рабочего коллектива, о методах борьбы со злонамеренными информационными воздействиями. Решением перечисленных проблем может статьсоздание системы формирования безопасного контента, доставляемого пользователю. Цель работы: рассмотреть основные методы блокирования негативногоконтента и предложить схему формирования безопасного контента.
МЕТОДЫ И ПОДХОДЫ
Основными технологическими методами для блокирования доступа пользователей к нежелательномуконтенту являются: блокирование по IP-адресу сервера, на котором находится нежелательный материал;искажение DNS-записей; блокирование по URL-адресу; фильтрация через HTTP прокси-сервер; нарушение работы сети (DDoS атака на сервер, физическоеотключение или изменение настроек сетевого оборудования). Главным преимуществом этих методов является относительная простота реализации с помощью базового сетевого оборудования, используемого интернет-провайдерами. Следует отметить, что при применении таких методов блокирования веб-сайтов, содержащих нежелательный контент, становится недоступным проведение операций с другими сервисами наданном сервере или домене. Другой проблемой является использование «белых» и «черных» списков разрешенных или запрещенных ресурсов, отнесенных к запрещённому контенту. В большинстве случаев формирование списков происходит в ручном режиме. Использование «черных» списков адресов имеет очевидный недостаток в скорости реагирования системы навозникновение новых ресурсов. При современном интенсивном развитии сети Интернет каждый день появляется много новых ресурсов, еще не зарегистрированных в системах безопасного доступа, а URL-адрес ресурса попадает в «черный» список уже после посещения его пользователем. Методы блокирования нежелательных сайтов, рассмотренные выше, легко обходятсяпри помощи различных технических решений, в частности, прокси-серверов и VPN.
Альтернативой технологическим методам являетсяпакетная фильтрация, когда содержимое запрашиваемого интернет-сайта анализируется в момент обращения к этому ресурсу. Под содержимым интернет-сайтапонимается доменное имя, различные метаданные,текст, изображения и т. д. Загрузка страниц сайта вбраузер блокируется, если содержимое определяетсякак нежелательное. При использовании пакетнойфильтрации изучаются не только заголовки пакетов,содержащих URL-адрес, но и все их содержимое. Метод позволяет фильтровать нежелательный контент нетолько в веб-страницах, но и в других сетевых протоколах: электронной почте, сервисах мгновенных сообщений и т. д.
Одним из самых важных элементов контентнойфильтрации являются алгоритмы, реализующие контекстный (полнотекстовый) поиск. Наиболее известныеалгоритмы, реализующие поиск всех вхождений подстроки в текст. Полнотекстовый поиск в силу объективных причин стал однимиз первых реализованных подходов. Однако, несмотряна активную работу в этом направлении, существуютпроблемы, связанные с низкой ревалентностью поиска.Проблемы вызваны существованием омонимов, синонимов, слов с совпадающими словоформами, профессионального и молодежного сленга, ошибок в правописании и ряд других. Все это приводит к низким результатам фильтрации контента реальных информационных ресурсов и пропуску нежелательной информации.
Одним из способов преодоления перечисленныхтрудностей является применение методов поиска посходству. Алгоритмы поиска по сходству (нечеткого поиска) являются основой систем проверки орфографии, полноценных поисковых систем, систем обнаружения антиплагиата. Алгоритмы без индексации нетребуют предварительной обработки текста и могутработать с непрерывным потоком данных. Предназначены для поиска по заранее неизвестному тексту имогут быть использованы, например, в текстовых редакторах, программах для просмотра документов или ввеб-браузерах для поиска по странице. Наиболее известным является алгоритм Baeza–Yates–Gonnet.Особенностью всех алгоритмов поиска по сходству с индексацией является то, чтоиндекс строится по словарю, составленному по исходному тексту, или списку записей в подготовленнойзаранее базе данных. Алгоритмы используют различные подходы к решению проблемы – одни из них используют сведения к точному поиску, другие используют свойства метрики для построения различных пространственных структур и т. д. На сегодняшний день для оптимального соотношения производительности и простоты реализации можно использовать развитие метода n-грамм или хеширование по сигнатуре.
Следует отметить, что весьма перспективным является использование метода поиска нечетких дубликатов (алгоритм шинглов), который позволяет предположить, являются ли два объекта частично одинаковыми или нет.
Алгоритмы, реализующие методы поиска по ключевым словам и поиска по сходству, имеют свои собственные достоинства и недостатки. Стоит отметить так-же то, что методы противоположны друг другу, т. е.что у одного является недостатком – у другого это преимущество. В основном это касается скорости работыалгоритма, точности работы, ресурсоемкости.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
В качестве собственного решения по фильтрациинегативного веб-контента можно использовать HTTP-прокси сервер, т. к. подобный метод является наиболееоптимальным с точки зрения затрат на производство(не требуется разработка специального оборудования).Использование HTTP-прокси сервера предполагаетвозможность гибкой системы настройки фильтрации,что значительно уменьшит количество ложных срабатываний. Преимуществом использования HTTP-проксисервера является то, что скорость фильтрации страницы не зависит от физических возможностей клиента.Не менее важным преимуществом прокси-сервера является возможность разработчика вносить изменения валгоритм фильтрации без необходимости обновлятьПО, установленное у клиента. Наличие выделенногоудаленного сервера предполагает, что разработчикамбудет предоставлена возможность расширить вычислительную мощность системы фильтрации.
Общая схема связей потоков в системе формирования безопасного контента представлена на рис. 1.
После получения пользовательского веб-запроса прокси-сервер перенаправит его по месту назначения и получит в ответ страницу от запрашиваемого веб-сервера.Полученная веб-страница должна будет пройти проверку на наличие негативного контента, для этого балансировщик нагрузки вычислительных единиц определит наиболее свободную единицу и передаст веб-страницу на дальнейшую обработку.
Получив веб-страницу, вычислительная единицаприменит по отношению к ее содержимому разработанные алгоритмы поиска негативного контента. Порезультатам работы фильтрационных алгоритмов вотношении страницы будет вынесено решение об изменении ее содержимого. В случае отсутствия негативного контента страница будет возвращена пользователю без изменений. При наличии в содержимомвеб-страницы нежелательного контента будет произведено изменение страницы и возврат пользователю переработанной версии страницы (возврат страницы сошибкой загрузки, частичным содержанием или сформированным образовательным контентом). Изменениявеб-страницы должны зависеть от степени «негативности» обнаруженного контента, настроек системы фильтрации, категории пользователя и ряда других свойств.
Перспективно создать клиентскую версию системы,реализованной виде собственного веб-браузера. Браузер предполагается создать на основе свободно распространяемого исходного кода проекта Chromium (компоненты которого распространяются под лицензиямиApache License, BSD license, ICU License, LGPL, libjpeglicense, libpng license, MIT License, MS-PL,MPL/GPL/LGPL, zlib license). В таком случае можнонадеяться на получение собственного многоплатформенного решения (Windows, MacOS X, Linux).
Отметим, что для корректной работы полноценнойсистемы доставки безопасного контента необходимареализация механизмов защиты. Необходимо использовать многофакторную авторизацию, генерацию одноразовых ссылок, защиту от изменений настройкиHTTP-прокси серверов, защиту от подмены сессий, от программ автоматизированного взлома. Подобныйподход является оправданным, т. к. основной цельюсистемы доставки безопасного контента является обеспечение собственной безопасности, а также безопасности доверенных лиц.
Последнее редактирование: