
Опубликовано den2007 в вт, 2009-06-09 11:05.
Фильтр действительно классный.
Использую его уже два года.
Одно маленькое примечание, несмотря на открытость кодов Dansguardian бесплатен только для некоммерческого использования.
Единственная проблема это бедный список русскоязычных фраз.
И проблема с распознаванием кодировок, так как русский язык в Интернет представлен в основном тремя кодировками UTF-8, KOI8-Ru, windows-1251.
В принципе проблему с кодировками я обошел.
Также нашел модуль для Webmin.
В общем в школе поднят сервер фильтрации Интернет.
Построен он мной.
В его основе Linux, Squid, Dansguardian, 3Proxy, и другое открытое ПО.
Он позволяет вести ПОЛНЫЙ КОНТРОЛЬ ЗА ИНТЕРНЕТ.
Его функции.
1. Фильтрация по ключевым словам, регулярным выражениям, адресам, принудительное включение фильтрации в Google. (Dansguardian)
2. Авторизация пользователей, оганичение скорости закачки файлов, запрет поиска в незащищенных поисковых системах, и запрет на использование в поиске некоторых русских слов.(squid + самописный редиректор + winbindd)
3. Очень простой домен для компьютерного класса. Прим. Непереносимые профили с авторизацией и личным сетевым диском для хранения работ и резервных копий учеников. (samba)
4. Полные отчеты о посещениях сайтов и общая статистика(Анализаторы логов)
5. Внутренний сайт школы и для статистики(apache)
6. Показ поисковых запросов в поисковых машинах.(самописный скрипт-анализатор лога Dansguardian).
7. База данных по компьютерам и поддержки пользователей(GLPI)Прим. К фильтрации не относится, не пропадать же мощностям.
Единственно что надо бы сделать -- полноценный веб-интерфейс, чтобы постоянно по конфигам не лазить.
OC --- Linux Mandriva 2009, хотя в принципе любая Linux, с некоторыми изменениями BSD.
Опубликовано teacher в пт, 2011-01-14 23:55.
это для тех у кого возникают проблемы с русской фильтрацией.
после этих дейтсвий google просто блокирут поиск запрещенных фраз.
ps в последних строчках убрать ковычки надо и скобки поставить <>
Следующим шагом будет составление списков фраз. Понятно, что готовить списки нам придется сразу в трех кодировках, но не стоит пугаться раньше времени. Перейдем в каталог /etc/dansguardian/phraselists и создадим там папку для наших списков:
cd /etc/dansguardian/phraselists
sudo mkdir rus
Перейдем в эту папку и создадим заготовки для файлов списка:
сd rus
touch rus1251 rusutf8 ruskoi8
Так как системной консолью Ubuntu является UTF-8 основная работа у нас будет происходить с файлом rusutf8. Добавим в него необходимые фразы и их вес. Формат записи следующий:
<фраза>,<40>
Остановимся на одном тонком моменте, пробелах перед и после фразы. Их наличие не допускает подстановку символов при проверке. Так например запись < наркотик > будет блокировать слово "наркотик", но не будет "наркотики". А фраза <эро> заблокирует даже такие слова как "аэрофлот", правильнее будет записать < эро>, что будет блокировать все слова с таким началом.
Создав список в Юникоде, перекодируем его в остальные кодировки:
iconv -f UTF-8 -t WINDOWS-1251 rusutf8 > rus1251
iconv -c -f UTF-8 -t KOI8-R rusutf8 > ruskoi8
Параметр -с во второй строке предписывает выбрасывать те символы, которые не могут быть преобразованы, потому что KOI8, по сравнению с современными кодировками, содержит ограниченное число символов.
Теперь подключим наши списки, для этого в конец файла /etc/dansguardian/lists/weightedphraselist добавим строки:
#Russian
".Include /etc/dansguardian/lists/phraselists/rus/rus1251"
".Include /etc/dansguardian/lists/phraselists/rus/rusutf8"
".Include /etc/dansguardian/lists/phraselists/rus/ruskoi8"
Сохраним файл и еще раз перезапустим DansGuardian, после чего можем проверить фильтрацию по указанным нами словам.

Опубликовано den2007 в сб, 2011-01-15 01:41.
По идее все правильно, но этот материал уже есть на сайте :)
Решение с множественной кодировкой работает, но с завидным постоянством дает ложные срабатывания, по идее надо смотреть и дорабатывать исходный код.
Что касается вами написанного, поработайте с фразами месяц или больше и поймете что это не выход каждый раз ручками вводить.
Поэтому, я храню всю базу фраз в одном файле, в котором также указывается категория фразы, и специальный скрипт конвертирует все это по отдельным спискам.
Создавался скрипт в расчете на обслуживание нескольких школ по принципу обновления антивирусов, чтобы не бегать и вручную не ставить, но к сожалению не пригодился.
Скачать скрипт и базу можно здесь http://dansguardian.ucoz.ru
Скрипт может содержать уязвимости и недоработки, поскольку писал для себя, на всякий случай, сделайте резервную копию настроек Dansguardian.
Опубликовано Андрей Некрасов в ср, 2011-10-26 22:02.
Прошу помочь.
Уже третий день не могу заставить этот анализатор анализировать. Пробовал вот как:
1. Захожу, например, на сайт mp3baza.net. Dansguardian блокирует, пишет "Превышен взвешенный предел фразы". Далее проверяю /var/log/dansguardian/access.log, вижу появилась строчка:
1319631079.962 2077 192.168.0.1 TCP DENIED/403 57983 GET http:// mp3baza.net 192.168.0.1 DEFAULT PARENT/127.0.0.1 text/html.
2. Далее захожу на http:// 192.168.0.1/ cgi-bin/dglog2.pl, ввожу дату начальную и конечную 26.10.2011, ip-адрес - 192.168.0.1, поле username пустое (прозрачный прокси), ввожу URL mp3baza.net, выбираю Show all denied или bannedPhrase, нажимаю Run Report.
3. Получаю: Total matches:0, Total all requests:585 и всё.
Файл dglog2.pl делал исполняемым, менял владельца и группу на www-data, root, и так, и так, то же самое, не анализирует.
$logdir=/var/log/dansguardian
$logfile=access.log
$logformat=2
прикрепил бы скрины, но не нахожу кнопок добавления.

Опубликовано den2007 в сб, 2011-10-29 21:16.
1319631079.962 2077 192.168.0.1 TCP DENIED/403 57983 GET http:// mp3baza.net 192.168.0.1 DEFAULT PARENT/127.0.0.1 text/html
Не работает по очень простой причине.
Это строка лога в формате SQUID. Этот лог можно обрабатывать любым анализатором логов для SQUID, тем же SARG, например. В этом формате в лог не включаются специальные поля показывающие причину блокировки, вдобавок дата отображается в Unix-формате.
Вам нужно остановить Dansguardian, сохранить существующие логи, очистить файл access.log и поменять тип лога в dansguardian.conf на стандартный или CSV.
После запуска dansguardian будет записывать логи в понятном анализатору формате, но пропадёт возможность анализировать их анализаторами Squid.