Теорема Байеса

Материал из Википедии — свободной энциклопедии

Теорема Байеса — одна из основных теорем элементарной теории вероятностей, которая определяет вероятность наступления события в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях. Иначе, по формуле Байеса можно более точно пересчитывать вероятность, беря в учет как ранее известную информацию, так и данные новых наблюдений.

Содержание

1 Математическая формулировка
2 Применение
- 2.1 Борьба со спамом
- 2.2 Прочее
3 См. также
4 Литература
5 Ссылки

[править] Математическая формулировка

$\Pr(A|B) = \frac{\Pr(B | A) \Pr(A)}{\Pr(B)}$ ,

где

$\Pr(A)$ — априорная вероятность гипотезы A;

$\Pr(A|B)$ — вероятность гипотезы A при наступлении события B (апостериорная вероятность);

$\Pr(B|A)$ — вероятность наступления события B при истинности гипотезы A;

$\Pr(B)$ — вероятность наступления события B.

[править] Применение

[править] Борьба со спамом

Для непосредственного определения вероятности отнесения того или иного сообщения к спаму используются созданные в процессе «обучения» фильтра словари. Т. е. берется полный архив старых, выделенных вручную сообщений и передается на вход программе обучения для дальнейшего анализа. Программа определяет частотные словари для каждого типа сообщений — сколько раз каждое слово появлялось в письмах из данной папки. Когда словари окончательно созданы, вероятность принадлежности нового письма к спаму вычисляется по Байесу для каждого слова из письма. Нормализацией и суммированием вероятностей слов получают общую вероятность принадлежности к спаму для всего письма.

Применение теоремы Байеса позволяет обходиться без формирования «черных списков» почтовых адресов, байесовские фильтры могут самостоятельно опознать «плохое» письмо по его контексту, ненамного уступая в этом умении человеку. Метод очень хорошо работает при сортировке сообщений, в которых рекламная информация представлена в виде простого текста или HTML. После обучения на достаточно большой выборке, удаётся отсечь до 95—97% спама.

Однако спамеры нашли способ для обхода таких фильтров. Для этого в письмо помещается произвольный текст и реклама в виде присоединённого к письму изображения. Наличие случайного текста обманывает фильтр и не даёт возможности его обучить. Хотя существует возможность воспользоваться программами распознавания текста, чтобы извлечь рекламное сообщение из изображения и обработать его байесовским фильтром, существующие сейчас фильтры этого, как правило, не делают. К тому же, такое решение потребует дополнительных вычислительных мощностей.

[править] Прочее

...

[править] См. также

Спам
Spam Bully — байесовский спам-фильтр.

[править] Литература

Берд Киви. Теорема преподобного Байеса. // Журнал "Компьютерра", 24 августа 2001 г.
Paul Graham. A plan for spam (англ.). // Персональный сайт Paul Graham.

[править] Ссылки

Это незавершённая статья по математике.
Вы можете помочь проекту, исправив и дополнив её.

Категории: Незавершённые статьи по математике | Информатика | Теория вероятностей | Теоремы

Теорема Байеса

Материал из Википедии — свободной энциклопедии

Содержание

[править] Математическая формулировка

[править] Применение

[править] Борьба со спамом

[править] Прочее

[править] См. также

[править] Литература

[править] Ссылки

Views

Навигация

Участие

Поиск

На других языках