Генеративная модель

Генеративная модель (англ. generative model) — это тип статистической модели, используемой в вероятностной классификации и других задачах машинного обучения, который описывает способ формирования наблюдаемых данных. Генеративная модель задаёт совместное распределение вероятностей между наблюдаемыми переменными и целевыми переменными, позволяя генерировать новые примеры данных, имитирующие структуру исходных данных^[1].

В контексте статистической классификации противопоставляются два подхода: генеративный и дискриминативный (англ. discriminative). Генеративные модели строят вероятностные описания взаимодействий между признаками (набором данных X) и классами (Y), а дискриминативные — оценивают напрямую вероятность принадлежности к классу по наблюдению^[2]^[3].

Терминология в этой области неоднородна^[1], однако условно выделяют три основных типа моделей:^[1]

Генеративная модель — статистическая модель совместного распределения вероятности $P(X,Y)$ для заданных наблюдаемых переменных X и целевых переменных Y. Такая модель может использоваться для «генерации» случайных примеров наблюдений x^[2]^[3].
Дискриминативная модель — модель, описывающая условное распределение вероятности $P(Y|X=x)$ целевой переменной Y при заданном наблюдении x. Предназначена для «дискриминации» (выбора) соответствующей метки Y по данным x^[3].
Классификаторы, построенные без явной вероятностной модели, также зачастую называют «дискриминативными».

Границы между этими двумя последними типами не всегда чётко определены^[4]; например, Jebara, Tony. Machine Learning: Discriminative and Generative. — 2004. вводит понятия «генеративного», «условного» и «дискриминативного» обучения, тогда как Ng, Andrew Y. On discriminative vs. generative classifiers / Andrew Y. Ng, Michael I. Jordan. — 2002. выделяет только генеративные (совместное распределение) и дискриминативные (условное распределение или отсутствие вероятностной модели).

Типичные примеры линейных классификаторов:

Генеративные:
- Наивный байесовский классификатор
- Линейный дискриминантный анализ
Дискриминативные:
- Логистическая регрессия

В задачах классификации важно получить по наблюдению x правильную метку y (или распределение вероятностей по меткам). Это можно делать напрямую — без построения вероятностной модели (распределительно-свободный классификатор), либо оценивать $P(Y|X=x)$ через дискриминативную модель, либо строить генеративную модель $P(X,Y)$ , по которой затем вычислять $P(Y|X=x)$ и основывать на этом классификацию. Чем косвенно способ, тем больше информации о вероятностях он использует, что позволяет учитывать предметные знания. На практике выбор подхода определяется особенностями задачи, а также возможностью комбинировать разные методы.

Определение

Альтернативный вариант формулировки:

Генеративная модель — это модель условной вероятности наблюдаемых данных X при заданной целевой метке y, то есть $P(X|Y=y)$ ^[3].
Дискриминативная модель — модель условной вероятности метки Y по наблюдению x: $P(Y|X=x)$ ^[3].

Независимо от точной формулировки, генеративная модель может использоваться для генерации новых исходов (примеров), либо для источника $(x,y)$ , либо для $x$ при фиксированном значении y^[3]. Дискриминативная модель, напротив, применяется для однозначного определения вероятного значения Y по x^[3]. Различие между «дискриминацией» (различением) и «классификацией» весьма тонкое и не всегда чётко проводится; в частности, термин «дискриминативный классификатор» может быть тавтологичным, если дискриминация по смыслу эквивалентна классификации.

Термин «генеративная модель» также может означать модели, генерирующие экземпляры выходных переменных без явной связи с вероятностным распределением по исходным данным (например, генеративно-состязательные сети); подобные модели оцениваются по близости выходных данных к реальным, а не по вероятностной интерпретации, и не всегда являются классификаторами.

Связь между подходами

Обычно в задачах классификации наблюдаемая переменная X является непрерывной, а целевая Y — дискретной (конечное множество меток). Условная вероятность $P(Y|X)$ в этом случае может рассматриваться и как стохастическая целевая функция $f\colon X\to Y$ , а не только как распределение вероятностей.

Если метки принимают конечное число значений, то оба определения генеративной модели тесно связаны. Модель условного распределения $P(X|Y=y)$ сопоставляет распределение каждой метке, а модель совместного распределения эквивалентна одновременному моделированию распределения меток $P(Y)$ и распределения наблюдений по меткам $P(X|Y)$ , то есть $P(X,Y)=P(X|Y)P(Y)$ . Таким образом, модель совместного распределения информативнее, однако переход между этими определениями не слишком сложен, и граница зачастую размыта.

Имея модель совместного распределения $P(X,Y)$ , можно получить маргинальное распределение отдельных переменных: $P(X)=\sum _{y}P(X,Y=y)$ и $P(Y)=\int _{x}P(Y,X=x)$ (принимая X за непрерывную, а Y за дискретную); кроме того, оба условные распределения могут быть найдены из определения условной вероятности: $P(X|Y)=P(X,Y)/P(Y)$ , $P(Y|X)=P(X,Y)/P(X)$ .

Зная модель одного условного распределения и априорные вероятности X и Y, можно получить обратное условное распределение по формуле Байеса:

P(X|Y)P(Y)=P(Y|X)P(X).

Например, имея генеративную модель $P(X|Y)$ , можно оценить:

P(Y|X)=P(X|Y)P(Y)/P(X).

Если же имеется дискриминативная модель $P(Y|X)$ , то:

P(X|Y)=P(Y|X)P(X)/P(Y).

Иногда формула Байеса и определение условной вероятности смешиваются.

Сравнение с дискриминативными классификаторами

Генеративный алгоритм моделирует механизм появления данных для классификации сигнала. Он отвечает на вопрос: какая категория с наибольшей вероятностью могла сгенерировать этот сигнал? Дискриминативный алгоритм не моделирует процесс генерации данных, а просто классифицирует по имеющимся признакам. Дискриминативные алгоритмы непосредственно обучаются по данным для оценки $p(y|x)$ и затем проводят классификацию; генеративные — строят модель $p(x,y)$ и выводят из неё $p(y|x)$ для классификации. Преимущество метода генеративного подхода в том, что модель $p(x,y)$ позволяет порождать новые примеры, схожие с исходными данными. С другой стороны, доказано, что в классификационных задачах некоторые дискриминативные алгоритмы могут превосходить некоторые генеративные по качеству^[2].

Хотя дискриминативные модели не требуют моделирования распределения наблюдаемых параметров, они обычно не способны отражать сложные зависимости между наблюдением и целевой меткой. Тем не менее, зачастую генеративные и дискриминативные методы дополняют друг друга, а также могут рассматриваться как разные стороны одного процесса.

Глубокие генеративные модели

С ростом популярности глубокого обучения появилась новая семья методов — глубокие генеративные модели (англ. deep generative models, DGMs)^[5]^[6], которые сочетают генеративное моделирование и глубокие нейронные сети. С ростом масштабов нейросетей обычно возрастает и объём обучающих данных, что необходимо для достижения высокой производительности^[7].

К известным глубоким генеративным моделям относятся вариационные автокодировщики (VAE), генеративно-состязательные сети (GAN), авторегрессивные языковые модели. В последнее время ведётся разработка очень крупных DGMs^[5]: например, GPT-3 и предшествующая GPT-2 — авторегрессионные языковые модели с миллиардами параметров; BigGAN^[8] и VQ-VAE^[9], применяемые для генерации изображений (сотни миллионов параметров), а Jukebox — большая генеративная модель музыкального аудио (миллиарды параметров)^[10].

Типы

Генеративные модели

К базовым типам генеративных моделей относятся:

Гауссовские смеси (и другие типы смеси вероятностных моделей)
Скрытая марковская модель
Вероятностная бесконтекстная грамматика
Байесовская сеть (например, наивный Байес, авторегрессионная модель)
Оценка с усреднённой зависимостью от одного признака
Латентное размещение Дирихле
Машина Больцмана (например, ограниченная машина Больцмана, глубокая нейронная сеть убеждений)
Вариационный автокодировщик
Генеративно-состязательная сеть
Генеративная модель на потоках
Энергетическая модель
Модель диффузии

Если наблюдаемые данные действительно получены из генеративной модели, то оценка максимального правдоподобия параметров — естественный способ обучения модели. Однако так как большинство статистических моделей только приближённо описывают «истинное» распределение, при решении конкретных задач зачастую предпочтительно напрямую моделировать условное распределение с помощью дискриминативной модели, чтобы избежать излишних предположений. Окончательный выбор подхода диктуется спецификой приложения.

Дискриминативные модели

Метод k ближайших соседей
Логистическая регрессия
Метод опорных векторов
Деревья решений
Случайный лес
Максимально-энтропийные марковские модели
Условные случайные поля

Примеры

Простой пример

Пусть на входе рассматриваются данные $x\in \{1,2\}$ , а множество меток — $y\in \{0,1\}$ ; всего есть следующие 4 возможных наблюдения: $(x,y)=\{(1,0),\ (1,1),\ (2,0),\ (2,1)\}$

Оценка совместного распределения вероятностей $p(x,y)$ по эмпирической мере:

Распределение $p(y|x)$ в этом случае:

Примечания

↑ ¹ ² ³Jebara, Tony. Machine Learning: Discriminative and Generative. — Kluwer Academic (Springer), 2004. — ISBN 978-1-4020-7647-3.
↑ ¹ ² ³Ng, Andrew Y. On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes / Andrew Y. Ng, Michael I. Jordan. — 2002.
↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷Mitchell, Tom M. 3. Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression // Machine Learning. — 2015.
↑Jebara, Tony. Machine Learning: Discriminative and Generative. — Kluwer Academic (Springer), 2004. — ISBN 978-1-4020-7647-3.
↑ ¹ ²Scaling up—researchers advance large-scale deep generative models (англ.). Microsoft (9 апреля 2020). Дата обращения: 10 июня 2024.
↑Generative Models (англ.). OpenAI (16 июня 2016). Дата обращения: 10 июня 2024.
↑Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). Scaling Laws for Neural Language Models (англ.). arXiv:2001.08361 [stat.ML].
↑Brock, Andrew; Donahue, Jeff; Simonyan, Karen (2018). Large Scale GAN Training for High Fidelity Natural Image Synthesis (англ.). arXiv:1809.11096 [cs.LG].
↑Razavi, Ali; van den Oord, Aaron; Vinyals, Oriol (2019). Generating Diverse High-Fidelity Images with VQ-VAE-2 (англ.). arXiv:1906.00446 [cs.LG].
↑Jukebox (англ.). OpenAI (30 апреля 2020). Дата обращения: 10 июня 2024.

Литература

Shannon, C. E. A Mathematical Theory of Communication : [англ.]. — 1948. — Vol. 27. — P. 379–423, 623–656. — doi:10.1002/j.1538-7305.1948.tb01338.x.
Mitchell, Tom M. 3. Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression // Machine Learning : [англ.]. — 2015.
Ng, Andrew Y. On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes : [англ.] / Andrew Y. Ng, Michael I. Jordan. — 2002.
Jebara, Tony. Discriminative, generative, and imitative learning : [англ.]. — Massachusetts Institute of Technology, 2002., зеркало, зеркало. Опубликовано как книга (см. выше).

Ссылки

[jebara_2004-1] ¹ ² ³Jebara, Tony. Machine Learning: Discriminative and Generative. — Kluwer Academic (Springer), 2004. — ISBN 978-1-4020-7647-3.

[ngjordan2002generative-2] ¹ ² ³Ng, Andrew Y. On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes / Andrew Y. Ng, Michael I. Jordan. — 2002.

[mitchell2015generative-3] ¹ ² ³ ⁴ ⁵ ⁶ ⁷Mitchell, Tom M. 3. Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression // Machine Learning. — 2015.

[4] Jebara, Tony. Machine Learning: Discriminative and Generative. — Kluwer Academic (Springer), 2004. — ISBN 978-1-4020-7647-3.

[auto1-5] ¹ ²Scaling up—researchers advance large-scale deep generative models (англ.). Microsoft (9 апреля 2020). Дата обращения: 10 июня 2024.

[auto-6] Generative Models (англ.). OpenAI (16 июня 2016). Дата обращения: 10 июня 2024.

[7] Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). Scaling Laws for Neural Language Models (англ.). arXiv:2001.08361 [stat.ML].

[8] Brock, Andrew; Donahue, Jeff; Simonyan, Karen (2018). Large Scale GAN Training for High Fidelity Natural Image Synthesis (англ.). arXiv:1809.11096 [cs.LG].

[9] Razavi, Ali; van den Oord, Aaron; Vinyals, Oriol (2019). Generating Diverse High-Fidelity Images with VQ-VAE-2 (англ.). arXiv:1906.00446 [cs.LG].

[10] Jukebox (англ.). OpenAI (30 апреля 2020). Дата обращения: 10 июня 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

	$y=0$	$y=1$
$x=1$	$1/4$	$1/4$
$x=2$	$1/4$	$1/4$