in

¿Por qué podemos usar la entropía para medir la calidad de un modelo de lenguaje?

Estoy leyendo los . Tiene la siguiente declaración sobre la relación entre la entropía de la información y el modelo de lenguaje:

… El punto esencial aquí es que si un modelo captura más de la estructura de un idioma, entonces la entropía del modelo debería ser menor. En otras palabras, podemos usar la entropía como una medida de la calidad de nuestros modelos…

Pero qué tal este ejemplo:

Supongamos que tenemos una máquina que escupe los caracteres de $2$, A y B, uno por uno. Y el diseñador de la máquina hace que A y B tengan la misma probabilidad.

Yo no soy el diseñador. Y trato de modelarlo a través del experimento.

Durante un experimento inicial, veo que la máquina divide la siguiente secuencia de caracteres:

un, b, un

Así que modelé la máquina como $P(A)=\frac{2}{3}$ y $P(B)=\frac{1}{3}$. Y podemos calcular la entropía de este modelo como: $$ \frac{-2}{3}\cdot\log{\frac{2}{3}}-\frac{1}{3}\cdot\log{\ frac{1}{3}}= 0.918\quad\text{bit} $$ (la base es $2$ por lo que la unidad es bit)

Pero luego, el diseñador me habló de su diseño, así que refiné mi modelo con esta información adicional. El nuevo modelo se ve así:

$P(A)=\frac{1}{2}$ $P(B)=\frac{1}{2}$

Y la entropía de este nuevo modelo es: $$ \frac{-1}{2}\cdot\log{\frac{1}{2}}-\frac{1}{2}\cdot\log{\frac {1}{2}} = 1\quad\text{bit} $$ El segundo modelo es obviamente mejor que el primero. Pero la entropía aumentó.

Mi punto es que, debido a la arbitrariedad del modelo que se está probando, no podemos decir ciegamente que una entropía más pequeña indica un mejor modelo.

¿Alguien podría arrojar algo de luz sobre esto?

1 respuesta
1

(Para obtener más información, consulte aquí: https://stackoverflow.com/questions/22933412/why-can-we-use-entropy-to-measure-the-quality-of-language-model)

¿Te ayudó la respuesta?

Subscribirse
Notificar por
guest
0 Comentarios
Inline Feedbacks
Ver todas las Respuestas

Cómo convertir String UTF-8 a TIS-620 en Node.js

Complejidad computacional de un problema de instancia 3SAT ‘equivalente’