in

Multiplicador lagrangiano de aprendizaje para el término de regularización en la función de pérdida

Existe un método para imponer restricciones físicas en las redes neuronales, en el que se agrega una pérdida basada en la física a la función de pérdida. Este término suele ser una función de la salida de la red.

Como ejemplo simplista, suponga que la red genera un número, que no debe estar por debajo $3$. Añadimos un término de regularización (penalización) de la forma $\max(3-salida, 0)$ que penaliza cuando la salida está por debajo $3$ y se cancela cuando la salida está por encima $3$.

Como se trata esencialmente de una optimización restringida (que minimiza la función de pérdida de NN sujeta a la restricción física anterior), que se convierte en una optimización sin restricciones regularizada (en forma de función lagrangiana), necesitamos encontrar un multiplicador lagrangiano para el término de regularización.

Pregunta:

Me preguntaba, en el caso de una función de pérdida regularizada para una red neuronal, ¿es posible aprender el multiplicador de Lagrangian para el término de regularización en función de algunos criterios sobre el valor de salida mientras se entrena la red? He revisado muchos trabajos de investigación y parece que todos están «afinando» el multiplicador de Lagrangian en lugar de aprender, lo que no garantiza satisfacer las condiciones de KKT.

Árbitro:

  • Puede ver uno de esos trabajos aquí: https://papers.nips.cc/paper/7942-constrained-generation-of-semantically-valid-graphs-via-regularizing-variational-autoencoders.pdf (sección 3 y ecuación 8 en particular)

1 respuesta
1

Estoy trabajando en un problema similar ahora https://www-cs.stanford.edu/people/davidknowles/lagrangian_duality.pdf así es como se hace, use gradiente descendente en el problema primario y gradiente ascendente en Lagrangian (el doble problema). Consulte esta biblioteca https://github.com/google-research/tensorflow_constrained_optimization#shrinking

¿Te ayudó la respuesta?

Subscribirse
Notificar por
guest
0 Comentarios
Inline Feedbacks
Ver todas las Respuestas

¿Cómo asumimos la dirección de $u_{\theta}$ y $u_{r}$ en sistemas de coordenadas polares?

Tamaño de los coeficientes en la prueba de IP=PSPACE