Multimodal AI

Vision-language models and multimodal fusion

Vision-language models and multimodal fusion

Sections

Vision-Language Models

CLIP, LLaVA, GPT-4V, and visual reasoning

Multimodal Fusion

Cross-attention, embeddings, and audio-visual learning