Créez des souvenirs vidéo de vos événements AWS avec WhatsApp et HAQM Bedrock et Nova

Les participants aux événements HAQM Web Services (AWS), tels que les Summits ou le re:Invent, recherchent des moyens significatifs de partager leurs expériences. Les approches traditionnelles comme les souvenirs physiques (Goodies, Stickers) ou les publications génériques sur les réseaux sociaux manquent de personnalisation et d’immédiateté. Et si les participants pouvaient créer des souvenirs vidéo personnalisés qui capturent leur expérience unique de l’événement en quelques secondes ?

Transformer l’engagement lors des événements grâce aux souvenirs vidéo générés par l’IA

La démonstration « AWS Event E-Card » transforme l’engagement des participants en offrant une expérience de création de souvenirs vidéo via WhatsApp. Cette démonstration combine HAQM Nova Canvas pour la génération d’images, HAQM Nova Reel pour la création vidéo, et Anthropic Claude Sonnet 3.5 sur HAQM Bedrock pour le traitement du langage naturel, avec la solution Embrace Automate-IT, partenaire éditeur de logiciel d’AWS, orchestrant le workflow de génération vidéo.

Le processus commence lorsqu’un participant dialogue avec le chatbot via WhatsApp, celui-ci interprète les préférences du participant à travers une conversation naturelle. Le système crée ensuite une vidéo personnalisée intégrant des éléments visuels de l’événement adaptés aux centres d’intérêt du participant. Cette approche produit un souvenir vidéo professionnel que les participants peuvent diffuser instantanément sur leurs réseaux sociaux préférés.

Architecture : Fonctionnement de la solution

La démonstration utilise une architecture sécurisée et évolutive construite avec les services AWS :

Interaction avec les participants : Les participants scannent un QR code durant l’événement AWS ou cliquent sur un lien dans l’application officielle de l’événement. Cela ouvre une conversation WhatsApp. AWS End User Messaging Social, gère l’intégration de l’application avec les fonctionnalités WhatsApp de messagerie. Le système génère un UUID (Universally Unique Identifier) unique pour chaque conversation. Les participants peuvent répondre par des messages texte ou audio — les réponses audio sont automatiquement transcrites à l’aide d’HAQM Transcribe avant d’être traitées.
Moteur conversationnel : Les messages transitent par HAQM EventBridge vers un agent HAQM Bedrock exécutant Anthropic Claude Sonnet 3.5. L’agent engage une conversation naturelle, posant des questions pour recueillir les préférences. Les participants peuvent partager un selfie à intégrer à sa vidéo souvenir, celui-ci est alors stocké dans HAQM Simple Storage Service (HAQM S3) et modéré par la fonctionnalité multimodale d’HAQM Nova Pro, qui analyse le contenu de l’image et fournit une description envoyée au composant conversationnel.
Génération de contenu : Une fois toutes les informations collectées, EventBridge déclenche un workflow Step Functions qui orchestre :
- HAQM Nova Pro analyse le selfie pour en extraire les caractéristiques remarquables.
- HAQM Nova Pro est utilisé pour générer le prompt qui sera utilisé par la suite par HAQM Nova Canvas. Cette technique est une bonne pratique pour obtenir de meilleurs résultats
- HAQM Nova Canvas utilise la combinaison du prompt Nova Pro, du selfie, du contexte de la conversation et des instructions spécifiques pour générer un avatar virtuel.
- HAQM Nova Reel transforme ces images en vidéos dynamiques avec des transitions professionnelles et des mouvements de caméra
- HAQM Nova Pro crée une citation sur le service AWS préféré du participant
- Tout le contenu généré est stocké dans des buckets S3 avec une organisation structurée par ID de conversation
Génération de vidéo : Embrace Automate-IT reçoit une notification via HAQM EventBridge. Il récupère des templates Adobe After Effects depuis S3, les combine avec le contenu généré, et produit des vidéos MP4 de haute qualité dans les formats paysage (16:9) et portrait (9:16) pour assurer la compatibilité avec toutes les plateformes de médias sociaux. 2 instances Windows Server 2022 servent de workers hébergeant Adobe After Effects pour gérer la charge de rendu vidéo. Les vidéos finales sont stockées dans S3.
Diffusion de vidéo : AWS Elemental MediaConvert transcode les fichiers MP4 au format HLS pour le streaming adaptatif. La vidéo finale est renvoyée au participant au sein de la conversation WhatsApp avec un lien partageable.
Expérience sur le stand : Toutes les vidéos générées sont diffusées sur des écrans sur le stand en utilisant AWS Elemental MediaTailor Channel Assembly pour créer une chaîne FAST (Free Ad-Supported Streaming TV), créant une vitrine visuelle engageante des expériences des participants.

L’infrastructure utilise une approche en couches avec la sécurité au cœur :

Couche réseau : Un Virtual Private Cloud (VPC) avec des sous-réseaux publics et privés assure une communication sécurisée
Couche de calcul : Des instances HAQM Elastic Compute Cloud (HAQM EC2) avec Linux (HAQM Linux 2023) et Windows (Server 2022) traitent les charges de travail de génération vidéo grâce à Embrace Automate-IT
Couche de sécurité : Client VPN, rôles IAM et chiffrement protègent tous les composants

Détails d’implémentation : Architecture orientée événements

La démonstration utilise AWS EventBridge comme bus d’événements central connectant tous les composants, permettant une architecture faiblement couplée et orientée événements. Chaque composant est développé et maintenu par des équipes dédiées d’architectes de solutions AWS :

Équipe d’intégration WhatsApp : Développe les fonctions AWS Lambda webhook qui traitent les messages WhatsApp entrants (texte, images et audio transcrit) via AWS End User Messaging Social et publie des événements sur EventBridge avec la source « WHATSAPP » et le type de détail « CONVERSATION_WIP » ou « CONVERSATION_DONE » selon l’état de la conversation.
Équipe d’IA conversationnelle : Gère l’agent HAQM Bedrock qui s’abonne aux événements WhatsApp, traite les conversations en utilisant Anthropic Claude Sonnet 3.5, et publie des événements de préférence sur EventBridge. L’agent inclut les barrières de protection HAQM Bedrock pour garantir un contenu approprié et peut traiter à la fois les entrées textuelles et les descriptions d’images des selfies.
Équipe de contenu créatif : Gère le workflow AWS Step Functions qui orchestre la génération d’images et des vidéos personnalisées basées sur les préférences des participants. Lorsque la génération de contenu est terminée, elle publie un événement « CONTENT_DONE ».
Équipe de production vidéo : Supervise l’intégration d’Embrace Automate-IT qui transforme le contenu généré en vidéos dynamiques avec des mouvements de caméra et des transitions de qualité professionnelle dans les formats 16:9 et 9:16. Une fois terminé, elle publie un événement « VIDEO_DONE ».
Équipe de diffusion vidéo : Gère le workflow MediaConvert qui transcode les vidéos au format HLS et la fonction Lambda du lecteur vidéo qui génère un player HTML responsif supportant les formats portrait (9:16) et paysage (16:9). Cette équipe configure également le MediaTailor Channel Assembly pour l’expérience sur le stand.

Lorsqu’un participant envoie un message, EventBridge achemine les événements entre ces composants, créant un workflow transparent de la conversation à la diffusion vidéo finale. L’architecture orientée événements permet à chaque équipe de travailler indépendamment tout en maintenant une expérience de bout en bout cohérente.

Un pattern d’enrichissement d’événements pour une configuration dynamique

La génération de souvenirs vidéo personnalisés nécessite de combiner le contenu généré par l’IA avec des données de configuration dynamiques, comme la date ou le nom de l’événement. Pour répondre à ce besoin, nous avons développé un pattern architectural innovant implémenté comme un construct CDK réutilisable. Ce pattern utilise HAQM SQS et EventBridge Pipes pour enrichir les événements avec des configurations provenant d’AWS AppConfig avant leur traitement.

L’architecture du pattern est remarquablement flexible : elle permet de choisir d’activer ou non la phase d’enrichissement selon les besoins spécifiques de chaque flux d’événements. De plus, la destination finale peut être configurée comme une fonction Lambda pour un traitement simple, ou acheminée vers des instances EC2 via SQS pour des traitements plus complexes comme le rendu vidéo. Cette flexibilité est implémentée dans un construct CDK unique, facilitant sa réutilisation à travers l’infrastructure.

Le fonctionnement du pattern s’articule en plusieurs étapes : une règle EventBridge achemine d’abord les événements vers une file d’attente SQS, puis EventBridge Pipes connecte cette file à une Lambda d’enrichissement (« Content Enricher ») qui récupère la configuration depuis AWS AppConfig et l’intègre aux détails de l’événement, en supprimant le container SQS. Une fois enrichi, l’événement est transmis à la destination cible pour traitement. Cette approche apporte plusieurs avantages : un découplage entre les producteurs et consommateurs d’événements, des mécanismes de reprise intégrés via SQS, et une observabilité accrue à chaque étape du traitement. Dans notre solution, ce pattern est essentiel pour garantir que chaque vidéo générée intègre les informations contextuelles appropriées de l’événement AWS, créant ainsi une expérience cohérente et personnalisée pour tous les participants.

Framework de test pour Lambda : fiabilité et agilité de développement

Tester des fonctions Lambda dans un système distribué et orienté événements représente un défi technique significatif. Pour garantir la fiabilité de notre solution, nous avons développé un framework de test personnalisé permettant de valider localement le comportement de chaque fonction Lambda sans déploiement sur AWS. Ce framework utilise pytest et des payloads JSON pour simuler divers scénarios d’utilisation, permettant aux équipes de développement de valider rapidement les modifications sans les délais d’un déploiement complet.

L’approche est remarquablement flexible grâce à plusieurs innovations techniques. Un système d’assertions déclaratif basé sur JSON permet de vérifier facilement les codes HTTP, la présence de clés spécifiques ou l’égalité de valeurs. Une résolution intelligente des importations modifie temporairement le PYTHONPATH pour garantir la compatibilité des modules entre fonctions Lambda et couches partagées, permettant aux tests d’exécuter le code exactement comme il fonctionnerait dans AWS Lambda. Le framework comprend également une gestion contextuelle des variables d’environnement qui isole chaque test, et un mécanisme de découverte automatique qui parcourt les répertoires de payloads pour exécuter les tests sans code supplémentaire.

Nous avons utilisé ce framework pour par exemple tester les fonctions Lambda qui gèrent le lecteur vidéo HTML responsif. Le framework nous a également permis de valider les flux d’événements avec Event Bridge et ainsi de vérifier que le pipeline de transformation vidéo produisait les résultats attendus pour diverses entrées.

Cette approche a apporté plusieurs bénéfices tangibles : réduction significative du temps de développement grâce à des cycles de feedback rapides, détection précoce des problèmes d’intégration avant déploiement, et rapports de test standardisés favorisant la collaboration entre équipes. Dans notre architecture orientée événements, où de nombreuses fonctions Lambda interagissent via EventBridge, ce framework est devenu un pilier pour garantir que chaque maillon de la chaîne de traitement fonctionne comme prévu, contribuant à la fiabilité globale de notre solution.

Feuille de route

Système Multi Agent IA

Notre prochaine évolution majeure consiste à intégrer un système sophistiqué d’agents IA. Cette nouvelle fonctionnalité permettra d’informer automatiquement les utilisateurs lors d’un nouvel événement. L’architecture s’appuie sur un système multi-agents Bedrock où un agent superviseur orchestre plusieurs agents spécialisés pour traiter différents types de messages utilisateurs (texte, audio, images) ainsi que les événements venant du bus d’évènements AWS EventBridge.

Cette architecture innovante utilise HAQM Bedrock Flows pour gérer les conversations multi-tours, permettant aux utilisateurs de poser des questions complémentaires sur les événements ou d’envoyer des messages audio et des images via WhatsApp. Grâce à la mémoire native de Bedrock, le système maintient le contexte conversationnel entre les sessions, offrant une expérience véritablement personnalisée. Les événements provenant de nos composants existants (génération de contenu, traitement vidéo) déclenchent automatiquement des notifications contextualisées et naturelles. Ce système couplant une architecture orientée événements à un agent IA, transforme radicalement l’expérience utilisateur en remplaçant des notifications génériques par des interactions conversationnelles riches en contexte.

Surveillance des conversations Bedrock avec CloudWatch Synthetics

Notre prochaine étape pour l’amélioration de la solution concerne la mise en œuvre d’une stratégie d’observabilité avancée pour les conversations. Cette innovation technique repose sur AWS CloudWatch Synthetics et utilise des canaries qui s’exécutent périodiquement pour simuler des conversations avec notre système et vérifier que les Guardrails fonctionnent correctement. Ces tests automatisés chargent des jeux de données synthétiques générés et classifiés par Anthropic Claude, simulent des échanges avec l’agent de conversation, puis utilisent Anthropic Claude 3.7 comme évaluateur externe pour analyser si les réponses et les guardrails sont appropriés, selon une approche « LLM-as-a-Judge » avec apprentissage par exemples.

La puissance de cette approche réside dans sa capacité à mesurer avec précision la performance de nos Guardrails, en calculant notamment le taux global d’exactitude, les faux positifs (déclenchements inappropriés) et faux négatifs (absences de déclenchement problématiques). Toutes ces métriques sont automatiquement publiées dans CloudWatch, où des tableaux de bord personnalisés et des seuils d’alerte permettent une surveillance continue de la qualité conversationnelle. Cette surveillance proactive nous permet d’identifier instantanément toute dégradation des performances et d’intervenir avant que les utilisateurs réels ne soient affectés, garantissant ainsi une expérience de création constamment sécurisée.

En transformant notre approche de la qualité conversationnelle d’une validation ponctuelle à une surveillance continue, nous renforçons significativement la fiabilité et la sécurité de notre plateforme, offrant ainsi aux participants une expérience conversationnelle toujours optimale.

Avantages pour les organisateurs d’événements et les participants

Les organisateurs d’événements bénéficient de nombreux avantages grâce à cette démonstration :

Augmentation de la visibilité sur les réseaux sociaux grâce au contenu généré par les participants aux couleurs de l’événement,
L’analyse des interactions fournit des données précieuses sur les préférences des participants et leurs moments préférés,
Les expériences de marque deviennent plus mémorables et perdurent au-delà de la durée de l’événement
La modération intégrée et la gestion des droits protègent l’image de marque.

Les participants profitent également d’une expérience enrichie :

Une façon ludique et interactive de capturer leur expérience de l’événement
Du contenu personnalisé créé à travers une conversation naturelle
Des vidéos de qualité professionnelle sans expertise technique
Des capacités de partage instantané sur les plateformes de médias sociaux

Créer des souvenirs uniques avec l’IA générative

La démonstration « AWS Event E-Card » montre comment les technologies d’IA générative peuvent transformer les expériences événementielles. En combinant l’accessibilité de WhatsApp avec les capacités créatives d’HAQM Nova et l’intelligence conversationnelle d’Anthropic Claude Sonnet 3.5, les organisateurs d’événements peuvent offrir aux participants un souvenir unique et personnalisé qui prolonge l’expérience de l’événement.

Cette démonstration illustre comment les services AWS travaillent ensemble pour créer une génération vidéo automatisée et basée sur les données qui maintient la cohérence de la marque tout en offrant une personnalisation à grande échelle. Le résultat est une approche innovante du marketing événementiel qui transforme chaque participant en créateur de contenu, amplifiant la portée tout en fournissant un souvenir mémorable de leur expérience.