CONTACT ONS

Cursusaanbod

Fundamenten van Tencent Hunyuan in productie

  • Overzicht van Tencent Hunyuan-modelservingscenario's
  • Productiekenmerken van grote en MoE-modellen
  • Veelvoorkomende bottlenecks op het gebied van latentie, doorvoer en kosten
  • Definieren van service-niveaudoelstellingen voor inferentieworkloads

Deploy-architectuur en serving-flow

  • Kerncomponenten van een productie-inferentiestapel
  • Kies tussen containergebaseerde, on-premise en cloud-deploymodellen
  • Basisprincipes van model laden, request-routing en GPU-toewijzing
  • Ontwerpen voor betrouwbaarheid en operationele eenvoud

Latentieoptimalisatie in de praktijk

  • Gebruik van geoptimaliseerde inferentiemotoren zoals TensorRT waar van toepassing
  • KV-cache-concepten en praktische cache-tuning
  • Verminderen van start-, warmup- en respons- overhead
  • Meten van de tijd tot het eerste token en de token-generatiesnelheid

Doorvoer, Batching en GPU-efficiëntie

  • Strategieën voor continue batching en request-batching
  • Beheren van concurrentie en queue-gedrag
  • Verbeteren van GPU-uitlasting zonder de gebruikerservaring te schaden
  • Omgaan met lang-context en mixed-workload requests

Kwantisatie en kostenbeheersing

  • Waarom kwantisatie belangrijk is voor productieserving
  • Praktische afwegingen van FP16, INT8 en andere veelgebruikte precisie-opties
  • Balanceren van modelkwaliteit, latentie en infrastructuurkosten
  • Een eenvoudige checklist voor kostenoptimalisatie opstellen

Operaties, Monitoring en Gereedheidsreview

  • Triggers voor automatische schaling bij inferentiediensten
  • Monitoring van latentie, doorvoer, cachegebruik en GPU-gezondheid
  • Basisprincipes van logging, alarmering en incidentrespons
  • Een referentie-deploy revieweren en een verbeterplan opstellen

Vereisten

  • Basisbegrip van de deploy en inference-workflows van grote taalmodellen
  • Ervaring met containers, cloud- of on-premise-infrastructuur en API-gebaseerde diensten
  • Werkende kennis van Python of system engineering-taken

Doelgroep

  • ML-engineers die LLM's in productie brengen
  • Platformengineers die verantwoordelijk zijn voor GPU-gebaseerde inferentiediensten
  • Solution architects die schaalbare AI-servingplatforms ontwerpen
 14 Uren

Aangepaste bedrijfsopleiding

Opleidingsoplossingen ontworpen exclusief voor bedrijven.

  • Aangepaste inhoud: We passen de syllabus en praktijkopdrachten aan naar de echte doelen en behoeften van uw project.
  • Voor flexibel schema: Datums en tijden aangepast aan het rooster van uw team.
  • Formaat: Online (live), In-company (bij uw kantoren) of Hybride.
Investering

Prijs per privégroep, online live training, startend vanaf 3200 € + BTW*

Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen

Voorlopige Aankomende Cursussen

Gerelateerde categorieën