Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie Training Cursus

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie is een praktische cursus over het betrouwbaar en op schaal inzetten van Tencent Hunyuan-modellen.

Deze door een instructeur geleide, live training (online of ter plaatse) is gericht op engineers en architecten op gevorderd niveau die Tencent Hunyuan willen gebruiken om grote en MoE-modellen (Mixture of Experts) te deployen met een lagere latentie, een betere GPU-uitlasting en gecontroleerde operationele kosten.

Aan het einde van deze training zullen deelnemers in staat zijn om:

de belangrijkste productiefouten bij het serveren van Tencent Hunyuan-modellen te verklaren.
praktische optimalisatietechnieken voor inferentie toe te passen, zoals TensorRT, KV-cache-tuning, kwantisatie en batching.
een schaalbare deploy-aanpak te ontwerpen met automatische schaling, monitoring en capaciteitsplanning.
de afweging tussen latentie en kosten te verbeteren voor echte productieworkloads.

Formaat van de cursus

Interactieve lezing en discussie.
Veel oefeningen en praktijkopdrachten.
Praktische implementatie in een live-labomgeving.

Opties voor cursusaanpassing

Voor een op maat gemaakte training voor deze cursus, neem contact met ons op om dit te regelen.

Bedankt voor uw aanvraag! Een van onze medewerkers neemt binnenkort contact met u op

Bedankt voor uw boeking! Een van onze medewerkers neemt binnenkort contact met u op.

Cursusaanbod

Fundamenten van Tencent Hunyuan in productie

Overzicht van Tencent Hunyuan-modelservingscenario's
Productiekenmerken van grote en MoE-modellen
Veelvoorkomende bottlenecks op het gebied van latentie, doorvoer en kosten
Definieren van service-niveaudoelstellingen voor inferentieworkloads

Deploy-architectuur en serving-flow

Kerncomponenten van een productie-inferentiestapel
Kies tussen containergebaseerde, on-premise en cloud-deploymodellen
Basisprincipes van model laden, request-routing en GPU-toewijzing
Ontwerpen voor betrouwbaarheid en operationele eenvoud

Latentieoptimalisatie in de praktijk

Gebruik van geoptimaliseerde inferentiemotoren zoals TensorRT waar van toepassing
KV-cache-concepten en praktische cache-tuning
Verminderen van start-, warmup- en respons- overhead
Meten van de tijd tot het eerste token en de token-generatiesnelheid

Doorvoer, Batching en GPU-efficiëntie

Strategieën voor continue batching en request-batching
Beheren van concurrentie en queue-gedrag
Verbeteren van GPU-uitlasting zonder de gebruikerservaring te schaden
Omgaan met lang-context en mixed-workload requests

Kwantisatie en kostenbeheersing

Waarom kwantisatie belangrijk is voor productieserving
Praktische afwegingen van FP16, INT8 en andere veelgebruikte precisie-opties
Balanceren van modelkwaliteit, latentie en infrastructuurkosten
Een eenvoudige checklist voor kostenoptimalisatie opstellen

Operaties, Monitoring en Gereedheidsreview

Triggers voor automatische schaling bij inferentiediensten
Monitoring van latentie, doorvoer, cachegebruik en GPU-gezondheid
Basisprincipes van logging, alarmering en incidentrespons
Een referentie-deploy revieweren en een verbeterplan opstellen

Vereisten

Basisbegrip van de deploy en inference-workflows van grote taalmodellen
Ervaring met containers, cloud- of on-premise-infrastructuur en API-gebaseerde diensten
Werkende kennis van Python of system engineering-taken

Doelgroep

ML-engineers die LLM's in productie brengen
Platformengineers die verantwoordelijk zijn voor GPU-gebaseerde inferentiediensten
Solution architects die schaalbare AI-servingplatforms ontwerpen

14 Uren

Aangepaste bedrijfsopleiding

Opleidingsoplossingen ontworpen exclusief voor bedrijven.

Aangepaste inhoud: We passen de syllabus en praktijkopdrachten aan naar de echte doelen en behoeften van uw project.
Voor flexibel schema: Datums en tijden aangepast aan het rooster van uw team.
Formaat: Online (live), In-company (bij uw kantoren) of Hybride.

Investering

Prijs per privégroep, online live training, startend vanaf 3200 € + BTW*

Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen

(*De eindprijs kan variëren afhankelijk van de technische specialisatie van het cursus, het aangepaste niveau, de methode van levering en het aantal leerlingen)

Hulp nodig bij het kiezen van de juiste cursus?
opleidingen@nobleprog.com of +31 208 080 666

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie Training Cursus

Cursusaanbod

Vereisten

Aangepaste bedrijfsopleiding

Voorlopige Aankomende Cursussen

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie

Gerelateerde categorieën

Deze site in andere landen/regio's

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie Training Cursus

Cursusaanbod

Vereisten

Aangepaste bedrijfsopleiding

Voorlopige Aankomende Cursussen

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie

Tencent Hunyuan in Productie Deployen: Inferentie met Lage Latentie & Kostenoptimalisatie

Gerelateerde cursussen

Advanced LangGraph: Optimaliseren, Foutopsporing en Monitoring van Complexe Grafieken

Coding Agents Bouwen met Devstral: Van Agent Ontwerp tot Tooling

Open-Source Model Ops: Self-Hosting, Fine-Tuning and Governance with Devstral & Mistral Models

LangGraph Toepassingen in Financiële Sector

LangGraph Foundations: Graph-Based LLM Prompting en Chaining

LangGraph in de Gezondheidszorg: Workflow Orchestratie voor Gereguleerde Omgevingen

LangGraph voor juridische toepassingen

Dynamische workflows bouwen met LangGraph en LLM-agents

LangGraph voor Marketing Automation

Le Chat Enterprise: Private ChatOps, Integrations & Admin Controls

Kostenefficiënte LLM-architecturen: Mistral op schaal (Prestatie- / kostenengineering)

Productizing Conversational Assistants met Mistral Connectors & Integrations

Enterprise-Grade Deployments met Mistral Medium 3

Mistral voor Verantwoord AI: Privacy, Data Residency & Ondernemingscontroles

Multimodal Applications met Mistral Modellen (Visie, OCR, & Document Begrip)

Gerelateerde categorieën

Large Language Models (LLMs)

Deze site in andere landen/regio's

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites