Cursusaanbod

Inleiding tot Reinforcement Learning van Mensfeedback (RLHF)

  • Wat is RLHF en waarom het belangrijk is
  • Vergeleken met begeleide fijnafstemmingsmethoden
  • Toepassingen van RLHF in moderne AI-systemen

Beloningsmodellering met Mensfeedback

  • Het verzamelen en structureren van mensfeedback
  • Het opbouwen en trainen van beloningsmodellen
  • Het evalueren van de effectiviteit van beloningsmodellen

Trainen met Proximal Policy Optimization (PPO)

  • Overzicht van PPO-algoritmen voor RLHF
  • Het implementeren van PPO met beloningsmodellen
  • Modellen iteratief en veilig fijnafstemmen

Praktische Fine-Tuning van Taalmodellen

  • Datasetten voorbereiden voor RLHF-workflows
  • Hands-on fijnafstemming van een klein LLM met RLHF
  • Uitdagingen en strategieën voor mitigatie

RLHF Schalen naar Productiesystemen

  • Infrastructuur- en rekenconsideraties
  • Kwaliteitszorg en continue feedbacklussen
  • Beste praktijken voor implementatie en onderhoud

Ethische Overwegingen en Biasmitigatie

  • Ethische risico's aanpakken in mensfeedback
  • Strategieën voor biasdetectie en correctie
  • Zorg voor afstemming en veilige uitvoering

Cases en Praktijkvoorbeelden

  • Case study: Fijnafstemming ChatGPT met RLHF
  • Andere succesvolle RLHF-implementaties
  • Opgedane lessen en inzichten uit de industrie

Samenvatting en Volgende Stappen

Vereisten

  • Een begrip van de basisprincipes van supervised en reinforcement learning
  • Ervaring met model fine-tuning en neural network architecturen
  • Kennis van Python programming en deep learning frameworks (bijvoorbeeld TensorFlow, PyTorch)

Doelgroep

  • Machine Learning Engineers
  • AI-onderzoekers
 14 Uren

Leveringsopties

PRIVÉGROEPSTRAINING

Onze identiteit draait om het leveren van precies wat onze klanten nodig hebben.

  • Pre-cursusgesprek met uw trainer
  • Aanpassing van de leerervaring om uw doelen te bereiken -
    • Op maat gemaakte overzichten
    • Praktische, praktische oefeningen met gegevens / scenario's die herkenbaar zijn voor de cursisten
  • Training gepland op een datum naar keuze
  • Gegeven online, op locatie/klaslokaal of hybride door experts die ervaring uit de echte wereld delen

Private Group Prices RRP from €4560 online delivery, based on a group of 2 delegates, €1440 per additional delegate (excludes any certification / exam costs). We recommend a maximum group size of 12 for most learning events.

Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen


OPENBARE TRAINING

Kijk op onze public courses

Voorlopige Aankomende Cursussen

Gerelateerde categorieën