Guide complet de l'API Gemini avec Python

Pourquoi c’est important ?

L’API Gemini de Google est l’une des plus puissantes disponibles en 2025. Avec un contexte de 2 millions de tokens et des capacités multimodales (texte, image, audio, vidéo), elle surpasse de nombreux concurrents sur des tâches techniques complexes. Maîtriser cette API, c’est avoir une longueur d’avance pour construire des applications IA de production.

Prérequis

Python 3.9+
Un compte Google et une clé API (gratuit sur aistudio.google.com)
Connaissances de base en Python

Installation

pip install google-generativeai python-dotenv

Crée un fichier .env à la racine :

GEMINI_API_KEY=ta_clé_api_ici

Étape 1 — Initialisation du client

import google.generativeai as genai
import os
from dotenv import load_dotenv

load_dotenv()
genai.configure(api_key=os.environ["GEMINI_API_KEY"])

# Choix du modèle
model = genai.GenerativeModel("gemini-1.5-pro")

Étape 2 — Génération de texte simple

response = model.generate_content("Explique le concept de tokenisation en NLP.")
print(response.text)

Étape 3 — Streaming (pour les réponses longues)

for chunk in model.generate_content("Écris un article sur les LLMs.", stream=True):
    print(chunk.text, end="", flush=True)

Étape 4 — Analyse d’image (multimodal)

import PIL.Image

img = PIL.Image.open("screenshot.png")
response = model.generate_content(["Que vois-tu dans cette image ?", img])
print(response.text)

Comparaison des modèles Gemini

Modèle	Contexte	Vitesse	Coût	Idéal pour
gemini-1.5-pro	2M tokens	Lent	$$$	Analyse de documents longs
gemini-1.5-flash	1M tokens	Rapide	$	Applications temps-réel
gemini-1.0-pro	32k tokens	Moyen	$$	Usage général

⚠️ Erreurs fréquentes

ResourceExhausted : Tu as atteint la limite de rate. Ajoute un time.sleep(1) entre les appels.
InvalidArgument : L’image est trop grande. Redimensionne-la à max 4MB.
Réponse tronquée : Augmente max_output_tokens dans generation_config.

Points clés

L’API est gratuite jusqu’à un certain quota — suffisant pour commencer
gemini-1.5-flash est 10x moins cher que pro pour 95% des cas d’usage
Le streaming améliore considérablement l’UX pour les réponses longues
La fenêtre de contexte de 2M tokens permet d’injecter des codebases entières
Toujours gérer les erreurs de rate limiting avec un retry exponentiel