Zamknięta beta · 30-dniowy trial, bez karty

Zobacz, którzy deweloperzy i zespoły naprawdę dostarczają.

DevEval wykorzystuje AI do analizy kodu, zadań, kontekstu projektu i dyskusji w code review — zamieniając realną pracę inżynierską w zrozumiałe sygnały produktywności, jakości i ryzyka.

Commity, godziny, story pointy i surowe statystyki Git pokazują aktywność. DevEval pokazuje dostarczoną wartość.

Od małych zespołów po organizacje inżynierskie klasy enterprise.

Wypróbuj bezpłatnie 30 dni · bez karty · self-hosted od pierwszego dnia
AK
Alice Kowalska
Senior · Backend · 2 lata
Active
Jakość Szybkość Stabilność Współpraca Koszt
Jakość
88
Szybkość
71
Stabilność
82
Współpraca
79
Koszt
74
ELO · Code Quality
Ostatnie 30 dni · Glicko-2
Q2 · 2026
1 Alice K.
1842 ±64 +24
2 Tomek W.
1721 ±71 +11
3 Bob R.
1690 ±88 −6
4 Marta J.
1654 ±92 +3
5 Dawid P.
1598 ±105 −12
6 Hanna L.
1572 ±110 +8
↑ Ostatnia aktualizacja 14 min temu · 23 PR-y przeanalizowane
Czyta z Diff na wejściu / wyniki na wyjściu — kod nigdy nie opuszcza organizacji
GitHub GitLab Bitbucket Jira Linear Tempo Confluence GitHub GitLab Bitbucket Jira Linear Tempo Confluence
01 Dlaczego DevEval

Bo aktywność to nie wartość. A klasyczne metryki widzą tylko aktywność.

Story Pointy, liczba PR-ów, commity, linijki kodu, godziny w timesheecie — wszystko to mierzy aktywność, nie wartość. Dwóch deweloperów dostarcza po 12 PR-ów. Jeden zrefaktorował autoryzację. Drugi zmienił napisy na 12 przyciskach. Klasyczne metryki traktują ich tak samo. My nie.

Złudzenie tego samego sprintu
Ten sam sprint, dwóch deweloperów. Alice bierze trudną migrację bazy, której nikt inny nie chciał tknąć, plus trzy średnie poprawki — 25 CU dostarczone. Bob dowozi piętnaście zmian napisów na przyciskach — 7 CU dostarczone. Oboje zalogowali 8 dni. Oboje zamknęli mniej więcej tyle samo Story Pointów. W każdej tradycyjnej metryce wypadli tak samo.
Godziny i SP
remis
Wygląda sprawiedliwie na każdym dashboardzie
Dostarczone CU
3,6×
Realna luka trudności — to widzi DevEval
Klasycznie
DevEval
Linijki kodu / commity
Jak trudne problemy faktycznie rozwiązał ten deweloper
Story Pointy (umowne dla zespołu)
Jedna miara trudności, porównywalna między zespołami
Jedna ogólna ocena dewelopera, bez rozbicia
"Wyższa jakość kodu niż u 87% organizacji — lider w Szybkości, średnio w Stabilności"
Ocena okresowa jednym numerem
5 wymiarów: Jakość / Szybkość / Stabilność / Współpraca / Koszt
Tabela metryk bez wyjaśnienia
"Alice > Bob — 5 review vs 1, mniejsze wahania jakości"
02 Problem

Każda metryka, której dziś używasz, została zepsuta przez AI w 2025.

Asystenci AI w kodzie rozmywają każdy sygnał produktywności oparty na czasie. Linijki, commity, godziny, story pointy — to teraz szum. Bez modelu świadomego jakości i odpornego na AI, każda ocena okresowa zmienia się w negocjację o metrykę, a nie o pracę.

Co organizacje mierzą
Dlaczego zawodzi w 2026
Jak konkretnie zawodzi
Liczba commitów
Nagradza aktywność, nie wynik.
50 commitów na poprawkę literówki. 1 commit na pełen vertical slice. Ten sam wiersz tabeli.
Story Pointy
Subiektywne, niespójne między zespołami i dostawcami.
"5 punktów" zespołu A to "13" zespołu B. I nikt w żadnym z nich nie umie wyjaśnić, dlaczego.
Linijki kodu
Karze refaktoryzację. AI pisze linijki za darmo.
-2 400 LOC przy usuwaniu martwego kodu liczy się tak samo jak +2 400 LOC z kopiuj-wklej.
Czas / godziny w timesheecie
Brak powiązania z trudnością. AI dodatkowo rozmywa sygnał czasu.
Senior zamyka trudną migrację w jeden dzień. Junior spędza tydzień na powtarzalnych formularzach. Ten sam tydzień w timesheecie, ta sama linijka na fakturze — a w kodzie wydarzyły się zupełnie różne rzeczy.
Velocity (punkty/sprint)
Łatwe do oszukania. Brak wymiaru jakości. Nagradza szybkie wypuszczanie złego kodu.
Podwojona velocity w tym kwartale — przez pomijanie review. Bugi wpadają w następnym; premia została wypłacona w tym.
Subiektywne oceny menedżera
Podatne na stronniczość. Nieporównywalne między zespołami, BU i dostawcami.
Pięciu menedżerów, pięć skal, pięć ulubionych osób. Ocena okresowa = negocjacja.
DevEval zamiast tego
1 oś wolumenu + 5 osi bonusu eksperckiego, liczone z samej zmiany w kodzie — a nie z tego, co ktoś wpisał w narzędziu do planowania. Odporne na AI z założenia.
Jak → CU
03 Jak to działa

Najpierw kontekst. Potem sygnał, nie szum.

DevEval najpierw uczy się, czym faktycznie są Twoje projekty, potem ocenia każdy zmergeowany PR względem tego kontekstu, a na końcu zestawia deweloperów head-to-head z uzasadnieniem. Wbudowany czat pozwala pominąć klikanie — czyta analizę, którą już dla Ciebie zrobiliśmy.

01 przy podłączeniu · per repo
Kontekst projektu

Najpierw uczy się Twojej bazy kodu.

Zanim cokolwiek oceni, DevEval profiluje każdy projekt — stos technologiczny, krytyczność, dojrzałość, złożoność. 3-liniowa zmiana w prostym CRUD-zie to nie to samo, co 3 linijki w bankowym core 24/7. Każdy późniejszy wynik jest kalibrowany względem tego kontekstu.

02 każdy zmergeowany PR
Analiza per PR

Każdy PR czytany jak przez doświadczonego reviewera.

Każdy zmergeowany PR przechodzi przez siedem warstw: ocena trudności (CU na 6 osiach), estymacja wysiłku, klasyfikacja, ocena jakości kodu, sprawdzenie stabilności, skan ryzyk i przypisanie wartości review. Jeden werdykt na PR. Bugi są przypisywane wstecz do PR-a, który je wprowadził.

03 Glicko-2 · 5 wymiarów
Head-to-head

Pary porównywane, z uzasadnieniem.

"Alice > Bob w jakości kodu, 87% pewności." Trzy systemy ratingowe na trzy różne pytania. ROI per deweloper / projekt / klient wynika z tych samych danych.

04 opcjonalny skrót
Chat

Klikaj, albo po prostu zapytaj.

Każdy ekran jest w pełni klikalny — sam wejdziesz w dowolny PR, review czy ranking. Albo zapytaj czat: czyta te same dane, które już zostały policzone, i składa odpowiedź — bez przechodzenia przez pięć widoków.

04Complexity Units

Jedna skala. Od literówki po outlier z wielu sprintów.

CU to miara kontrybucji per PR — porównywalna między ludźmi, zespołami, dostawcami, narzędziami. Wolumen (scope) plus bonusy eksperckie na 5 osiach. To samo zadanie = to samo CU, zawsze. Odporne na AI z konstrukcji.

Skala CU · 0 → 30
Kroki: 0; 0,25; 0,5; 1; 1,5; 2; … 30
0
5
10
15
20
25
30
1 endpoint CRUD
5 ekranów (pattern)
Wielowarstwowa funkcja
Vertical slice
Senior foundations
Greenfield infra
Sprint mid-dev · 10 MD
Epic na wiele sprintów
Outlier (rzadko)
0
5
10
15
20
25
30
  • 21 endpoint CRUD
  • 45 ekranów (pattern)
  • 7.5Wielowarstwowa funkcja
  • 11.5Vertical slice
  • 14Senior foundations
  • 17.5Greenfield infra
  • 20Sprint mid-dev · 10 MD
  • 24.5Epic na wiele sprintów
  • 30Outlier (rzadko)
KOTWICA KALIBRACJI
20 CU ≈ 10 MD
solidny sprint mid-dev bez AI
POWTARZALNE
~1,5 CU / MD
subliniowy dyskont za powtarzalność
EKSPERCKIE
do 3–4 CU / MD
mały diff, duże osie bonusowe
MAKS. SKALA
30
outlier z wielu sprintów · rzadko

Zbudowane z 1 osi wolumenu + 5 bonusów eksperckich.

Każdy PR oceniany 0–10 na każdej osi. Formuła scala je w finalne CU.
Scope · 0–10
Ilość dostarczonej pracy, z subliniowym dyskontem za powtarzalność — ale nie do zera.
Środek (5–6)
6–10 powtarzalnych jednostek z różnymi decyzjami
Top (9–10)
20+ powtarzalnych jednostek LUB masowa zmiana czysto wolumenowa przez 2+ sprinty
Antywzorzec
Liczba plików ≠ liczba zagadnień. 30 plików przeszytych jednym booleanem = scope 1–2, nie 8.
05 Quality Gate

Szybkie wypuszczanie złego kodu to nie jest sukces.

Dwa wzorce dostarczania. Ten sam zespół. Ten sam sprint. Metryki velocity wskazują Dev A jako najlepszego wykonawcę — DevEval nie. Jakość, stabilność i współpraca ważą więcej niż sam wolumen.

Najpierw wolumen
Q1 2026 · 1 sprint
Developer A
Dowozi szybko. Idzie na skróty.
Output (CU) 50
Jakość kodu 30 /100
Stabilność 30 /100
Wykonane review 0 CU
Wprowadzone bugi 6
Wynik DevEval
5
pkt
Velocity premiowane przez każdą tradycyjną metrykę.
VS
7,4× różnica wyniku
Najpierw jakość
Q1 2026 · 1 sprint
Developer B
Mniej kodu. Lepszy kod. Robi review dla innych.
Output (CU) 20
Jakość kodu 90 /100
Stabilność 85 /100
Wykonane review 10 CU · j. 80
Wprowadzone bugi 1
Wynik DevEval
37
pkt
Mniej dostarczonego kodu, 7× wyższy wynik. Jakość, stabilność i współpraca liczą się bardziej niż sam wolumen.
Velocity nie przebije jakości
Jakość kodu i stabilność wchodzą multiplikatywnie do końcowego wyniku. Pójście na skróty kosztuje więcej niż przynosi.
Review to pełnoprawny rezultat
Review PR-a innej osoby z oceną 80 liczy się jako kontrybucja. Pomaganie zespołowi to nie niewidoczna praca.
Bugi wracają do autora
Regresje są przypisywane PR-owi, który je wprowadził. "Szybko i byle jak" nie schowa się za granicami sprintu.
06Zastosowania

Pięć miejsc, w których te same dane się zwracają.

Jedna platforma. Jeden model oceny. Pięć konkretnych decyzji, które na niej oprzesz — od przedłużania umów z software house'ami po rekrutację. Te same dane, inna perspektywa.

Ocena dostawców

Porównuj software house'y w tej samej skali.

Wyzwanie
Pracujesz z wieloma software house'ami realizującymi ten sam backlog. Dziś porównywanie ich to jabłka do gruszek — różne stacki, różny reporting, różne "definicje gotowości".
Efekt
Decyzje o wyborze i przedłużeniu umów z dostawcami oparte na twardych danych kwartał do kwartału.
Co umożliwia DevEval
01
Standardowe scorecardy
Te same 5 wymiarów, ta sama skala CU, znormalizowane względem trudności projektu.
02
Benchmarking między dostawcami
Statystycznie poprawne porównania — z przedziałem ufności, nie na wyczucie.
03
Alerty o spadku formy
Automatyczne oznaczenie, gdy jakość lub stabilność dostawcy spada kwartał do kwartału.
04
Dowody do umów i SLA
Liczby, które dają się obronić w QBR. Nie narracje.
07Trzy ratingi + jedna statystyka

Trzy systemy ratingowe. To nie błąd — to cecha.

Arcymistrz szachowy ma trzy liczby: ELO 2400, top 5% i liczbę partii — każda odpowiada na inne pytanie. Tak samo DevEval. Plus surowa statystyka — Productivity Index — łącząca trudność (CU) z dniami pracy. To nie ranking, tylko pomiar.

Punkty absolutne
Na godzinę 4,31 · Średnia 4-okresowa 343 · vs organizacja +0%
758
Rośnie
↑ +539(+246,5%)
HISTORIA PUNKTÓW
9305002500JanFebMarApr
PODZIAŁ WG WYMIARÓW
Jakość kodu
15220%
pkt
Szybkość
37950%
pkt
Stabilność
9112%
pkt
Współpraca
7610%
pkt
Efektywność kosztowa
608%
pkt
Przykład
Cała organizacja wdraża AI. Wszyscy stają się 2× szybsi.
Każdy system ratingowy reaguje inaczej — dlatego potrzebujesz wszystkich.
Glicko-2 Alice
1842 1842
±0
względne — nic się nie zmienia
Percentyl Alice
95. 95.
±0
względne — nic się nie zmienia
Punkty Alice
1500 3200
+113%
absolutne — cała organizacja przyspieszyła
08 Modele wdrożenia

SaaS domyślnie. Self-hosted, kiedy tego potrzebujesz.

Większość zespołów uruchamia DevEval jako usługę zarządzaną i pracuje produktywnie w kilka godzin. Enterprise z ostrzejszymi wymaganiami wdraża go we własnej infrastrukturze — ten sam produkt, te same wyniki, Twoja infrastruktura i Twój klucz do AI.

SaaS · zarządzane przez nas
DOMYŚLNY
Domyślny · najszybsza droga do wartości
Uruchamiamy DevEval dla Ciebie w regionach EU. Rejestracja, podłączenie repo, wyniki w godzinach. Najlepsze dla zespołów, które nie chcą narzutu operacyjnego i mają standardowe wymagania zgodności.
Hosting EU Zarządzane aktualizacje Współdzielony koszt AI
Self-hosted · Twoja infra
ENTERPRISE
Opcja enterprise · Twoja infrastruktura
Wdrożenie w Twoim środowisku — On-Premise (VM / Kubernetes), Azure AKS lub AWS EKS. Używasz własnego klucza do dostawcy AI. Kod źródłowy i analiza zostają w granicach Twojego środowiska.
On-Prem AKS EKS BYO klucz AI
Hybryda · zakres indywidualny
CUSTOM
Gdy standardowe opcje nie pasują
Pilotaże air-gapped, branże regulowane, wdrożenia w wielu regionach, integracje na zamówienie. Zakres ustalamy w rozmowie wstępnej — wycena per projekt.
Indywidualny zakres Air-gapped Regulowane
Przepływ danych w wersji self-hosted
Diff na wejściu. Wyniki na wyjściu. Kod źródłowy nigdy nie opuszcza Twojego środowiska.
Dla wdrożeń Enterprise
01
Twój Git
GitHub · GitLab · Bitbucket
02
Diff PR + metadane
pobierane przez API — bez agentów
03
DevEval
wewnątrz Twojej infrastruktury
04
Dostawca AI
Twój klucz · bezpośrednio / Bedrock / Vertex / Foundry
05
Wyniki i dashboardy
w Twoim środowisku
TWOJA INFRASTRUKTURA 3 środkowe kafelki zostają wewnątrz Twojego środowiska. Klucz AI jest Twój.
OAuth 2.0 · SAML/Entra ID · RBAC · pełna ścieżka audytu
TWOJA INFRA
On-Prem · AKS · EKS
lub air-gapped na życzenie
TWÓJ KLUCZ AI
BYO klucz dostawcy
bezpośrednio · Bedrock · Vertex · Foundry
TWOJE DANE
Brak eksfiltracji kodu
tylko metadane PR + wyniki
TWOJE SLA
Dedykowane warunki
zakres indywidualny
09 Cennik

Za aktywnego dewelopera. Self-hosted w pakiecie Enterprise.

30-dniowy trial bez karty. Potem konto przechodzi w tryb read-only — nic nie znika. Enterprise wyceniamy indywidualnie.

Trial
0 darmowy
30 dni · bez karty
5 deweloperów
Do 30 PR-ów / dev
Pełen dostęp · potem read-only
Starter
16 EUR / dev / mies.
Rozliczenie miesięczne
Do 10 deweloperów
Do 30 PR-ów / dev / mies.
Wsparcie e-mail · retencja 12 mies.
Najpopularniejszy
Pro
29 EUR / dev / mies.
Miesięcznie · Roczny −10%
Do 100 deweloperów
Do 60 PR-ów / dev / mies.
Priorytetowe wsparcie · retencja 24 mies.
Enterprise
Custom
Roczny · zakres indywidualny
Bez limitu deweloperów · multi-BU
Bez limitu PR-ów
SaaS lub self-hosted · BYO klucz AI
SSO/SAML · dedykowane SLA
Enterprise · jak to działa
Wycenę enterprise przygotowujemy indywidualnie po krótkiej rozmowie — zakres, integracje, model wdrożenia, sposób obsługi klucza AI i poziom wsparcia wpływają na cenę. Jeśli zdecydujesz się kontynuować, możemy wdrożyć DevEval w Twoim środowisku, dostroić go do Twojego stacka i przekierować wywołania AI przez Twój klucz — tak, że wrażliwe dane zostają pod Twoją kontrolą.
Poproś o wycenę
30 dni · bez karty · anuluj kiedy chcesz

Przestań mierzyć linijki kodu.
Zacznij mierzyć wartość.

Podłącz repo w 15 minut. Historia PR-ów uzupełniona tego samego dnia. Pełne ratingi i ROI gotowe w godzinach.

Wypróbuj bezpłatnie
Zamknięta beta · wczesny dostęp

Self-service ruszy niebawem

Priorytetem są teraz wdrożenia enterprise. Zostaw e-mail, a powiadomimy Cię, kiedy self-service ruszy.

Użyjemy tego tylko po to, żeby skontaktować się w sprawie DevEval. Bez newslettera, bez udostępniania osobom trzecim.