Zamknięta beta · 30-dniowy trial, bez karty

Zobacz, którzy deweloperzy i zespoły naprawdę dostarczają.

DevEval wykorzystuje AI do analizy kodu, zadań, kontekstu projektu i dyskusji w code review — zamieniając realną pracę inżynierską w zrozumiałe sygnały produktywności, jakości i ryzyka.

Commity, godziny, story pointy i surowe statystyki Git pokazują aktywność. DevEval pokazuje dostarczoną wartość.

Od małych zespołów po organizacje inżynierskie klasy enterprise.

Wypróbuj bezpłatnie → 30-dniowy trial w chmurze · bez karty

Alice Kowalska

Senior · Backend · 2 lata

Active

   Wynik 79    Śr. org. 60  

Jakość

Szybkość

Stabilność

Współpraca

Koszt

ELO · Code Quality

Ostatnie 30 dni · Glicko-2

Q2 · 2026

1 Alice K.

1842 ±64 ↑ 24

2 Tomek W.

1721 ±71 ↑ 11

3 Bob R.

1690 ±88 ↓ 6

4 Marta J.

1654 ±92 ↑ 3

5 Dawid P.

1598 ±105 ↓ 12

6 Hanna L.

1572 ±110 ↑ 8

7 Piotr S.

1549 ±96 ↑ 5

↑ Ostatnia aktualizacja 14 min temu · 23 PR-y przeanalizowane

Czyta z Integracja tylko do odczytu — repozytorium pozostaje źródłem prawdy

GitHub • GitLab • Bitbucket • Jira • Linear • Tempo • Confluence • GitHub • GitLab • Bitbucket • Jira • Linear • Tempo • Confluence •

01 Dlaczego DevEval

Bo aktywność to nie wartość. A klasyczne metryki widzą tylko aktywność.

Story Pointy, liczba PR-ów, commity, linijki kodu, godziny w timesheecie — wszystko to mierzy aktywność, nie wartość. Dwóch deweloperów dostarcza po 12 PR-ów. Jeden zrefaktorował autoryzację. Drugi zmienił napisy na 12 przyciskach. Klasyczne metryki traktują ich tak samo. My nie.

Złudzenie tego samego sprintu

Ten sam sprint, dwóch deweloperów. Alice bierze trudną migrację bazy, której nikt inny nie chciał tknąć, plus trzy średnie poprawki — 25 CU dostarczone. Bob dowozi piętnaście zmian napisów na przyciskach — 7 CU dostarczone. Oboje zalogowali 8 dni. Oboje zamknęli mniej więcej tyle samo Story Pointów. W każdej tradycyjnej metryce wypadli tak samo.

Godziny i SP

remis

Wygląda sprawiedliwie na każdym dashboardzie

Dostarczone CU

3,6×

Realna luka trudności — to widzi DevEval

Klasycznie

DevEval

Linijki kodu / commity

Jak trudne problemy faktycznie rozwiązał ten deweloper

Story Pointy (umowne dla zespołu)

Jedna miara trudności, porównywalna między zespołami

Jedna ogólna ocena dewelopera, bez rozbicia

"Wyższa jakość kodu niż u 87% organizacji — lider w Szybkości, średnio w Stabilności"

Ocena okresowa jednym numerem

5 wymiarów: Jakość / Szybkość / Stabilność / Współpraca / Koszt

Tabela metryk bez wyjaśnienia

"Alice > Bob — 5 review vs 1, mniejsze wahania jakości"

Deep dive Wartość i ROI — model pięciu warstw →

02 Problem

Każda metryka, której dziś używasz, została zepsuta przez AI w 2025.

Asystenci AI w kodzie rozmywają każdy sygnał produktywności oparty na czasie. Linijki, commity, godziny, story pointy — to teraz szum. Bez modelu świadomego jakości i odpornego na AI, każda ocena okresowa zmienia się w negocjację o metrykę, a nie o pracę.

Co organizacje mierzą

Dlaczego zawodzi w 2026

Jak konkretnie zawodzi

◢

Liczba commitów

Nagradza aktywność, nie wynik.

50 commitów na poprawkę literówki. 1 commit na pełen vertical slice. Ten sam wiersz tabeli.

◣

Story Pointy

Subiektywne, niespójne między zespołami i dostawcami.

"5 punktów" zespołu A to "13" zespołu B. I nikt w żadnym z nich nie umie wyjaśnić, dlaczego.

◤

Linijki kodu

Karze refaktoryzację. AI pisze linijki za darmo.

-2 400 LOC przy usuwaniu martwego kodu liczy się tak samo jak +2 400 LOC z kopiuj-wklej.

◥

Czas / godziny w timesheecie

Brak powiązania z trudnością. AI dodatkowo rozmywa sygnał czasu.

Senior zamyka trudną migrację w jeden dzień. Junior spędza tydzień na powtarzalnych formularzach. Ten sam tydzień w timesheecie, ta sama linijka na fakturze — a w kodzie wydarzyły się zupełnie różne rzeczy.

◐

Velocity (punkty/sprint)

Łatwe do oszukania. Brak wymiaru jakości. Nagradza szybkie wypuszczanie złego kodu.

Podwojona velocity w tym kwartale — przez pomijanie review. Bugi wpadają w następnym; premia została wypłacona w tym.

◑

Subiektywne oceny menedżera

Podatne na stronniczość. Nieporównywalne między zespołami, BU i dostawcami.

Pięciu menedżerów, pięć skal, pięć ulubionych osób. Ocena okresowa = negocjacja.

DevEval zamiast tego

1 oś wolumenu + 5 osi bonusu eksperckiego, liczone z samej zmiany w kodzie — a nie z tego, co ktoś wpisał w narzędziu do planowania. Odporne na AI z założenia.

Jak → CU

03 Jak to działa

Najpierw kontekst. Potem sygnał, nie szum.

DevEval najpierw uczy się, czym faktycznie są Twoje projekty, potem ocenia każdy zmergeowany PR względem tego kontekstu, a na końcu zestawia deweloperów head-to-head z uzasadnieniem. Wbudowany czat pozwala pominąć klikanie — czyta analizę, którą już dla Ciebie zrobiliśmy.

01 przy podłączeniu · per repo

Kontekst projektu

Najpierw uczy się Twojej bazy kodu.

Zanim cokolwiek oceni, DevEval profiluje każdy projekt — stos technologiczny, krytyczność, dojrzałość, złożoność. 3-liniowa zmiana w prostym CRUD-zie to nie to samo, co 3 linijki w bankowym core 24/7. Każdy późniejszy wynik jest kalibrowany względem tego kontekstu.

02 każdy zmergeowany PR

Analiza per PR

Każdy PR czytany jak przez doświadczonego reviewera.

Każdy zmergeowany PR przechodzi przez siedem warstw: ocena trudności (CU na 6 osiach), estymacja wysiłku, klasyfikacja, ocena jakości kodu, sprawdzenie stabilności, skan ryzyk i przypisanie wartości review. Jeden werdykt na PR. Bugi są przypisywane wstecz do PR-a, który je wprowadził.

03 Glicko-2 · 5 wymiarów

Head-to-head

Pary porównywane, z uzasadnieniem.

"Alice > Bob w jakości kodu, 87% pewności." Trzy systemy ratingowe na trzy różne pytania. ROI per deweloper / projekt / klient wynika z tych samych danych.

04 opcjonalny skrót

Chat

Klikaj, albo po prostu zapytaj.

Każdy ekran jest w pełni klikalny — sam wejdziesz w dowolny PR, review czy ranking. Albo zapytaj czat: czyta te same dane, które już zostały policzone, i składa odpowiedź — bez przechodzenia przez pięć widoków.

04Complexity Units

Jedna skala. Od literówki po outlier z wielu sprintów.

CU to miara kontrybucji per PR — porównywalna między ludźmi, zespołami, dostawcami, narzędziami. Wolumen (scope) plus bonusy eksperckie na 5 osiach. To samo zadanie = to samo CU, zawsze. Odporne na AI z konstrukcji.

Skala CU · 0 → 30

Kroki: 0; 0,25; 0,5; 1; 1,5; 2; … 30

1 endpoint CRUD

5 ekranów (pattern)

Wielowarstwowa funkcja

Vertical slice

Senior foundations

Greenfield infra

Sprint mid-dev · 10 MD

Epic na wiele sprintów

Outlier (rzadko)

21 endpoint CRUD
45 ekranów (pattern)
7.5Wielowarstwowa funkcja
11.5Vertical slice
14Senior foundations
17.5Greenfield infra
20Sprint mid-dev · 10 MD
24.5Epic na wiele sprintów
30Outlier (rzadko)

KOTWICA KALIBRACJI

20 CU ≈ 10 MD

solidny sprint mid-dev bez AI

POWTARZALNE

~1,5 CU / MD

subliniowy dyskont za powtarzalność

EKSPERCKIE

do 3–4 CU / MD

mały diff, duże osie bonusowe

MAKS. SKALA

outlier z wielu sprintów · rzadko

Zbudowane z 1 osi wolumenu + 5 bonusów eksperckich.

Każdy PR oceniany 0–10 na każdej osi. Formuła scala je w finalne CU.

Scope · 0–10

Ilość dostarczonej pracy, z subliniowym dyskontem za powtarzalność — ale nie do zera.

Środek (5–6)

6–10 powtarzalnych jednostek z różnymi decyzjami

Top (9–10)

20+ powtarzalnych jednostek LUB masowa zmiana czysto wolumenowa przez 2+ sprinty

Antywzorzec

Liczba plików ≠ liczba zagadnień. 30 plików przeszytych jednym booleanem = scope 1–2, nie 8.

Deep diveComplexity Units — pełna skala→

05 Quality Gate

Szybkie wypuszczanie złego kodu to nie jest sukces.

Dwa wzorce dostarczania. Ten sam zespół. Ten sam sprint. Metryki velocity wskazują Dev A jako najlepszego wykonawcę — DevEval nie. Jakość, stabilność i współpraca ważą więcej niż sam wolumen.

Najpierw wolumen

Q1 2026 · 1 sprint

Developer A

Dowozi szybko. Idzie na skróty.

Output (CU) 50

Jakość kodu 30 /100

Stabilność 30 /100

Wykonane review 0 CU

Wprowadzone bugi 6

Wynik DevEval

pkt

Velocity premiowane przez każdą tradycyjną metrykę.

7,4× różnica wyniku

Najpierw jakość

Q1 2026 · 1 sprint

Developer B

Mniej kodu. Lepszy kod. Robi review dla innych.

Output (CU) 20

Jakość kodu 90 /100

Stabilność 85 /100

Wykonane review 10 CU · j. 80

Wprowadzone bugi 1

Wynik DevEval

pkt

Mniej dostarczonego kodu, 7× wyższy wynik. Jakość, stabilność i współpraca liczą się bardziej niż sam wolumen.

Velocity nie przebije jakości

Jakość kodu i stabilność wchodzą multiplikatywnie do końcowego wyniku. Pójście na skróty kosztuje więcej niż przynosi.

Review to pełnoprawny rezultat

Review PR-a innej osoby z oceną 80 liczy się jako kontrybucja. Pomaganie zespołowi to nie niewidoczna praca.

Bugi wracają do autora

Regresje są przypisywane PR-owi, który je wprowadził. "Szybko i byle jak" nie schowa się za granicami sprintu.

Deep dive Model oceny — Wynik vs Absolute Points →

06Zastosowania

Pięć miejsc, w których te same dane się zwracają.

Jedna platforma. Jeden model oceny. Pięć konkretnych decyzji, które na niej oprzesz — od przedłużania umów z software house'ami po rekrutację. Te same dane, inna perspektywa.

Ocena dostawców

Porównuj software house'y w tej samej skali.

Wyzwanie

Pracujesz z wieloma software house'ami realizującymi ten sam backlog. Dziś porównywanie ich to jabłka do gruszek — różne stacki, różny reporting, różne "definicje gotowości".

Efekt

Decyzje o wyborze i przedłużeniu umów z dostawcami oparte na twardych danych kwartał do kwartału.

Co umożliwia DevEval

Standardowe scorecardy

Te same 5 wymiarów, ta sama skala CU, znormalizowane względem trudności projektu.

Benchmarking między dostawcami

Statystycznie poprawne porównania — z przedziałem ufności, nie na wyczucie.

Alerty o spadku formy

Automatyczne oznaczenie, gdy jakość lub stabilność dostawcy spada kwartał do kwartału.

Dowody do umów i SLA

Liczby, które dają się obronić w QBR. Nie narracje.

07Trzy ratingi + jedna statystyka

Trzy systemy ratingowe. To nie błąd — to cecha.

Arcymistrz szachowy ma trzy liczby: ELO 2400, top 5% i liczbę partii — każda odpowiada na inne pytanie. Tak samo DevEval. Plus surowa statystyka — Productivity Index — łącząca trudność (CU) z dniami pracy. To nie ranking, tylko pomiar.

◇ Punkty absolutne

Na godzinę 4,31 · Średnia 4-okresowa 343 · vs organizacja +0%

758

↗ Rośnie

↑ +539(+246,5%)

HISTORIA PUNKTÓW

PODZIAŁ WG WYMIARÓW

Przykład

Cała organizacja wdraża AI. Wszyscy stają się 2× szybsi.

Każdy system ratingowy reaguje inaczej — dlatego potrzebujesz wszystkich.

Glicko-2 Alice

1842 → 1842

±0

względne — nic się nie zmienia

Percentyl Alice

95. → 95.

±0

względne — nic się nie zmienia

Punkty Alice

1500 → 3200

+113%

absolutne — cała organizacja przyspieszyła

Deep diveModel oceny — Wynik vs Absolute Points→Deep diveRanking head-to-head — jak działają porównania→

08 Modele wdrożenia

SaaS domyślnie. Self-hosted, kiedy tego potrzebujesz.

Większość zespołów uruchamia DevEval jako usługę zarządzaną i pracuje produktywnie w kilka godzin. Enterprise z ostrzejszymi wymaganiami wdraża go we własnej infrastrukturze — ten sam produkt, te same wyniki, Twoja infrastruktura i Twój klucz do AI.

SaaS · zarządzane przez nas

DOMYŚLNY

Domyślny · najszybsza droga do wartości

Uruchamiamy DevEval dla Ciebie w regionach EU. Rejestracja, podłączenie repo, wyniki w godzinach. Najlepsze dla zespołów, które nie chcą narzutu operacyjnego i mają standardowe wymagania zgodności.

Hosting EU Zarządzane aktualizacje Współdzielony koszt AI

Self-hosted · Twoja infra

ENTERPRISE

Opcja enterprise · Twoja infrastruktura

Wdrożenie w Twoim środowisku — On-Premise (VM / Kubernetes), Azure AKS lub AWS EKS. Używasz własnego klucza do dostawcy AI. Kod źródłowy i analiza zostają w granicach Twojego środowiska.

On-Prem AKS EKS BYO klucz AI

Hybryda · zakres indywidualny

CUSTOM

Gdy standardowe opcje nie pasują

Pilotaże air-gapped, branże regulowane, wdrożenia w wielu regionach, integracje na zamówienie. Zakres ustalamy w rozmowie wstępnej — wycena per projekt.

Indywidualny zakres Air-gapped Regulowane

Przepływ danych w wersji self-hosted

Przetwarzanie repozytorium działa w Twoim środowisku, a ruch AI podlega uzgodnionej architekturze wdrożenia.

Dla wdrożeń Enterprise

Twój Git

GitHub · GitLab · Bitbucket

→

Diff PR + metadane

pobierane przez API — bez agentów

→

DevEval

wewnątrz Twojej infrastruktury

→

Dostawca AI

Twój klucz · bezpośrednio / Bedrock / Vertex / Foundry

→

Wyniki i dashboardy

w Twoim środowisku

TWOJA INFRASTRUKTURA 3 środkowe kafelki zostają wewnątrz Twojego środowiska. Klucz AI jest Twój.

OAuth 2.0 · RBAC · maskowanie finansów · pełna ścieżka audytu

TWOJA INFRA

On-Prem · AKS · EKS

lub air-gapped na życzenie

TWÓJ KLUCZ AI

BYO klucz dostawcy

bezpośrednio · Bedrock · Vertex · Foundry

TWOJE DANE

Brak eksfiltracji kodu

tylko metadane PR + wyniki

TWOJE SLA

Dedykowane warunki

zakres indywidualny

Deep dive Bezpieczeństwo i wdrożenie — co przekracza granicę →

09 Cennik

Za aktywnego dewelopera. Self-hosted w pakiecie Enterprise.

30-dniowy trial bez karty. Potem konto przechodzi w tryb read-only — nic nie znika. Enterprise wyceniamy indywidualnie.

Trial

0 darmowy

30 dni · bez karty

5 deweloperów

Do 30 PR-ów / dev

Dostęp do produktu w chmurze · potem read-only

Zacznij trial

Starter

16 EUR / dev / mies.

Rozliczenie miesięczne

Do 10 deweloperów

Do 30 PR-ów / dev / mies.

Wsparcie e-mail · retencja 12 mies.

Wybierz Starter

Najpopularniejszy

Pro

29 EUR / dev / mies.

Miesięcznie · Roczny −10%

Do 100 deweloperów

Do 60 PR-ów / dev / mies.

Priorytetowe wsparcie · retencja 24 mies.

Wybierz Pro

Enterprise

— Custom

Roczny · zakres indywidualny

Bez limitu deweloperów · multi-BU

Bez limitu PR-ów

SaaS lub self-hosted · BYO klucz AI

Dopasowany rollout · dedykowane SLA

Porozmawiajmy

Enterprise · jak to działa

Wycenę enterprise przygotowujemy indywidualnie po krótkiej rozmowie — zakres, integracje, model wdrożenia, sposób obsługi klucza AI i poziom wsparcia wpływają na cenę. Jeśli zdecydujesz się kontynuować, możemy wdrożyć DevEval w Twoim środowisku, dostroić go do Twojego stacka i przekierować wywołania AI przez Twój klucz — tak, że wrażliwe dane zostają pod Twoją kontrolą.

Poproś o wycenę →

30 dni · bez karty · anuluj kiedy chcesz

Przestań mierzyć linijki kodu.
Zacznij mierzyć wartość.

Podłącz repo w 15 minut. Historia PR-ów uzupełniona tego samego dnia. Pełne ratingi i ROI gotowe w godzinach.

Wypróbuj bezpłatnie →