Două moduri de a testa DeepSeek la nivel local

 

Punctul de cotitură?


Mult vorbitul despre DeepSeek , o companie chineză specializată în producția de LLM-uri ( Large Language Models ), promite să revoluționeze lumea AI prin reducerea drastică a costurilor, consumului și puterii de calcul necesare gestionării modelelor lingvistice mari.

Dar chiar asa este? Spoiler: Nu. Sau mai degrabă; cele mai mari beneficii se vor observa la nivel de întreprindere .

Dacă până acum crearea, pregătirea și managementul unui LLM au necesitat costuri atât de disproporționate încât au rămas apanajul exclusiv al celor mai bogați Big Tech de pe planetă, acum ar putea fi implicați și alți jucători .

Dar nu, încă nu vei concura cu OpenAI cu Rasperry-ul tău.


Chatbot online


Fiecare furnizor de LLM oferă practic un serviciu freemium pe site-ul său , cu funcții și performanțe aproape perfecte și unele limitări în versiunea gratuită.

În aproape toți chatbot-urile online, însă, în condițiile de utilizare este clar indicat că orice date introduse de utilizator vor deveni proprietatea companiei furnizoare respective și vor fi folosite pentru antrenarea modelelor .

Nu lipsesc nici o posibilă cenzură , mai mult sau mai puțin voalată, dar inevitabil atunci când modelele rulează pe servere proprietare.


AI auto-găzduit


Cu siguranță nu este exclusiv pentru DeepSeek, dar lansarea gratuită și open source a modelelor lor pentru uz local a deschis câteva dezvoltări interesante.

Modelele sunt relativ ușor de rulat în variantele lor cele mai de bază (până la aproximativ 7 miliarde de parametri), nu necesită în mod explicit prezența unui GPU dedicat și pot fi rulate și pe CPU-uri de gamă medie/high-end produse din 2016 încoace, de preferință însoțite de cel puțin 16 GB de RAM. Acestea nu sunt calcule empirice, ci mai degrabă date bazate pe încercări și încercări .

Sunt mulți factori în joc, inclusiv răbdarea ta; În orice caz, nu vă așteptați la răspunsuri rapide pe hardware-ul mai vechi .

Fiecare interogare poate avea impacturi diferite asupra modelului, care este obligat să „gândească” mai mult, cu o creștere în consecință a resurselor utilizate. Din această perspectivă, este de asemenea important să se evalueze raportul consum/beneficiu .


Fără a intra în tehnicile spinoase, este necesară o clarificare.
DeepSeek „adevărat” este cel 671B (adică modelul cu peste 670 de miliarde de parametri). Variantele reduse sunt compuse dintr-o bază care se bazează din alte LLM-uri disponibile ( Qwen sau Llama ) și îmbogățită (sau distilate ) cu unele date gata extrase din modelul mai mare.


Atenție: modelele reduse produc mai multe halucinații și erori și au mai multe dificultăți în a se exprima corect în română.

În ciuda impactului foarte pozitiv asupra vieții private , este esențial să se verifice corectitudinea rezultatelor produse. Niciodată ca în acest caz, utilizatorul trebuie să fie conștient de limitele acestor instrumente, mai ales în versiunile lor „acasă”.


Ollama


Dar să revenim la noi.

Ollama este un software cu sursă deschisă, multiplatformă, pentru rularea LLM-urilor locale ; exact ce ne trebuie!


Prin personalizare, comenzile sunt reprezentate cu prefixul „$”, care nu trebuie introdus în shell.


Instalarea acestuia este banală dacă urmați metoda sugerată pe site-ul oficial :$ curl -fsSL https://ollama.com/install.sh | sh


La momentul scrierii articolului, procedura pentru Linux necesită executarea unui script de la distanță . În caz de îndoieli și nedumeriri, este posibil să vizualizați codul acestuia sau să continuați cu alte tipuri de instalare.

Acum trebuie să descărcați cel puțin un model pentru a începe, de exemplu:$ ollama run deepseek-r1:1.5bpentru a începe să vă murdăriți mâinile, cel mai mic model va necesita puține date de descărcat și resurse nu prea solicitante pentru a rula. Pe măsură ce parametrii cresc, totul va crește proporțional.

În acest moment, va fi suficient să puneți întrebări în interiorul terminalului pentru a observa modelul să își scrie raționamentul preliminar în interiorul etichetei de gândire și apoi să propună răspunsul său real.


Modelele DeepSeek marcate cu acronimul r1 se deosebesc de cele mai clasice tocmai prin capacitatea lor de a „gândi” și „raționa” cu privire la întrebarea pusă de utilizator. Citirea acestor „gânduri” mi-a provocat un amestec de fascinație, hilaritate și anxietate.

Cu toate acestea, lăsând sentimentele mele, mecanismul de „gândire” ar trebui să mărească precizia în detrimentul performanței .

listă de modele disponibile care pot fi ușor integrate în Ollama poate fi găsită în această secțiune a site-ului.


Folosirea Ollama din terminal , sau chiar într-un mod mai izolat, dacă este limitată într-un container systemd-nspawn , este cu siguranță cea mai eficientă modalitate de a rula un LLM pe hardware-ul tău, dar și cea mai spartană .


Deschideți WebUI


Pentru o experiență mai convenabilă, similară cu ceea ce ai obține cu un chatbot online, poți opta pentru un container de Open WebUI (tot open source), o interfață grafică pentru instrumente precum Ollama. 


Următoarea comandă necesită instalarea Docker sau Podman (utilizată în exemplu) ca o cerință prealabilă:$ podman run -d --name openwebui -p 3000:8080 -e WEBUI_AUTH=False ghcr.io/open-webui/open-webui:ollama


Chiar dacă este foarte scurt și simplu, să continuăm cu o mică analiză a comenzii date.

Descărcați imaginea de pe adresa URL ghcr.io/open-webui/open-webui:ollama și porniți un container cu un nume personalizat openwebui în modul detașare ( -d ), adică în fundal.

Parametrul -p asociază în schimb portul local 3000 cu portul 8080 al containerului .

Declarația variabilei WEBUI_AUTH=False ( -e pentru mediu , pe scurt „variabila de mediu”) evită crearea obligatorie a unui cont în interfața Open WebUI, dar poate fi omisă pentru o configurare multi-utilizator.


După ce așteptați descărcarea și pornirea containerului, puteți accesa Open WebUI dintr-un browser la localhost:3000 .

Integrarea Ollama vă permite să achiziționați un model prin simpla introducere a numelui acestuia în caseta de căutare sub „Selectați un model”, apoi făcând clic pe „Extrage [numele modelului] de pe Ollama.com”.


Pentru a menține datele modelelor și conversațiilor, este important să închideți în mod regulat containerul :$ podman stop openwebui


Apoi redeschideți-l , specificând întotdeauna același nume:$ podman start openwebui


Merită?


După emoția inițială, nu pot spune dacă jocul merită.

Dacă aveți hardware deosebit de recent și de înaltă performanță , poate cu o placă video dedicată demnă de acest nume, o soluție precum Open WebUI, combinată cu optimizarea modelelor DeepSeek , ar putea reprezenta soluția definitivă pentru gestionarea modelelor lingvistice mari.


Cu hardware modest, puteți experimenta , dar fără miracole.


Sursa: https://dajelinux.it/archivio/deepseek-test/

Comentarii

Postări populare