DeepSeek: Какво се крие под новия AI чатбот?

DeepSeek потенциално демонстрира, че не са необходими огромни ресурси за създаване на усъвършенствани AI модели

0
99
DeepSeek
DeepSeek. Снимка: Facebook

Падащи стойности на фондовия пазар и бурни твърдения съпътстваха пускането на нов чатбот с изкуствен интелект от малка китайска компания. Какво го прави толкова различен?

Пускането на новото AI-задвижвано чатбот приложение на DeepSeek разтърси технологичната индустрия. То бързо измести ChatGPT на OpenAI като най-сваляното безплатно iOS приложение в САЩ и доведе до загуба на близо 600 милиарда долара (483 милиарда паунда) от пазарната стойност на производителя на чипове Nvidia в рамките на един ден – нов рекорд за фондовия пазар на САЩ.

Каква е причината за този хаос?

Големият езиков модел“ (LLM), който задвижва приложението, има способности за разсъждение, съизмерими с американските модели като o1 на OpenAI, но се твърди, че изисква само малка част от разходите за обучение и работа.

DeepSeek твърди, че е постигнал това чрез прилагане на няколко технически стратегии, които намаляват както времето за изчисления, необходимо за обучение на неговия модел (наречен R1), така и паметта, нужна за съхранението му. Намаляването на тези разходи е довело до драстично понижаване на цената, казват от DeepSeek.

Според съобщения, базовият модел V3 на R1 е изисквал 2,788 милиона часа за обучение (изпълняван едновременно върху множество графични процесори – GPU), при приблизителна цена под 6 милиона долара (4,8 милиона паунда), в сравнение с над 100 милиона долара (80 милиона паунда), които изпълнителният директор на OpenAI Сам Алтман твърди, че са били необходими за обучението на GPT-4.

Въпреки удара по пазарната стойност на Nvidia, моделите на DeepSeek са били обучени на около 2000 Nvidia H800 GPU, според изследователски доклад на компанията. Тези чипове са модифицирана версия на широко използвания чип H100, създадена така, че да отговаря на изискванията за износ в Китай. Вероятно те са били складирани преди администрацията на Байдън да затегне още повече ограниченията през октомври 2023 г., ефективно забранявайки износа на H800 за Китай. Вероятно, работейки в тези ограничения, DeepSeek е бил принуден да намери иновативни начини за максимално ефективно използване на наличните ресурси.

Намаляването на изчислителните разходи за обучение и работа на модели може също да помогне за справяне с опасенията относно екологичните последици от AI. Центровете за данни, върху които работят тези модели, изискват огромни количества електроенергия и вода, най-вече за да охлаждат сървърите. Въпреки че повечето технологични компании не разкриват въглеродния отпечатък, свързан с експлоатацията на техните модели, скорошни оценки показват, че ChatGPT генерира над 260 тона въглероден диоксид на месец – еквивалента на 260 полета от Лондон до Ню Йорк. Увеличаването на ефективността на AI моделите би било положителна стъпка за индустрията от екологична гледна точка.

Разбира се, дали моделите на DeepSeek реално водят до спестяване на енергия, предстои да се види. Също така не е ясно дали по-евтин и по-ефективен AI би довел до по-голямо потребление, което на свой ред може да увеличи общото енергийно натоварване.

Ако не друго, това може да повиши темата за устойчив AI на предстоящата Среща за действия в областта на AI в Париж, за да се гарантира, че бъдещите AI инструменти ще бъдат по-благоприятни за планетата.

Това, което изненада мнозина, е колко бързо DeepSeek се появи на сцената с толкова конкурентен голям езиков модел – компанията е основана едва през 2023 г. от Лян Уенфън, който вече е възприеман в Китай като нещо като „AI герой“.

Моделът е конструиран от група много по-малки модели, всеки със специализирани познания в определени области
Последният модел на DeepSeek също се отличава с това, че неговите „тежести“ – числовите параметри, получени по време на обучението – са били публикувани открито, заедно с технически документ, описващ процеса на разработка. Това позволява на други групи да стартират модела на собствено оборудване и да го адаптират за други задачи.

Тази относителна откритост също така означава, че изследователи по целия свят сега могат да погледнат „под капака“ на модела и да разберат как работи, за разлика от o1 и o3 на OpenAI, които са по същество „черни кутии“. Въпреки това, все още липсват някои подробности, като наборите от данни и кодът, използван за обучението на моделите, така че различни изследователски групи се опитват да ги реконструират.

Не всички техники за намаляване на разходите, използвани от DeepSeek, са нови – някои са били прилагани и в други LLM. През 2023 г. Mistral AI публикува своя Mixtral 8x7B модел, който беше съпоставим с най-напредналите модели по това време. Както Mixtral, така и моделите на DeepSeek използват техниката „смес от експерти“, при която моделът се състои от група по-малки модели, всеки специализиран в определени области. Когато бъде зададена задача, моделът я насочва към най-квалифицирания „експерт“.

DeepSeek дори разкри своите неуспешни опити за подобряване на логическите способности на LLM чрез други технически подходи, като Монте Карло дървесно търсене – метод, дълго считан за потенциална стратегия за насочване на логическия процес в LLM. Изследователите ще използват тази информация, за да разберат как да подобрят вече впечатляващите способности за решаване на проблеми на модела – подобрения, които вероятно ще намерят място в следващото поколение AI модели.

Какво означава това за бъдещето на AI индустрията?

DeepSeek потенциално демонстрира, че не са необходими огромни ресурси за създаване на усъвършенствани AI модели. Очаквам да видим как все по-способни AI модели ще бъдат разработвани с все по-малко ресурси, докато компаниите намират начини за по-ефективно обучение и работа с модели.

Досега AI индустрията беше доминирана от „Големите технологии“ в САЩДоналд Тръмп нарече възхода на DeepSeekсигнал за събуждане“ за американската технологична индустрия. Но това развитие може да не е непременно лоша новина за компании като Nvidia в дългосрочен план: с намаляването на финансовите и времеви разходи за разработка на AI продукти, бизнесите и правителствата ще могат по-лесно да възприемат тази технология. Това, от своя страна, ще стимулира търсенето на нови продукти и чипове, които ги захранват – и така цикълът ще продължи.

Изглежда вероятно, че по-малки компании като DeepSeek ще играят все по-голяма роля в създаването на AI инструменти, които могат да улеснят живота ни. Подценяването на този факт би било грешка.

За още новини вижте ТУК

Присъединете се към нашия Телеграм

„Ще бъде ли за един ден или четири години?“ Несигурността около митата плаши малкия бизнес

Абониране
Известие от
guest

0 Comments
стари
нови най-гласувани
Inline Feedbacks
View all comments