오픈 소스 LLM은 유럽 디지털 주권 폴더에 도달했습니다
유럽 연합의 모든 언어를 다루는 오픈 코드를 갖춘 일련의 “실제”LLM을 개발하기위한 새로운 프로그램에 대한 뉴스로 지난 주 유럽 디지털 주권 에이전트에 LLMS (Lange Linguistic Models)가 상륙했습니다.
여기에는 현재 EU 공식 언어와 현재 알바니아와 같은 EU 시장에 진출하기 위해 협상중인 국가의 언어가 포함됩니다. 향후 보호는 게임의 이름입니다.
Openeurollm은 프라하의 Charles University의 계산 언어 학자 인 Jan Hajic이 이끄는 약 20 개의 조직과 작년에 AMD를 665 달러에 인수 한 Silo AI의 핀란드 AI 실험실 전무 이사 겸 공동 구성자 인 Peter Sarlin이 이끄는 약 20 개의 조직 간의 협력입니다. million for $ 665 million For $ 665 million for $ 665 million for $ 665 million for $ 665 million for $ 665 million for $ 665 million.
이 프로젝트는 더 넓은 이야기에 해당하여 유럽이 디지털 주권을 우선 순위로 밀어내어 임무에 대한 비판을위한 인프라와 도구에 접근 할 수있게했습니다. 클라우드 대기업의 대부분은 지역 인프라에 투자하여 EU 데이터가 로컬로 유지되도록하는 반면 AI Darling Openi는 최근 고객이 유럽에서 데이터를 처리하고 저장할 수있는 새로운 제안을 도입했습니다.
그건 그렇고, EU는 최근 Starlink Elona Musk 라이벌을위한 주권 위성 별자리를 만들기 위해 110 억 달러 계약을 체결했습니다.
OpenUrollm은 브랜드에 안전합니다.
그러나 모델 자체의 건설에 대한 예산은 3,740 만 유로이며, EU 디지털 유럽 프로그램에서 약 2 천만 유로가 발생합니다. 실제 예산은 접선 및 관련 작업에 할당 된 자금을 고려할 때 더 많은 비용이 더 높으며, 최고 비용을 계산할 가능성이 높습니다. OpenUurollm 파트너에는 스페인, 이탈리아, 핀란드 및 네덜란드의 EuroHPC 슈퍼 컴퓨터가 포함되며 더 넓은 EuroHPC 프로젝트의 예산은 약 70 억 유로입니다.
그러나 아카데미, 연구 및 기업을 포함하여 참여하는 순수한 수의 다른 당사자들은 자신의 목표를 달성 할 수 있는지 여부를 의문을 제기했다는 사실로 이어졌습니다. LLM Company Pleias의 공동 창립자 인 Anastasia Stasenko는 “20 개 이상의 조직의 합의”가 국내 개인 AI의 마모 초점을 가질 수 있는지 의문을 제기했습니다.
Stasenko는“AI에서 최근에 AI에서의 유럽의 성공은 Mistral AI 및 Lighton과 같은 소규모 집중 팀을 통해 자신이 구축하는 것을 실제로 소유하고있는 회사를 통해 빛납니다. “그들은 재정, 시장에서의 포지셔닝 또는 명성에 관계없이 선거에 대한 직접적인 책임을 전달합니다.”
긁힘까지
OpenUurollm 또는 처음부터 시작하거나 시작 또는 시청 방식에 따라 시작됩니다.
2022 년 이래 Hajic은 고성능 컴퓨팅 (HPC)을 사용하여 무료 데이터 세트, 모델 및 작업 흐름을 개발하기위한 고성능 언어 기술 (HPLT)의 프로젝트를 조정했습니다. 이 프로젝트는 2025 년 말에 완료되어야하지만 Hajic에 따르면 HPLT (영국의 파트너 제외)의 대부분의 파트너가 여기에 참여한다는 점을 감안할 때, 그것은 일종의 “전임자”Openeurollm으로 볼 수 있습니다.
“이것 [OpenEuroLLM] 그것은 더 넓은 참여 일 뿐이지 만 생성 LLM에 더 중점을 두었습니다. “Hajic은 데이터, 전문 지식, 도구 및 계산 경험 측면에서 시작하지 않습니다. 신속하게 가속 할 수 있습니다. “
Hajic은 2026 년 중반까지 첫 번째 버전이 출판 될 것으로 예상했으며, 최종 반복은 프로젝트 2028의 결론에 도달했다. 그러나 이러한 목표는 베어 본의 Github 프로파일에서 쓰러지지 않는다고 생각할 때 여전히 고양되는 것처럼 보일 수 있습니다.
“이와 관련하여 우리는 처음부터 시작합니다 – 프로젝트는 토요일에 시작되었습니다. [February 1]”, Hajic은 1 년 동안 프로젝트를 준비하고 있습니다 [the tender process opened in February 2024]. “
아카데미 및 연구에서 체코, 네덜란드, 독일, 스웨덴, 핀란드 및 노르웨이를 포함한 조직은 EuroHPC 센터를 제외하고 Kohort Openuurollm의 일부입니다. 기업 세계에서 AMD가 소유 한 핀란드 AI의 AI 실험실은 Aleph Alpha (독일), Eulmind (독일), Prommpsit (스페인) 및 Lighton (프랑스)의 공학 언어와 마찬가지로 탑승했습니다.
목록에서 주목할만한 실패 중 하나는 프랑스 AI 유니콘 미스트랄의 실패로, Openi와 같은 채무자에게 오픈 코드의 대안으로 자신을 배치했습니다. Mistral의 어느 누구도 TechCrunch에 의견을 말하지 않았지만 Hajic은 자신이 스타트 업과 대화를 시작하려고했지만 아무 소용이 없음을 확인했습니다.
“나는 그들에게 다가 가려고 노력했지만 그들의 참여에 대한 집중된 토론은 생성되지 않았다”고 Hajic은 말했다.
이 프로젝트는 EU 조직으로 제한되지만 자금을 제공하는 EU 프로그램의 일환으로 새로운 참가자를 계속 키울 수 있습니다. 이는 영국과 스위스의 단체가 참여할 수 없다는 것을 의미합니다. 이것은 영국이 HPLT 자금 조달을 보장 한 긴 오랫동안 Brexit Stalemate를 이후 2023 년에 합류 한 Horizon Research Program과 달리 날고 있습니다.
짓다
그의 라인에 따르면이 프로젝트의 가장 좋은 목표는 “유럽의 투명한 AI를위한 일련의 기초”를 만드는 것입니다. 또한이 모델은 현재와 미래의 모든 EU 언어의 “언어 적, 문화적 다양성”을 보존해야합니다.
이것이 결과 측면에서 의미하는 바는 여전히 다림질이지만 이는 정확도가 가장 중요한 범용 작업을 위해 설계된 핵심 다국어 LLM을 의미 할 수 있습니다. 그리고 효율성과 속도가 더 중요한 Edge Applications의 경우 “정량화 된”버전이 적습니다.
하지는“이것은 우리가 여전히 상세한 계획에 대해해야 할 일이다. “우리는 가능한 한 작지만 가능한 한 좋은 것을 원합니다. 우리는 반으로 구운 것을 버리고 싶지 않습니다. 유럽의 관점에서 볼 때 이것은 높은 역할이며 많은 돈이옵니다. 유럽위원회 자바 돈. “
목표는 모든 언어에서 모델을보다 능숙하게 만드는 것이지만, 이사회 전체에서 평등을 달성하는 것도 어려울 수 있습니다.
Hajic은 “이것이 목표이지만, Dighn Digital Resources가 부족한 언어로 우리가 얼마나 성공할 수 있는지에 대한 질문은”문제는 “문제는”문제는 ” “그러나 이것이 우리 가이 언어들에 대한 진정한 벤치 마크를 갖고 싶어하는 이유이며, 그 뒤에있는 언어와 문화를 대표하지 않을 수있는 표준을 향해 달려 가지 않습니다.”
데이터의 경우, HPLT 프로젝트의 많은 작품이 4 개월 전에 게시 된 데이터 세트의 버전 2.0과 함께 비옥 한 것으로 판명 될 것입니다. 이 데이터 세트는 4.5 페타 바이트의 웹 크리프와 200 억 개 이상의 문서로 교육을 받았으며 Hajic은 Common Crawl에서 믹스에 추가 정보를 추가 할 것이라고 말했다 (웹 사이트와 함께 오픈 데이터 스토리지).
오픈 코드의 정의
전통적인 소프트웨어에서 오픈 코드와 소유권 사이의 다년생 투쟁은 “오픈 코드”의 “진정한”의미를 중심으로 진행됩니다. 이는 오픈 코드 이니셔티브에 따라 공식적인 “정의”의 지연으로 인해 해결 될 수 있으며, 이들이 무엇인지에 대한 산업 관리자에 따라 합법적 인 오픈 코드 라이센스가 아닙니다.
보다 최근에, 축은 모든 사람이 결과에 만족하지는 않지만 “AI의 오픈 코드”의 정의를 형성했습니다. Open -Coded Proponents AI는 모델을 자유롭게 사용할 수있을뿐만 아니라 데이터 세트, 이전 모델, 가중치 – 전체 Shebang도 주장합니다. 축의 정의는 AI 모델이 재분배의 한계가있는 소유권 데이터 또는 데이터에 대해 종종 훈련을 받는다는 말로 훈련 정보를 의무화하지 않습니다.
OpenUurollm이 같은 포장 마차에 직면하고 있다고 말하면 충분하며, “진정으로 개방적이라는 의도에도 불구하고”그는 “품질”의무를 이행하려면 약간의 타협을해야 할 것입니다.
“목표는 모든 것을 열어 두는 것입니다. 물론, 특정 제한 사항이 있습니다.”라고 Hajic은 말했습니다. “우리는 가능한 최고 품질의 모델을 갖기를 원하며 저작권에 대한 유럽 지침을 기반으로 할 수있는 모든 것을 사용할 수 있습니다. 일부는 재분배 할 수 없지만 일부는 향후 검사를 위해 저장 될 수 있습니다. “
이는 Openeurollm 프로젝트가 표지 아래에 일부 교육 정보를 유지할 수 있지만 요청에 따라 감사인이 이용할 수 있음을 의미합니다.
“희망적으로 대부분의 데이터는입니다 [will be open]특히 일반적인 크롤링에서 나오는 정보는 “Hajic은 말했다.” 어쨌든 AI 규정을 준수해야합니다. “
하나는 둘입니다
OpenUuroll의 공식적인 탐지 후에 나타난 또 다른 비판은 유럽에서 단 몇 개월 동안 매우 유사한 프로젝트가 시작되었다는 것입니다. 9 월에 첫 번째 모델을 시작하고 12 월에 모니터링 한 Eurollm은 9 개의 파트너 컨소시엄과 함께 EU에 자금을 지원했습니다. 여기에는 에든버러 대학교와 같은 학술 기관과 Unbobel과 같은 기업이 포함되어 있으며 작년에 EU 슈퍼 컴퓨터에서 수백만 시간의 GPU 교육을 받았습니다.
Eurollm은 “24 개의 공식 유럽 언어 및 기타 전략적으로 중요한 언어를 지원하는 오픈 코드의 유럽 모델을 구축하기 위해 유사한 목표와 유사한 목표를 공유합니다.
Unbobel의 연구 책임자 인 Andre Martins는 OpenUurollm이 이미 존재하는 이름으로 적절하다는 점을 지적하면서 이러한 유사점을 강조하기 위해 소셜 미디어로 달려갔습니다. Martins는 “다른 커뮤니티가 공개적으로 작동하고, 전문 지식을 공유하며, 새로운 프로젝트가 자금을 조달 할 때마다 휠을 발명하기로 결정하지 않기를 바랍니다.”라고 Martins는 말했습니다.
Hajic은 상황을 “불행”이라고 불렀으며, 그의 Openeurollm 금융 소스의 출처로 인해 그는 영국을 포함한 영국을 포함한 EU 단체와의 협력 측면에서 제한적이라고 강조했지만, 그는 협력 할 수 있기를 바라고 덧붙였다. 영국 영국 대학을 포함한 영국.
자금 조달의 격차
중국의 도착과 그가 약속 한 비용과 성과의 비용은 AI 이니셔티브에 대한 인센티브가 처음에 생각했던 것보다 훨씬 적은 일을 할 수 있도록 약간의 인센티브를 주었다. 그러나 지난 몇 주 동안 많은 사람들이 Deepseek 건설과 관련된 올바른 비용에 의문을 제기했습니다.
TechCrunch는 OpenUurollm 프로젝트의 기술 팀인 인 Peter Sarlin은“Deepseek의 경우 실제로는 정확히 무엇이 들어갔는지 거의 알지 못한다”고 말했다.
그럼에도 불구하고 Sarlin은 Openeurollm이 주로 사람들을 덮는 것이기 때문에 충분한 수단에 접근 할 것이라고 믿는다. 실제로, AI 시스템 건설 비용의 상당 부분이 계산되며 이는 일반적으로 EuroHPC 센터와의 파트너십을 통해 적용되어야합니다.
Sarlin은 “OpenUurollm은 실제로 예산이 다소 상당한 예산을 가지고 있다고 말할 수있다”고 말했다. “EuroHPC는 AI에 수십억 달러를 투자하고 인프라를 계산했으며 향후 몇 년 동안 수십억 달러를 더 많이 투입했습니다.”
또한 Openeurollm 프로젝트가 소비자 또는 비즈니스 제품에 따라 구축되지 않는다는 점도 주목할 가치가 있습니다. 그것은 모델에서 순수하기 때문에 Sarlin은 예산이 충분하다고 생각하는 이유입니다.
Sarlin은 “여기에 챗봇이나 AI 도우미를 구축하려는 의도가 아닙니다. Chatgpt가 잘 수행 한 많은 노력이 필요한 제품에 대한 이니셔티브가 될 것입니다.”라고 Sarlin은 말했습니다. “우리가 기여하는 것은 유럽의 회사가 구축 될 AI 인프라로 기능하는 오픈 코드 모델입니다. 우리는 모델을 구축하는 데 필요한 것이 무엇인지 알고 있습니다. 그것은 당신에게 수십억을위한 것이 아닙니다. “
2017 년부터 Sarlin은 Silo AI의 AI 실험실을 이끌었습니다. Silo AI는 HPLT 프로젝트를 포함한 다른 사람들과 파트너십을 맺고 가족 및 Viking Open Models를 포함하여 시작했습니다. 그들은 이미 소수의 유럽 언어를 지원하고 있지만 회사는 이제 모든 유럽 언어를 다루는 다음 “유럽”반복 모델을 준비하고 있습니다.
그리고 이것은 Hajich가 옹호하는 전체 현상 “처음부터 시작하지 않는다”와 관련이 있지만 전문 지식과 기술의 기초가 있습니다.
주권 상태
비평가들이 알 수 있듯이 Openurollm은 많은 움직이는 부분을 가지고 있습니다. Hajich는 긍정적 인 전망을 가지고 있지만 인정합니다.
“나는 많은 협업 프로젝트에 참여했으며 한 회사에 비해 장점이 있다고 생각한다”고 그는 말했다. “물론 그들은 Mistral의 Openi 사진에서 큰 일을했지만, 회사의 학업 전문 지식과 회사의 초점이 새로운 것을 가져올 수 있기를 바랍니다.”
그리고 여러면에서 AI 스타트 업의 큰 기술 또는 10 억 달러를 능가하려는 시도는 아닙니다. 궁극적 인 목표는 디지털 주권입니다. (대부분) 유럽을 위해 구축 한 LLM의 Open -LM.
Hajic은 “이것이 사실이 아니기를 희망하지만, 결국 우리가 가장 큰 모델이 아니고”좋은 “모델을 가지고 있다면 유럽에 기반을 둔 모든 구성 요소를 가진 모델이 여전히있을 것”이라고 Hajic은 말했다. “이것은 긍정적 인 결과가 될 것입니다.”