엘론 머스크 xAI 오픈소스 전문가 혼합 모델 Grok-1 출시
컨텐츠 정보
- 587 조회
본문
대규모 언어 모델인 Grok-1 의 기본 모델 가중치와 네트워크 아키텍처를 출시합니다 . Grok-1은 xAI를 통해 처음부터 훈련된 3,140억 개의 매개변수 Mixture-of-Experts 모델입니다.
이는 2023년 10월에 종료된 Grok-1 사전 훈련 단계의 원시 기본 모델 체크포인트입니다. 이는 모델이 대화와 같은 특정 애플리케이션에 맞게 미세 조정되지 않았음을 의미합니다.
우리는 Apache 2.0 라이센스에 따라 가중치와 아키텍처를 공개합니다.
모델 사용을 시작하려면 github.com/xai-org/grok 의 지침을 따르세요 .
모델 세부정보
특정 작업에 맞게 미세 조정되지 않은 대량의 텍스트 데이터에 대해 학습된 기본 모델입니다.
314B 매개변수 Mixture-of-Experts 모델은 특정 토큰에 대해 25%의 가중치가 활성화되어 있습니다.
2023년 10월 JAX 및 Rust 기반의 커스텀 학습 스택을 사용하여 xAI로 처음부터 학습했습니다.
Grok-1 출시요약
-엘론 머스크의 xAI는 지금까지 가장 큰 오픈 소스 전문가 혼합 모델인 Grok-1을 출시함
-Grok-1은 3140억 개의 매개변수를 가지고 있으며 아파치 2.0 라이선스에 따라서 아키텍처 및 가중치 공개
-8개의 전문가 네트워크 중 2개(25%)가 각 입력 토큰에 대해 활성화
-Mistral의 Mixtral과 GPT-4도 이 아키텍처를 바탕으로 함
-Grok-1은 2023년 10월에 완료된 사전 훈련 단계의 기본 모델이며, 아직 특정 애플리케이션에 최적화되지 않음
-인간 피드백(RLHF)을 통한 조정이 없기 때문에 타 모델에 비해 안전성이 떨어질 수 있음
-xAI는 훈련 데이터에 대해 구체적으로 언급하지 않았으며 윤리적 또는 안전 지침도 제공하지 않음
-xAI는 JAX와 Rust 기반 기술 스택을 사용하여 모델을 처음부터 훈련
-GitHub에는 Grok-1에 대한 추가 정보 및 설치 가이드가 제공됨
-Grok-1은 학습 데이터가 2023년 3분기에 마감되었고, 모델의 컨텍스트 길이는 8,192 토큰임
-벤치마크에서 Grok-1은 GPT-3.5와 동등한 수준임
-Grok-1을 바탕으로 한 Grok 챗봇은 대부분의 AI 시스템에서 거부할 "화끈한 질문"에 답변
-엘론 머스크는 OpenAI에 대한 소송에서 비판한 것에 대한 반응으로 Grok을 오픈 소스로 공개할 계획임
-THE DECODER 뉴스레터와 커뮤니티는 AI 소식을 주간으로 제공하며 커뮤니티 참여를 독려함