최신정보

2024년 3월 13일 AI 뉴스

컨텐츠 정보

  • 441 조회

본문

AI 뉴스 

  SXSW Peter Deng openai vp  

 

OpenAI 부사장, 예술가 훈련 데이터 보상에 대해 언급 회피

 

  • 데이터 보상 논란: OpenAI의 Peter Deng 부사장은 예술가들의 작품이 ChatGPT와 같은 생성 AI 훈련에 사용될 때 보상 받아야 하는지에 대한 명확한 입장을 밝히지 않음.

 

  • 저작권 이슈: DALL-E 3과 같은 시스템은 대규모의 예술 작품을 훈련 데이터로 사용하며, OpenAI는 이러한 실습이 '공정 사용' 법리에 의해 보호된다고 주장함.

 

  • 법적 도전과 예술가 권리: 예술가들이 자신들의 스타일을 복제하여 허가 없이 새로운 작품을 생성하는 도구에 대해 소송을 제기했으며, Deng은 예술가들이 생성 AI 도구의 창작과 사용에서 더 많은 권리를 가져야 한다고 언급함.

 

  •  

    Reuters Google logo at California office  

 

구글 전 엔지니어, AI 비밀 도용 혐의로 기소

 

  • AI 기술 유출: 구글 전 소프트웨어 엔지니어가 중국 기업을 위해 일하며 인공지능(AI) 관련 무역 비밀을 도용한 혐의로 미국에서 기소됨.

 

  • 중국 활동: 이 엔지니어는 중국의 스타트업과 자신이 설립한 기술 회사에서 일하면서 구글의 슈퍼컴퓨팅 데이터 센터의 인프라에 관한 정보를 빼돌림.

 

  • 국가 안보 위협: 미국 법무부와 FBI는 AI 기술과 같은 고급 기술의 도난이 국가 안보에 위험을 초래할 수 있다고 경고하며 이에 대한 용납을 거부함.

 

  •  

    Introducing Devin, the first AI software engineer - YouTube  

 

세계 최초의 AI 소프트웨어 엔지니어, 데빈 출시

 

  • 능력 개발: 데빈은 복잡한 엔지니어링 작업을 계획하고 실행할 수 있으며, 개발 도구를 사용하여 협업하면서 실시간으로 진행 상황을 보고함.

 

  • 능력 활용: 데빈은 미지의 기술을 학습하고, 애플리케이션을 처음부터 끝까지 구축 및 배포할 수 있으며, 코드베이스에서 독립적으로 버그를 찾고 수정함.

 

  • 성과 및 지원: 데빈은 SWE-bench 벤치마크에서 이전 모델을 크게 능가하는 성능을 보여주었으며, Cognition이라는 AI 연구소에 의해 개발되었음.


이번주 AI 논문 

   

 

GaLore: 효율적인 대규모 언어 모델 훈련 기법 소개

 

  • 메모리 절약 훈련 방법: 대규모 언어 모델을 훈련할 때는 많은 메모리가 필요한데, GaLore 기법은 이 문제를 해결하기 위해 메모리 사용량을 크게 줄여주는 새로운 방식을 제안함.

 

  • 성능 유지: GaLore 방식은 기존의 훈련 방법보다 메모리를 덜 사용하면서도, 모델의 학습 능력과 성능을 유지.

 

  • 소비자 GPU에서의 훈련 가능: 이 기법을 사용하면 일반 소비자가 사용하는 GPU(예: NVIDIA RTX 4090)만으로도 7B 크기의 대규모 모델을 훈련할 수 있다는 것을 처음으로 보여줌.

 

   

 

Design2Code: 웹 개발 자동화에 얼마나 가까워졌나?

 

  • 웹페이지 디자인을 코드로 바꾸기: 웹사이트 디자인(보이는 모습)을 직접 코드로 변환하는 능력을 갖추고 있어, 이제는 그림과 같은 디자인을 바로 웹사이트 코드로 만들 수 있음.

 

  • 성능 비교: 연구팀은 실제 웹사이트 484개를 이용해 AI가 얼마나 잘 코드를 만들어내는지 평가하며, GPT-4V와 같은 AI 모델은 인간 평가와 자동 평가 모두에서 가장 좋은 성능을 보임.

 

  • 개선 가능성: AI가 만든 웹페이지는 원본과 비교해 보았을 때 49% 에서는 거의 비슷하거나 더 나은 경우도 있었으며, 레이아웃 디자인이나 시각적 요소에서는 아직 개선이 필요하지만, 텍스트 내용이나 색상은 적절한 학습을 통해 크게 개선될 수 있음.

 

   

 

ShortGPT: 대형 언어 모델의 레이어는 생각보다 더 중복됩니다

 

  • 레이어 중복성: 대형 언어 모델(LLMs)의 많은 레이어가 높은 유사성을 보이며, 일부 레이어는 네트워크 기능에서 미미한 역할을 한다는 사실을 발견.

 

  • BI 메트릭 도입: 각 레이어의 중요성을 평가하기 위해 Block Influence (BI)라는 메트릭을 정의하고, BI 점수에 기반해 중복 레이어를 직접 삭제하는 간단한 가지치기 접근법을 제안.

 

  • ShortGPT의 효율성: 제안된 방법론인 ShortGPT는 기존의 최고 성능 모델을 상당히 뛰어넘으며, 더 복잡한 가지치기 기법 대신 단순 레이어 제거를 통해 더 좋은 결과를 달성함을 시사.

 


 

이번주 AI 프로덕트 

  image  

 

FaceChain-SuDe: 한 번의 샘플로 특징을 상속하는 파생 클래스 구축

 

  • 분류 상속 개선: FaceChain-SuDe는 객체지향 프로그래밍에서 영감을 받아 주제를 의미적 범주의 기반 클래스로 모델링하여 범주의 공개 속성을 상속하도록 함.

 

  • SuDe 방법론: 사용자가 제공한 예시로부터 주제의 사적 속성 (예: 미소, 눈의 색) 을 학습하는 동시에, 주제가 생성하는 이미지가 의미적으로 주제의 범주에 속하도록 제약하는 Subject-Derived regularization (SuDe) 방법을 제안.

 

  • 창의적 속성 생성: 다양한 주제에 대한 세 가지 기준과 두 가지 기본구조에서의 광범위한 실험을 통해 SuDe는 상상력이 풍부한 속성 관련 생성을 가능하게 하며 주제 충실도를 유지함을 보여줌.

   

LLM의 개념 지식 편집

 

  • 개념 편집 탐구: 대규모 언어 모델(LLM)의 지식 편집에 대한 관심이 증가하며, 개념 수준에서의 편집 능력이 아직 명확하지 않음.

 

  • ConceptEdit 벤치마크: 새로운 벤치마크 데이터셋 ConceptEdit를 구축하고 평가를 위한 새로운 메트릭을 설정하여 LLM에서 개념적 지식 편집을 탐구.

 

  • 편집 방법의 한계: 기존 편집 방법이 개념 수준 정의를 어느 정도 효율적으로 수정할 수 있지만, 관련 인스턴스 지식을 왜곡시킬 가능성이 있어 성능 저하를 초래할 수 있음.

 

출처 : betaai.substack

관련자료


댓글 0
등록된 댓글이 없습니다.
Total 96 / 3 Page
RSS
번호
제목
이름

Member Rank