중화사전망 - 구한말 사전 - AI 인공지능이 컴퓨팅의 전체 성격을 바꾸고 있습니다.
AI 인공지능이 컴퓨팅의 전체 성격을 바꾸고 있습니다.
머신러닝, 특히 딥러닝은 칩과 시스템의 설계 방식에 대한 재평가를 강요하고 있으며, 이는 앞으로 수십 년 동안 업계의 방향을 바꿀 것입니다.
칩부터 소프트웨어, 시스템에 이르기까지 컴퓨팅 분야는 머신러닝의 인기로 인해 향후 몇 년 동안 극적인 변화를 겪게 될 것입니다. 우리는 80년 이상 동안 이 컴퓨터를 "보편적 튜링 기계"라고 부를 수도 있습니다. 그러나 실제로는 지금까지 구축 및 사용된 방식과 다를 것입니다.
컴퓨터 작업에 관심이 있는 사람과 모든 형태의 기계 학습에 관심이 있는 사람이라면 누구나 흥미로울 것입니다.
올해 2월, 페이스북의 인공지능 연구 책임자인 얀 르쿤(Yann LeCun)은 세계에서 가장 오랫동안 지속된 컴퓨터 칩 컨퍼런스 중 하나인 샌프란시스코에서 열린 국제 고체 회로 컨퍼런스(International Solid-State Circuits Conference)에서 연설을 했습니다. . ISSCC에서 LeCun은 인공지능 연구에 있어 컴퓨터 기술의 중요성을 분명히 했습니다. LeCun은 "하드웨어 기능과 소프트웨어 도구는 AI 연구자들이 상상하고 추구할 수 있는 아이디어 유형에 영감을 주기도 하고 제한하기도 합니다."라고 LeCun은 말했습니다. "우리가 사용할 수 있는 도구는 우리가 인정하는 것보다 더 많은 아이디어에 영향을 미칩니다."
무슨 일이 일어나고 있는지 확인하는 것은 어렵지 않습니다. 2006년부터 딥러닝이 등장한 이유는 대량의 데이터와 '드롭아웃(dropout)'과 같은 머신러닝의 새로운 기술뿐만 아니라 점점 더 강력해지는 컴퓨팅 파워 때문이었습니다. 특히, Nvidia의 그래픽 처리 장치(GPU) 사용이 증가하면서 계산 병렬화가 더욱 활발해졌습니다. 이를 통해 이전보다 더 큰 네트워크를 훈련하는 것이 가능해졌습니다. 1980년대에 제안된 인공 네트워크의 노드들이 동시에 훈련되는 '병렬 분산 처리'의 전제가 마침내 현실이 되었습니다.
일부에서는 이제 기계 학습이 전 세계 컴퓨팅 활동의 상당 부분을 차지할 것으로 예상하고 있습니다. 지난 2월 ISSCC에서 LeCun은 컴퓨팅 방향의 변화에 대해 ZDNet과 대화했습니다. "5년, 다음 10년이 지나서 컴퓨터가 무엇을 하는 데 시간을 소비하는지 알면 대부분 계산량 측면에서 딥러닝과 같은 일을 할 것이라고 생각합니다. "라고 르쿤은 말했다. 그는 또한 딥 러닝이 수익을 통해 컴퓨터 판매의 대부분을 차지하지는 못할 수도 있지만 "우리가 초당 밀리와트를 소비하는 방식이나 운영 측면에서 신경망에 소비하게 될 것"이라고 언급했습니다.
딥 러닝이 기하급수적으로 성장하고 있다
딥 러닝이 컴퓨팅의 중심이 되면서 오늘날의 컴퓨터가 할 수 있는 일, 예측을 하는 신경망의 '추론 작업'의 한계를 어느 정도 확장하고 있지만, 이는 특히 계산 집약적인 기능인 신경망 훈련에 해당됩니다.
참고: OpenAI에 따르면 딥 러닝 네트워크의 계산 요구 사항은 3.5개월마다 두 배로 증가합니다. OpenAI의 GPT-2와 같이 병렬로 훈련하려면 10억 개가 넘는 매개변수 또는 네트워크 가중치가 필요합니다. Facebook의 인기 있는 기계 학습 훈련 라이브러리인 PyTorch의 제품 관리자는 지난 5월 ZDNet에 다음과 같이 말했습니다. 더 크면 정말 크고 훈련하는데 비용이 많이 듭니다. ” 오늘날의 가장 큰 모델은 GPU와 함께 제공되는 메모리 회로에 완전히 저장되지 않는 경우가 많습니다.
또한 Google은 인공 지능의 "기하급수적인" 성장이 컴퓨팅의 본질을 변화시키고 있다고 말합니다.
컴퓨팅 주기 수요가 점점 더 빨라지고 있습니다. OpenAI가 제공한 데이터에 따르면 2012년에 만들어진 유서 깊은 AlexNet 이미지 인식 시스템은 총 훈련 시간 중 초당 1,000만 개의 부동 소수점 연산에 해당하는 시간을 소비했습니다. 하지만 2016년 구글의 딥마인드(DeepMind)가 구축한 신경망인 알파제로(AlphaZero)는 세계 체스챔피언을 꺾고 초당 천일 이상의 페타플롭을 소비했다. 알렉스넷과 알파제로의 컴퓨팅 주기가 늘어나 3.5개월마다 컴퓨팅 소비가 2배씩 늘었다. 이는 2016년 현재까지 수집된 데이터이며 컴퓨터 칩 위기의 속도는 의심할 여지 없이 증가할 것입니다.
세계는 심지어 페타플롭을 착용하지도 않고 있으며 엔비디아의 테슬라처럼 딥 러닝 훈련에 사용되는 최고의 칩도 있습니다. V100은 112페타플롭스로 실행됩니다.
따라서 1,000일 중 8일을 실행해야 합니다. 그렇지 않으면 많은 사람들을 점점 더 많은 에너지를 소비하는 시스템에 집중하게 될 것입니다.
설상가상으로 최근 몇 년간 칩 개선 속도가 바닥을 치고 있습니다. UC Berkeley 교수 David Patterson과 British Airways 회장 John Hennessy가 올해 초 기사에서 언급한 것처럼 무어의 법칙에 따르면 칩 성능은 12~18개월마다 두 배로 증가합니다. 경험적으로 보면 연료가 고갈된다는 것입니다. 인텔은 오랫동안 이를 부인했지만 데이터는 패터슨과 헤네시 측에 있습니다. 보고서에서 언급했듯이 칩 성능은 현재 연간 3%씩만 증가하고 있습니다.
두 저자 모두 이는 성능 이점을 제공하지 않는 트랜지스터에서 더 높은 성능을 얻으려면 칩 설계와 아키텍처가 근본적으로 변경되어야 한다는 데 동의합니다. (패터슨은 Google이 '텐서 처리 장치' 칩을 만드는 데 도움을 주었기 때문에 하드웨어가 기계 학습에 어떤 영향을 미치는지, 그 반대의 경우도 잘 이해하고 있습니다.)
프로세서의 개선이 정체되었지만 기계 학습 수요가 두 배로 증가할 때 몇 달에 한 번씩 대가를 치러야 합니다. 다행스럽게도 올바른 관점에서 보면 머신러닝 자체가 칩 설계에 도움이 될 수 있습니다. 기계 학습에는 레거시 코드 지원이 거의 필요하지 않기 때문에(Excel, Word 또는 Oracle DB를 실행할 필요가 없음) 칩 설계자에게 기계 학습은 가장 기본적인 작업의 반복성이 높기 때문에 새로운 기회입니다. 계산.
새로운 기계 구축
컨벌루션 신경망과 장기 단기 기억 네트워크는 Google의 Transformers와 같은 훨씬 더 현대적인 기계의 두 가지 주요 기둥인 딥 러닝의 핵심입니다. 네트워크에서 대부분의 계산은 텐서 수학이라고 하는 선형 대수 계산입니다. 가장 일반적으로 일부 입력 데이터를 벡터로 변환한 다음 해당 벡터에 신경망 가중치 행렬의 열을 곱하고 이러한 모든 곱셈의 곱을 더합니다. 곱셈-덧셈으로 알려진 이러한 계산은 "곱셈-누산" 회로, 즉 "MAC"를 사용하여 컴퓨터에서 표현됩니다. 따라서 단순히 MAC를 개선하고 칩에 더 많은 MAC을 생성하여 병렬화를 늘리면 기계 학습이 즉시 향상됩니다.
AI 훈련을 지배하는 Nvidia와 기계 학습 추론을 지배하는 CPU를 보유한 Intel은 둘 다 이러한 원자 선형 대수 함수를 활용하도록 자사 제품을 조정하려고 노력하고 있습니다. Nvidia는 Tesla GPU에 "Tensor Cores"를 추가하여 행렬 곱셈을 최적화합니다. Intel은 Mobileye, Movidius 및 Nervana Systems를 포함하여 기계 학습 분야의 회사를 인수하는 데 300억 달러를 지출했으며, 그 중 마지막은 지연되기는 하지만 어느 시점에서는 "Nervana 신경망 프로세서"로 이어질 것입니다.
지금까지 Facebook의 LeCun과 같은 이러한 이니셔티브는 머신러닝의 요구 사항을 충족하지 못했습니다. 지난 2월 ZDNet과의 대화에서 LeCun은 "지금 우리에게 필요한 것은 지배적인 공급업체인 Nvidia의 경쟁자"라고 주장했습니다. 그는 또한 Nvidia가 좋은 칩을 만들지 않았기 때문이 아니라고 지적했습니다. 이는 "그들은 가정을 했고, 현재 GPU가 잘하는 보완적인 작업을 수행하는 데 사용할 수 있는 다른 하드웨어 세트를 갖는 것이 좋을 것이기 때문입니다.
또한: AI 보고가 왜 그렇게 나쁜가요?
그는 신경망 훈련이 "깔끔한 배열"의 문제가 될 것이라는 가정이 잘못된 가정 중 하나라고 말했습니다. 대신 미래의 네트워크는 대규모 네트워크 그래프를 사용할 것입니다. 계산 그래프의 요소는 포인터로 프로세서에 스트리밍됩니다. LeCun은 칩이 많은 곱셈 덧셈을 수행해야 하지만 이러한 곱셈 덧셈이 프로세서에 표시되는 방식에 대한 기대는 TPU 칩과 다릅니다. 기여자 중 한 명이었던 구글 소프트웨어 엔지니어 클리프 영(Cliff Young)은 지난해 10월 실리콘밸리에서 열린 칩 행사에서 기조연설을 했을 때 “우리는 오랫동안 인텔과 엔비디아가 서로를 거부했다”고 말했다. 고성능 시스템 구축에 매우 능숙하다", "우리는 5년 전에 이 한계점을 넘어섰다."
스타트업의 부흥
이 허점에서 인공지능에서 새로운 칩이 나온다. Google과 같은 거대 기업과 수많은 벤처 캐피털 지원 스타트업이 있습니다.
현재 세 번째 버전인 Google의 TPU 외에도 Microsoft는 고객이 Azure 클라우드 서비스를 통해 임대할 수 있는 Project Brainwave라는 프로그래밍 가능 프로세서인 "FPGA"도 보유하고 있습니다. 아마존은 올해 말 '인페렌시아(Inferentia)'라는 자체 맞춤형 칩을 출시할 것이라고 밝혔다. LeCun은 지난 2월 ZDNet과의 인터뷰에서 Facebook이 영향력을 갖고 있다고 언급했습니다.
구글이나 페이스북처럼 제품이 많은 기업의 경우 자체 엔진으로 작업하는 것이 합리적이고 이 분야에 내부 활동이 있다고 지적했다.
스타트업에는 런던에서 남서쪽으로 1시간 30분 거리에 있는 항구 도시 브리스톨에 본사를 둔 5년 된 스타트업인 Graphcore, Cornami, Effinix 및 Flex Logix가 포함되며, 모두 ZDNet 및 Silicon Valley의 Los Altos에서 설명합니다. - 기반 S 시스템은 스텔스 모드로 유지됩니다.
이들 스타트업의 공통점 중 하나는 각 클록 주기 변경에서 최대한의 병렬성을 짜내기 위해 MAC 장치라고 알려진 행렬 곱셈에 사용되는 컴퓨터 칩 영역의 양을 크게 늘린다는 것입니다. . 그래프코어는 모든 스타트업 중에서 가장 멀리 떨어져 있으며 실제로 고객에게 생산 칩을 최초로 배송하는 기업입니다. 첫 번째 칩에서 가장 눈에 띄는 점 중 하나는 엄청난 양의 메모리였습니다. 콜로서스(Colossus)는 세계 최초의 디지털 컴퓨터를 기리기 위해 칩으로 불리며 크기가 806제곱밀리미터에 달합니다. 최고 기술 책임자인 Simon Knowles는 이 칩을 "지금까지 만들어진 프로세서 칩 중 가장 복잡한 칩"이라고 부릅니다.
Colossus는 "지능형 처리 장치"라고 불리는 1,024개의 독립적인 코어로 구성되며, 각 코어는 독립적으로 행렬 수학을 처리할 수 있습니다. 우리 모두 알고 있듯이 각 IPU에는 256KB의 고속 SRAM 메모리인 자체 전용 메모리가 있습니다. 총 메모리는 304MB로 칩에서 가장 일반적으로 사용되는 메모리입니다.
칩에 너무 많은 메모리가 있으면 구축할 수 있는 신경망의 종류가 어떻게 바뀔지 아무도 모릅니다. 아마도 매우 낮은 액세스 속도에서 점점 더 많은 메모리에 액세스함으로써 더 많은 신경망이 새롭고 흥미로운 방식으로 메모리에 저장된 값을 재사용하는 데 집중할 것입니다.
소프트웨어 난제
이 모든 칩 노력과 마찬가지로 문제는 물론 Nvidia의 "CUDA" 프로그래밍 기술로 인해 Nvidia가 수년간 구축한 소프트웨어가 없다는 것입니다. . Graphcore와 다른 사람들의 대답은 두 가지입니다. 하나는 TensorFlow 및 Pytorch와 같은 다양한 기계 학습용 프로그래밍 프레임워크가 칩 자체의 세부 사항을 피하고 프로그램 구조에 집중할 수 있는 방법을 제공한다는 것입니다. 시장에 출시되는 모든 칩은 이러한 프레임워크를 지원하며, 제작자는 이를 Nvidia와 경쟁할 수 있다고 생각합니다.
두 번째 포인트는 그래프코어 등이 자체 프로그래밍 기술을 구축하고 있다는 점이다. 그들은 자사의 독점 소프트웨어가 프레임워크를 변환하고 병렬 계산을 칩의 수많은 MAC 장치 및 벡터 장치에 지능적으로 배포할 수 있음을 입증할 수 있었습니다. 이것이 Graphcore가 자사의 "Poplar" 소프트웨어에 대해 주장하는 주장입니다. Poplar는 신경망의 계산 그래프를 "코드렛"으로 나누고 각 코드렛을 Colossus의 다른 코어에 할당하여 병렬 처리를 최적화합니다.
지난 20년 동안 빅데이터와 빠른 병렬 컴퓨팅이 표준이 되어 머신러닝을 주도하고 딥러닝을 가져왔습니다. 컴퓨터 하드웨어 및 소프트웨어의 차세대 물결은 고도의 병렬 칩 아키텍처를 활용하기 위해 동적으로 구축된 대규모 메모리 및 신경망에 관한 것일 수 있습니다. 미래는 흥미로울 것 같습니다.
이 기사는 다음에서 번역되었습니다: AI는 컴퓨팅의 전체 본질을 변화시키고 있습니다(머신러닝, 특히 딥 러닝은 업계의 방향을 바꿀 칩과 시스템 설계 방식에 대한 재평가를 강요하고 있습니다). 앞으로 수십 년 동안.)