중화사전망 - 사전 온라인 - 스탠포드 대학은 수동으로 데이터를 표시하는 대신 약한 감독의 프로그래밍 패러다임인 scupr 을 개발했다.
스탠포드 대학은 수동으로 데이터를 표시하는 대신 약한 감독의 프로그래밍 패러다임인 scupr 을 개발했다.
최근 몇 년 동안 기계 학습이 현실 세계에 미치는 영향이 갈수록 커지고 있다. 이는 심도 있는 학습 모델의 출현에 크게 도움이 되며, 이를 통해 실무자들은 어떠한 인공 특징 설계도 없이 기준 데이터 세트에서 가장 선진적인 점수를 얻을 수 있습니다. TensorFlow, PyTorch 등 다양한 오픈 소스 ML 프레임워크의 가용성과 수많은 최신 사용 가능한 모델을 고려하면 고품질의 ML 모델이 거의 상업적 자원이 되었다고 할 수 있습니다. 그러나 숨겨진 문제가 있습니다. 이러한 모델은 많은 수의 수동 태그 지정 교육 데이터에 의존합니다.
이러한 수동으로 표시된 교육 세트를 만드는 것은 비용이 많이 들고 시간이 많이 걸립니다. 일반적으로 수집, 정리 및 디버깅에 몇 달 또는 몇 년이 걸립니다. 특히 분야 전문 지식이 필요한 경우에는 더욱 그렇습니다. 게다가, 임무는 현실 세계에서 자주 변화하고 진화한다. 예를 들어 태그 가이드, 세분성 또는 다운스트림 사용 사례는 자주 변경되므로 태그를 다시 지정해야 합니다 (예: 댓글을 긍정 또는 부정적으로만 나누지 말고 중립 범주를 도입해야 함).
이러한 이유로 종사자들은 외부 지식 기반, 패턴/규칙 또는 기타 분류기를 사용하여 교육 데이터를 계발적으로 생성하는 등 약한 형태의 감독으로 점점 더 많이 전환하고 있습니다. 본질적으로 이들은 프로그래밍을 통해 훈련 데이터를 생성하는 방법이거나, 더 간결하게 프로그래밍 훈련 데이터입니다.
이 문서에서는 먼저 레이블 교육 데이터 중심 ML 의 일부 영역을 검토한 다음 다양한 모니터링 소스를 모델링하고 통합하는 방법에 대한 연구를 설명합니다. 또한 수십 개 또는 수백 개의 약한 감독의 동적 작업을 사용하여 복잡하고 다양한 방식으로 상호 작용하는 대규모 멀티 태스킹 메커니즘을 위한 데이터 관리 시스템을 구축하는 아이디어에 대해서도 논의했습니다.
검토: 더 많은 태그 지정된 교육 데이터를 얻으려면 어떻게 해야 합니까?
ML 의 많은 기존 연구 방법도 태그 교육 데이터에 대한 수요에 의해 구동됩니다. 먼저 이러한 방법을 약한 감독 방법과 구분합니다. 약한 감독은 SME (주제 전문가) 의 고급 및/또는 더 시끄러운 입력을 사용하는 것입니다.
현재 주류 접근법의 주요 문제 중 하나는 분야 전문가들이 대량의 데이터를 직접 표시하는 데 드는 비용이 매우 높다는 것입니다. 예를 들어, 의료 영상 연구가 큰 데이터 세트를 만드는 것이 더 어렵다는 것입니다. 대학원생과는 달리 방사선과 의사는 약간의 인자함도 없이 데이터를 표시하는 것을 원하지 않기 때문입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 과학명언) 그래서 ML 에서, 많은 심층 연구 작업 라인은 채점 교육 데이터의 병목 현상으로 인해 발생합니다.
사전 학습에서는 도메인 전문가가 모델에 가장 가치 있는 데이터 포인트를 표시하여 도메인 전문가를 보다 효율적으로 활용할 수 있도록 하는 것이 목표입니다. 표준 감독 학습 설정에서 이는 표시할 새 데이터 포인트를 선택하는 것을 의미합니다. 예를 들어, 현재 모델의 의사 결정 경계에 가까운 유방 X-레이를 선택하고 방사선과 의사에게 해당 사진만 표시하도록 요청할 수 있습니다. 그러나, 우리는 이러한 데이터 포인트에 대한 규제가 부적절하다고 요구할 수 밖에 없다. 이런 상황에서, 주동적인 학습과 약한 감독은 완전히 보완적이다. 이 방면의 예는 Druck, settle, McCallum 2009 에서 찾을 수 있다.
반 감독 학습 설정에서 Dell 의 목표는 작은 태그 지정 교육 세트와 큰 태그 없는 데이터 세트를 사용하는 것입니다. 그런 다음 부드러움, 저차원 구조 또는 거리 측정에 대한 가정을 사용하여 태그가 지정되지 않은 데이터 (빌드 모델의 일부, 모델을 구분하는 정규 항목 또는 컴팩트한 데이터 표현 학습) 를 활용합니다. 참고 도서 참조 (Chapelle, Scholkopf, Zien, 2009 년). 넓은 의미에서, 반 감독 학습의 사상은 SME 에서 더 많은 입력을 구하는 것이 아니라, 분야와 임무를 알 수 없는 가정 하에서 태그가 지정되지 않은 데이터를 이용하는데, 이 데이터는 일반적으로 저렴한 비용으로 대량으로 얻을 수 있다. 가장 최근의 방법은 길항 네트워크 생성 (Salimans 등 20 16), 휴리스틱 변환 모델 (Laine 및 Aila 20 16) 및 기타 생성 방법을 사용하여 의사 결정 경계를 효과적으로 표준화합니다.
일반적인 마이그레이션 학습 설정에서는 서로 다른 데이터 세트에서 훈련된 하나 이상의 모델을 데이터 세트와 작업에 적용하는 것이 목표입니다. 관련 요약 참조 (pan yang 20 10). 예를 들어, 우리는 이미 신체의 다른 부위에 있는 종양에 대한 대규모 훈련집을 가지고 있을 수 있으며, 이를 바탕으로 분류자를 훈련시킨 다음, 이를 유방 조영술 임무에 적용하고자 할 수 있습니다. 오늘날의 심화 학습 커뮤니티에서 일반적인 마이그레이션 학습 방법은 대규모 데이터 세트에서 모델을 "사전 교육" 한 다음 관심 있는 작업에 대해 "미세 조정" 하는 것입니다. 또 다른 관련 분야는 멀티태스킹 학습입니다. 즉, 여러 작업을 동시에 연구하는 것입니다 (Caruna1993; 오겐슈타인, 플라코스, 메나드 20 15).
위의 예는 우리가 분야 전문가 파트너로부터 추가 훈련 라벨을 찾는 것을 생략할 수 있다. 그러나 필연적으로 일부 데이터에 레이블을 지정해야 합니다. 만약 우리가 그들에게 더욱 선진적이거나 덜 정확한 감독 형식을 제공할 것을 요구한다면, 이러한 형태를 더 빠르고 쉽게 얻을 수 있다면 어떻게 될까? 예를 들어, 방사선과 의사가 오후 내내 계발적 자원이나 기타 자원을 표시할 수 있다면, 제대로 처리되면 수천 개의 교육 라벨을 효과적으로 대체할 수 있다면 어떻게 될까요?
분야 지식을 인공지능에 주입하다
역사적으로 인공지능' 프로그래밍' (즉, 분야 지식 주입) 을 시도하는 것은 새로운 생각이 아니지만, 지금 이 문제를 제기하는 주된 신기한 점은 AI 가 결코 그렇게 강력하지 않다는 점이다. 해석성과 통제성으로 볼 때, 그것은 여전히' 블랙박스' 이다.
1970 년대와 1980 년대에 AI 는 수동으로 계획한 사실과 도메인 전문가의 규칙에 대한 지식 기반을 결합하여 추론기와 함께 적용하는 전문가 시스템에 집중했습니다. 1990 년대에 ML 은 AI 시스템에 지식을 통합하는 도구로서 성공을 거두기 시작했고, 표시된 교육 데이터에서 강력하고 유연한 방식으로 이 작업을 자동화할 것을 약속했습니다.
클래식 (대표적이지 않은 학습) ML 방법에는 일반적으로 두 개의 분야 전문가 입력 포트가 있습니다. 첫째, 이러한 모델은 일반적으로 현대 모델보다 복잡하지 않습니다. 즉, 더 적은 수의 수동 태그 데이터를 사용할 수 있습니다. 둘째, 이러한 모델은 수동 설계의 특성에 의존하며 수동 설계는 모델의 기본 데이터 표현과 코딩, 수정 및 상호 작용하는 직접적인 방법을 제공합니다. 그러나 피쳐 엔지니어링은 항상 ML 전문가의 임무로 여겨져 왔으며, 일반적으로 박사 과정 전체를 특정 작업의 특징을 설계하는 데 소비하고 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 예술명언)
심도 있는 학습 모델로 들어가기: 여러 영역과 작업에 걸쳐 표현의 강력한 기능을 자동으로 학습하기 때문에 피쳐 엔지니어링의 작업을 크게 피할 수 있습니다. 하지만 대부분 완전한 블랙박스로 일반 개발자들은 대량의 훈련세트를 표기하고 네트워크 아키텍처를 조정하는 것 외에 통제력이 적다. 많은 의미에서, 그것들은 오래된 전문가 시스템이 취약하지만 통제하기 쉬운 규칙의 반대를 대표한다. 그것들은 유연하지만 통제하기 어렵다.
이것은 약간 다른 관점에서 우리를 원래의 질문으로 되돌려 놓았습니다. 우리는 어떻게 우리의 분야 지식이나 임무 전문 지식을 사용하여 현대의 심도 있는 학습 모델을 작성할 수 있습니까? 기존의 규칙 기반 전문가 시스템의 직접성과 이러한 현대 ML 방법의 유연성과 강력한 기능을 결합할 수 있는 방법이 있습니까?
감독 코드로서: 프로그래밍 교육을 통한 ML
스노클링은 이러한 새로운 상호 작용과 ML 을 지원하고 탐구하는 시스템입니다. 통풍구에서는 수동으로 표시된 교육 데이터를 사용하지 않고 사용자가 태그 지정 함수, LF), 즉 태그가 지정되지 않은 데이터 하위 세트를 표시하는 블랙 박스 코드 조각을 작성해야 합니다.
그런 다음 이러한 LF 세트를 사용하여 ML 모델의 교육 데이터를 표시할 수 있습니다. 레이블 함수는 임의의 코드 조각일 뿐이므로 패턴, 휴리스틱, 외부 데이터 소스, 일반 작업자의 시끄러운 레이블, 약한 분류기 등 모든 신호를 인코딩할 수 있습니다. 또한 코드로서 모듈식, 재사용 가능성 및 디버깅과 같은 기타 모든 관련 이점을 얻을 수 있습니다. 예를 들어, 우리의 모델링 목표가 바뀌었다면, 표시 기능을 조정하여 빠르게 적응할 수 있습니다!
한 가지 문제는 마킹 함수가 오버랩되고 충돌할 수 있는 잡음이 있는 출력을 생성하여 교육 마크가 좋지 않다는 것입니다. Sluck 에서는 다음 세 단계로 구성된 데이터 프로그래밍 방법을 사용하여 이러한 레이블을 노이즈 제거합니다.
1. 태그 없는 데이터에 태그 함수를 적용합니다.
2. 빌드 모델을 사용하여 태그 데이터가 없는 태그 함수의 정확성을 배우고 그에 따라 출력에 가중치를 부여합니다. 우리는 심지어 그것들의 관련 구조를 자동으로 배울 수도 있다.
3. 생성된 모델은 레이블 함수가 나타내는 신호 밖으로 일반화되는 강력하고 유연한 판별 모델 (예: 심도 신경망) 을 훈련시키는 데 사용할 수 있는 확률 훈련 태그 세트를 출력합니다.
이 전체 파이프라인은 ML 모델의' 프로그래밍' 을 위한 간단하고 견고하며 모델과 무관한 방법을 제공한다고 볼 수 있습니다!
레이블 기능 (레이블 기능)
생물의학 문헌에서 구조화 정보를 추출하는 것은 가장 고무적인 응용 중 하나이다. 대량의 유용한 정보가 수백만 편의 과학 논문의 밀집된 구조화되지 않은 텍스트에 효과적으로 잠겨 있다. 우리는 기계 학습으로 이 정보를 추출한 다음 이 정보를 사용하여 유전성 질병을 진단하기를 원한다.
과학 문헌에서 화학물질과 질병 사이의 관계를 추출하는 임무를 고려해 보세요. 우리는 이 임무를 완수하기에 충분한 태그 훈련 데이터 세트가 없을 것이다. 생물의학 분야에서는 다양한 화학 및 질병 이름 데이터, 다양한 유형의 알려진 화학-질병 관계 데이터베이스 등을 포함한 풍부한 지식 온톨로지, 사전 등의 자원이 있다. 우리는 이러한 자원을 이용하여 우리의 임무에 약한 규제를 제공할 수 있다. 또한 생물학 분야의 파트너와 협력하여 일련의 특정 작업에 대한 휴리스틱, 정규 표현식 패턴, 경험 규칙 및 부정적인 레이블 생성 전략을 제시할 수 있습니다.
대표적인 캐리어 생성 모델로
우리의 방법에서는, 우리는 마킹 함수가 암시적으로 모델의 세대를 설명 한다고 생각 합니다. 주어진 데이터 포인트 X 와 예측할 수 없는 레이블 Y 를 빠르게 검토해 보겠습니다. 판별법에서는 P(y|x) 를 직접 모델링하고 생성법에서는 P(x, y) = P(x|y)P(y) 를 모델링합니다. 이 예에서는 교육 세트 표시 프로세스 P(L, Y) 를 모델링했습니다. 여기서 L 은 오브젝트 X 의 표시 함수에 의해 생성된 레이블이고 Y 는 해당 (알 수 없는) 실제 레이블입니다. 모형 생성을 학습하여 P(L|y) 를 직접 추정하는 것은 본질적으로 그들이 어떻게 겹치고 충돌하는지에 따라 치수 함수의 상대적 정확도를 배우는 것입니다 (우리는 Y 를 알 필요가 없습니다! ) 을 참조하십시오
이 추정 생성 모델을 사용하여 레이블 함수에서 최종 판별 모델의 노이즈 인식 버전을 교육합니다. 이를 위해 모델은 교육 데이터의 알 수 없는 레이블을 추론할 확률을 생성한 다음 이러한 확률에 대한 판별 모델의 예상 손실을 최소화합니다.
이러한 생성된 모델의 매개변수를 추정하는 것은 매우 까다로울 수 있습니다. 특히 사용 중인 마커 함수 간에 통계적 종속성이 있는 경우 더욱 그렇습니다. 논문' 데이터 프로그래밍: 대형 훈련세트 빠른 생성 (HTTPS://ARXIV.org/ABS/1605.07723)' 에서 우리는 충분한 표기 함수를 제공하고 감독할 수 있다는 것을 증명했다. 또한 태그 데이터를 사용하지 않고 태그 함수 간의 상관 관계를 학습하고 성능을 크게 향상시키는 방법도 살펴보았습니다.
통풍구: 오픈 소스 프레임 워크
최근 발표한 통풍구에 관한 논문 (https://arxiv.org/ABS/1711./kloc/ 포함 내용:
1. 스노클링에 관한 세미나에서, 우리는 중소기업에게 스노클링을 사용하는 효율성과 같은 시간에 수동으로 데이터를 표시하는 효율성을 비교하는 사용자 연구를 했다. 통풍구를 사용하여 모형을 만드는 속도가 2.8 배 빨라졌을 뿐만 아니라 평균 예측 성능이 45.5% 향상되었다는 사실을 발견했습니다.
2. 스탠퍼드대, 미국 재향군인사무부, 미국 식품의약감독청 연구원과 합작한 두 가지 실제 텍스트 관계 추출 임무와 네 가지 기타 기준 텍스트 및 이미지 임무 중 잠수가 기준 기술에 비해 평균 65,438 0.32% 증가한 것으로 나타났다.
3. 사용자가 제공한 마킹 기능을 모델링하여 반복 개발 주기를 가속화하는 규칙 기반 최적기를 얻을 수 있는 새로운 절충공간을 탐색했습니다.
다음 단계: 대규모 멀티 태스킹 약한 감독
Dell 랩은 sculpt 가 구상한 약한 감독 상호 작용 모델을 풍부한 데이터와 이미지, 자연어 모니터링 작업 사용, 레이블 자동 생성 기능 등 다른 모델로 확장하기 위해 다양한 노력을 기울이고 있습니다!
기술적인 측면에서 우리는 sprock 의 핵심 데이터 프로그래밍 모델을 확장하여 더 높은 수준의 인터페이스 (예: 자연어) 로 마킹 기능을 쉽게 지정하고 다른 유형의 약한 감독 (예: 데이터 향상) 과 결합할 수 있도록 하는 데 관심이 있습니다.
MTL (multi-task learning) 장면의 인기도 한 가지 질문을 제기합니다. 시끄럽고 관련성이 높은 레이블 소스가 이제 여러 관련 작업에 태그를 지정할 때 어떤 일이 발생합니까? 공동 모델링에서 이러한 작업의 이점을 누릴 수 있습니까? 새로운 멀티 태스킹 인식 버전의 통풍구에서 이러한 문제를 해결했습니다. 즉, 멀티 태스킹 약한 규제 소스를 지원하고 하나 이상의 관련 작업에 소음 레이블을 제공할 수 있는 통풍구 금속입니다.
우리가 고려하는 한 가지 예는 세분성이 다른 레이블 소스를 설정하는 것입니다. 예를 들어, 특정 유형의 사람과 위치를 표시하기 위해 세밀한 명명 엔티티 인식 (NER) 모델을 훈련시킬 계획이라고 가정해 보겠습니다. "변호사" 와 "의사" 또는 "은행" 과 "병원" 과 같은 세밀한 시끄러운 레이블이 있습니다. 또 다른 것은' 사람' 과' 장소' 를 표시하는 것과 같은 거친 세분성이다. 이러한 리소스를 다양한 수준의 관련 작업으로 표현하면 함께 정확도를 모델링하고 멀티 태스킹 레이블에 가중치를 부여하고 결합하여 보다 명확하고 지능적으로 집계된 멀티 태스킹 교육 데이터를 만들어 최종 MTL 모델의 성능을 향상시킬 수 있습니다.
MTL 을 위한 데이터 관리 시스템 구축의 가장 흥미로운 측면은 수십 ~ 수백 개의 약한 감독 (따라서 고도의 동적) 이 복잡하고 다양한 방식으로 상호 작용하는 대규모 멀티 태스킹 메커니즘을 중심으로 진행될 것으로 보고 있습니다.
지금까지 대부분의 MTL 작업은 정적 수동 태그 지정 교육 세트에 정의된 최대 몇 가지 작업을 처리하는 것을 고려했지만, 세계는 대기업, 학술 실험실 또는 온라인 커뮤니티 등 수백 개의 규제가 비효율적이고 빠르게 변화하고 상호 의존적인 모델링 작업을 유지해야 하는 조직으로 빠르게 발전하고 있습니다. 또한 이러한 작업은 약한 감독이므로 개발자는 몇 달 또는 몇 년이 아닌 몇 시간 또는 며칠 내에 작업 (예: 교육 세트) 을 추가, 삭제 또는 변경할 수 있으므로 전체 모델을 재교육해야 할 수 있습니다.
최근 한 논문에서 "소프트웨어 2.0 에서 대량의 멀티태스킹 및 약한 규제의 역할" (http://cidrdb.org/cidr2019/papers/p58-Ratner- 이 문서에서는 이러한 문제에 대한 몇 가지 예비 아이디어를 개괄적으로 설명하고 MTL 모델이 서로 다른 개발자의 약한 태그에 대한 교육 데이터의 중앙 저장소로 효과적으로 사용되는 대규모 멀티 태스킹 설정을 구상했습니다. 그런 다음 중앙 "어머니" 멀티 태스킹 모델로 결합합니다.
정확한 형식 요인이 무엇이든 MTL 기술은 앞으로 많은 흥미진진한 발전을 이룰 것으로 보인다. 새로운 모델 아키텍처뿐만 아니라 마이그레이션 학습 방법, 새로운 약한 감독 방법, 새로운 소프트웨어 개발 및 시스템 패러다임과 점점 더 통일되고 있다.
원문:
Https://ai.stanford.edu/blog/weak-supervision/
통풍구:
Http://snorkel.stanford.edu/
위챗 위챗 공식 계정인 IT 테크놀로지슨에 오신 것을 환영합니다.
매일 IT 팁과 기술 디지털 뉴스를 공유하세요!