검색
  • IMGURU

딥러닝 업무를 위한 아파치 스파크



아파치 스파크의 장점

아파치 스파크는 데이터 작업자가 데이터 셋에 대해서 빠르고 반복적인 엑세스가 필요한 스트리밍, 머신러닝 또는 SQL 작업 부하를 효율적으로 실행할 수 있게 해주는 많은 개발 API를 갖춘 메모리 내장 데이터 처리 엔진이다. 스파크는 분산 컴퓨팅 라이브러리로 여러 대의 컴퓨터에서 실행할 수 있다. 스파크는 데이터 과학을 위해 디자인 됐으며 추상화를 통하여 데이터 과학을 좀더 쉽게 만들수 있다.

Data scientists는 일반적으로 기법과 알고리즘을 데이터로 학습할 수 있도록 머신러닝을 사용한다.  스파크의 데이터 집합을 메모리에 캐시하는 기능은 이러한 반복적인 데이터 처리 속도를 대폭 향상시켜  이러한 알고리즘을 구현하는데 이상적인 프로세싱 엔진으로 만들어 준다.

스파크에는 분류, 회귀, 클러스터링 및 차원 감소와 같은 일반적인 데이터 과학 기술에 대한 일련의 기계 알고리즘을 제공하는 라이브러리인 MLlib도 포함되어 있다.

조회 6회

최근 게시물

전체 보기