top of page
검색

딥러닝 업무를 위한 아파치 스파크



아파치 스파크의 장점

아파치 스파크는 데이터 작업자가 데이터 셋에 대해서 빠르고 반복적인 엑세스가 필요한 스트리밍, 머신러닝 또는 SQL 작업 부하를 효율적으로 실행할 수 있게 해주는 많은 개발 API를 갖춘 메모리 내장 데이터 처리 엔진이다. 스파크는 분산 컴퓨팅 라이브러리로 여러 대의 컴퓨터에서 실행할 수 있다. 스파크는 데이터 과학을 위해 디자인 됐으며 추상화를 통하여 데이터 과학을 좀더 쉽게 만들수 있다.

Data scientists는 일반적으로 기법과 알고리즘을 데이터로 학습할 수 있도록 머신러닝을 사용한다.  스파크의 데이터 집합을 메모리에 캐시하는 기능은 이러한 반복적인 데이터 처리 속도를 대폭 향상시켜  이러한 알고리즘을 구현하는데 이상적인 프로세싱 엔진으로 만들어 준다.

스파크에는 분류, 회귀, 클러스터링 및 차원 감소와 같은 일반적인 데이터 과학 기술에 대한 일련의 기계 알고리즘을 제공하는 라이브러리인 MLlib도 포함되어 있다.

조회수 10회

최근 게시물

전체 보기
bottom of page