위치 데이터로 최적의 푸드트럭 장소 찾기 -2-

2018-08-20

SPH-HJ

지난 포스팅에서 소개된 푸드트럭에 이어, 이번에는 어떻게 데이터를 활용하였는지 구체적으로 소개해드리겠습니다.

SPH에서도 이와 비슷한 사례로 유동인구, 시간에 따른 상권 변화 분석 데이터 등을 지도 위에 시각화하여, 소상공인 지원을 위한 ‘상권분석 빅데이터 경진대회’에서 수상한 경험이 있습니다. 더욱 자세한 이야기는 여기에서 확인 가능합니다.

위치 데이터 덕분에 사이트 계획과 관련된 비즈니스 실행과 프로세스를 계속하여 발전했습니다. 또한 새로운 데이터 스트림에 대한 통찰력을 바탕으로 계절에 따라, 임시적으로 및 유동 비즈니스의 매출 증가 가능성이 가장 높은 사이트를 결정할 수도 있게 되었습니다.

점심 시간에 중요한 역할을 하게된 푸드 트럭은 위치 기반 비즈니스 모델에서 운영됩니다. 일반적으로 푸드 트럭은 비슷한 가격의 비슷한 점심 식사를 제공하기 때문에 인근 경쟁 업체와 차별화하기가 어렵습니다. 결과적으로, 푸드 트럭 위치는 사업의 성공 여부를 결정할 수 있습니다.

최근에 CARTO는 현지 푸드 트럭 사업이 수익 예측 모델을 통해 트럭의 주요 명소를 결정하도록 도왔습니다. 이 회사는 10개 푸드 트럭 각각에 대해 한달동안의 익명화 된 거래 데이터를 제공했으며, 이 정보를 통해 CARTO 데이터 과학자 팀은 현재 성과를 파악하고 점점 더 많은 수익 모델을 구축하였으며 마지막으로 6곳의 최고의 수익을 창출할 것으로 보이는 푸드 트럭 위치를 예측하였습니다.

현재 성과 측정

향후 판매를 촉진하기 위해 어떤 위치를 선정해야 할 지를 예측하기 전에 맨해튼과 브루클린에서 각 사이트의 현재 성과를 측정하는 방법을 먼저 알아야했습니다.

시작하기 위해 CARTO 데이터 과학자인 Wenfei 와 Dongjie 는 먼저 시간별 트럭별 데이터를 집계하여 시간 당 평균 지출을 측정했습니다.

그래프에 따르면 각 푸드 트럭의 시간당 수익은 때로는 아침 식사 시간에도 판매량이 급증하지만 보통 점심 시간 즈음에 최고조에 달하는 것으로 나타났습니다. 다음으로, CARTO의 지도 제작 책임자인 Wenfei와 Mamata는 각 지점에 대한 매출액을 반영한 비례 원을 사용하여 식품 트럭 판매를 ‘지도화’하였습니다.

예상대로 그랜드 센트럴역, 소호, 타임스퀘어 등 교통량이 많은 지역에 위치한 푸드 트럭들이 가장 유리한 위치에 있습니다.

이제 매출 증대를 위한 최적의 위치를 파악해야합니다. 즉, 수익 모델에서 예측 변수 역할을 할 수 있는 현재 위치 주변 및 주변의 변수들을 식별해야합니다. 전통적으로 이러한 예측 인자들은 인구 조사 및 관심 지점 (POI) 데이터들을 활용하여 식별됩니다.

인구 조사 데이터에서 제공되는 인구 통계학적 통찰력은 대상 고객을 세분화하는 데 유용하지만, 인구 조사 데이터 작업의 중대한 한계 중 하나를 보여줍니다.

인구 조사(센서스)는 운영 영역에 대한 주거용 데이터를 제공하며, 위의 이미지에서 보이는 정보는 ‘인구 조사 표준 지역’ 레벨에서 제공됩니다. 그러나 많은 푸드 트럭 고객들은 뉴욕의 명소를 방문하는 관광객 또는 시내로 통근하는 근로자들로 그랜드 센트럴 역 및 타임 스퀘어가 가장 수익이 높은 곳 중 하나일 수 있습니다. 따라서 주거용 데이터는 이 대상 고객 기반의 매출 증가와 관련되어 상대적으로 적은 통찰력을 제공합니다.

POI데이터는 우리 모델에 대한 예측 인자 역할을 할 수 있는 수익성 높게 운영되는 푸드 트럭 주변의 인근 명소 패턴을 찾는 데 더욱 유용합니다.

첫번째 지도는 맨해튼과 브루클린의 모든 POI 지점을 보여줍니다. 그러나 우리 푸드트럭들의 주변에 어떤 명소가 나타나고 다시 나타나는 지 파악하기가 너무 어렵습니다. 많은 고객들이 근접 거리를 기준으로 푸드 트럭을 선택하기 때문에 200미터 반경 버퍼가 각 트럭 주변에 생겨 2~3분의 보행 시간이 되므로 두번째 지도에서 예측을 보다 쉽게 할 수 있습니다.

새로운 데이터 스트림을 활용하여 보다 정확한 모델 만들기

이제 우리는 푸드 트럭을 배치할 위치를 고려할 때 데이터의 어떤 기능이 가장 중요한 지를 결정할 수 있는 GBR 모델을 구축할 준비가 되었습니다. 즉, GBR모델은 잠재적인 푸드 트럭 위치를 고려할 때 찾아야 할 예측 변수 목록을 제공할 기능의 중요도 순위를 매길 수 있습니다.

첫번째 수익 모델은 인구조사 데이터 및 POI 데이터와 같은 전통적인 데이터 소스를 사용하여 생성되었습니다.

GBR 모델은 모델의 신뢰도를 측정 할 수 있는 0-1의 데이터 세트 내 변동성 측정치인 R제곱 점수를 반환했습니다. 38 제곱의 R- 제곱 점수는 데이터에 변동 범위가 있음을 의미하므로 더 많은 데이터가 필요한 푸드 트럭 위치를 선택 할 때 고려해야할 기능이 무엇인지에 대해 더 큰 확신을 가지고 결정할 수 있습니다.

모델을 개선하기 위해 마스터 카드 지출 데이터가 추가되고 동일한 방정식이 수행되어 R 제곱 점수가 증가하는 지 확인하였습니다.

마스터 카드 지출 점수는 사람들이 돈을 어디서, 언제, 어떻게 사용하는 지 집계되고 익명화된 가맹점 수준의 거래 통찰력을 제공합니다. 보다 구체적으로, 거래 백분위 수 점수는 중요도가 높은 빈도 측정 값을 제공합니다. 대부분의 푸드 트럭은 비슷한 가격에 비슷한 종류 음식을 제공하기 때문에 빈도 측정 도구는 각 트럭에 대한 고객 규모에 대한 통찰력을 제공합니다.

여기서 우리는 상당한 점수 증가와 산점도에서 점들 간에 정렬이 더 커짐을 알 수 있습니다. 그러나 R 제곱 점수는 더 강해서 유동 인구 데이터 레이어가 모델에 추가되었습니다.

여기서 R제곱 점수는 첫번째 모델 이후로 18점 증가했습니다. 이는 많은 의미를 가지며 푸드 트럭이 인근 유동 인구 수에 의존한다는 이전 가정을 POI 버퍼와 함께 더 확정지을 수 있습니다. 추가적인 파생 데이터 레이어가 우리 모델에 추가 되었을 때 R제곱 점수가 향상되었음을 눈여겨 보아야 합니다. 이러한 새로운 데이터 스트림이 없으면 각 푸드 트럭에 가장 적합한 위치가 어디에 있는지에 대해 많은 확신을 가지고 확인할 수 없을 것입니다.

위 이미지는 우리 모델이 푸드 트럭 판매에 통계적으로 중요한 영향을 미치는 것으로 확인된 12가지 기능을 나타내며 상위 4가지 기능이 새 위치 식별을 위한 예측 요소로 선택되었습니다. 1. 이전 시간의 유동 인구, 2. 현재 시간의 유동 인구, 3. 요일, 4. 마스터 카드 빈도 점수

수익 예측

이제 100 x 100 미터 격자 타일 (대략 도시 블록 크기)을 사용하여 뉴욕시 전역에 선택된 예측인자를 ‘지도화’할 때 입니다. 다음으로 히스토그램을 사용하여 도시 전역의 판매 분포를 살펴본 다음 트럭 당 매주 판매 평균을 대략 2,786달러로 계산했습니다.

목표는 판매 수익을 높일 수 있는 새로운 위치를 찾는 것이므로 수익 분배의 가장 높은 끝을 선택한 다음 이를 수익 영역으로 묶었습니다. 모델의 R제곱 점수가 0.63이었기 때문에 각 트럭의 정확한 위치를 정확히 찾아내는 데 충분한 확신이 없었습니다. 대신, 수익 창출의 가능성이 높은 이웃 지역을 찾기 위해 이러한 수익 지역들이 묶여져 있었습니다.

위의 이미지는 이러한 각각의 작업으로 산출된 지도의 변경 사항을 보여줍니다. 결국 6곳의 위치가 각각에 대한 매출 예측으로 확인되었습니다. 아래의 6개 위치는 각 위치에 대한 주별 판매 평균에 따라 가장 높은 순위부터 가장 낮은 순위 순으로 정렬됩니다.

Corona Park : 주당 평균 6,128 달러의 매출
Penn Station : 주간 판매 평균 5,975 달러
SoHo : 주당 평균 판매액 5,911 달러
그랜드 센트럴 역 : 매주 평균 5,766 달러의 매출
West Village : 주당 평균 판매액 5,234 달러
DUMBO : 주당 평균 판매액 5,193 달러

위의 리스트 (Penn Station, Grand Central 등)에는 의례적인 장소들이 있었지만, Corona Park는 푸드 트럭 판매 수익을 늘리는 가장 좋은 장소로 밝혀진 것은 놀라운 점입니다. 인근 관광 명소와 인구 밀도를 고려하면 결과가 의미가 있습니다.

사이트 계획의 새로운 시대

이전에는 불가능했던 솔루션을 가능하게 하는 ‘사이트 계획의 새로운 시대’에 새로운 데이터 스트림이 도입되었습니다. 실제로 이 푸드 트럭의 사례가 강조되면서 이 유동적인 패턴이 판매에 미칠 영향을 파악, 이해 및 수치화하기 위해 기존 전통적인 소스에서부터 새로운 파생 데이터 세트에 이르기까지 다양한 유형의 데이터를 활용하여 작업하는데 사이트 계획의 미래가 달려있습니다.

SPH는 CARTO, Google Maps, SuperMap 등 다양한 케이스에 적용될 수 있는 다채로운 제품군을 보유하고 있으며 고객의 사례에 꼭 맞는 무료 세미나 및 개별 컨설팅을 제공하고 있습니다. 각 케이스에 맞춰 더욱 자세한 이야기를 나누고 싶으시다면 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS/로케이션 인텔리전스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 또는 뉴스레터를 구독해 주시길 바랍니다. 감사합니다.

SPH는 Google Maps, SuperMap, Vantor, Snowflake, Sigma Computing 등 다양한 제품군을 가지고 있으며, 고객의 사례에 꼭 맞는 무료 세미나 및 인적 컨설팅을 제공하고 있습니다. 더욱 자세한 이야기를 나누고 싶으시다면, 여기에서 문의 주시길 바라며, SPH에서 발행하는 GIS / 로케이션인텔리전스 / AIBI / 데이터비즈니스 관련 최신 소식을 받아보고 싶으신 분들은 페이스북 페이지 (링크드인 페이지) 또는 뉴스레터를 구독해주시길 바랍니다

카테고리 연관글

제목 영역 두 줄 까지 처리 가능, 넘어가는 영역은 줄임표로 처리 제목 영역 두 줄 까지 처리. 넘어가는 영역은 줄임표로 처리 제목 영역 두 줄 까지 처리