PetCenter, náš dlouhodobý klient, přišel s problémem: zařaďte 60 tisíc produktů do kategorií. Použili jsme trochu statistiky, kódění a if-then pravidla.
Nemám rád termín Data Science. Přijde mi zbytečně arogantní. Jako bych tím říkal.
Milí ostatní dataři, děkuju vám, že jste mi postavili datový sklad, že jste nastavili všechny datové toky, že díky vaší práci vím prakticky v reálném čase o každé důležité události, která se ve firmě stane – ale to není žádná věda! Teď si k tomu sednu já, napíšu dvacet řádků Python kódu a budu měsíc kvrdlat s pár parametry. To je ta správná věda!
Co mám rád, je řešení problémů. A klient přišel se zajímavým problémem:
Máme 60 000 produktů, zařazených do kategorií a právě jsme si vymysleli kategorie nové. Akorát nevíme, který produkt kam patří. Vy děláte tu Data Science, tak to nějak vyřešte.
Nebyl úplně čas vymýšlet nějaký složitý machine learning, 60 tisíc produktů není až tak moc a pár středně líných brigádníků by to nakonec zvládlo překlikat i ručně. Ve finále jsme zvolili poměrně jednoduché řešení.
To v první řadě zkoumalo, které produkty jde napárovat v rámci celé kategorie, které jde podle parametrů, které podle textového popisu a které je prostě nutné zařadit explicitně pro dané product_id.
Druhým stavebním kamenem našeho řešení byl RegExp.
A třetím pravidelná interakce s klientem a validace výsledků – a jelikož nebyl čas vytvářet nějaký složitý frontend, vystačili jsme si s Keboolou a Google Sheety.
Zajímavou přidanou hodnotu přineslo vytvoření dokumentace, která popisovala, jaká kritéria musejí být splněna pro zařazení produktu do kategorie X. To se klientovi hodilo při přidávání nových produktů.
Samozřejmě, člověk občas trochu narazí. Nezapomenu na moment, kdy jsem nasadil první verzi segmentačního skriptu a podíval se na produkty, které nedokázal zařadit. Na prvním místě byl produkt s popisem „Kruh, čtvercový“. Jsou chvíle, kdy se chcete umlátit klávesnicí…
Je trocha statistiky, kódění a if-then pravidel už Data Science? Těžko říct. Ve výsledku nám to bylo celkem jedno, problém jsme vyřešili a klient byl spokojený 🙂