#4 Spaghetti Data - Deep Fake, Active Learning, manager chiaccheroni e molto altro
Anthony Bourdan parla dall’oltretomba grazie al Deep Fake
Anthony Bourdain, il famoso ex-chef, start televisa di show che parlano di cibo (ma anche di cultura e politica) e sì - facciamo un po’ di gossip - ex flirt di Asia Argento, è morto nel 2018. Nel 2021 gli è stato dedicato il documentario Roadrunner: A Film About Anthony Bourdain.
Ok, ma perche ne stiamo parlando qui, vi starete chiedendo?
Il fatto è che il regista voleva inserire alcune frasi di Bourdain, tratte da lettere e libri. Il problema è che non esistono registrazioni con il parlato di quelle specifiche frasi. Soluzione? Il registra si è rivolto ad un’azienda tech che ha creato un modello di deep fake in grado di riprodurre artificialmente la sua voce, analizzando decine di ore di parlato della star.
Potete sentire una delle frasi incriminate nel tralier, intorno al minuto 1:30, quando dice “you were successful…”. Il risultato? Lascio a voi giudicare!
Vuoi diventare manager? Inizia a parlare tanto!
Nella scorsa uscita di Spaghetti Data, abbiamo parlato del princio di Diliber:
Le aziende promuovono sistematicamente persone incompetenti nel ruolo di dirigente per tenerle lontano dal vero lavoro.
Oggi torniamo a parlare di manager, specialmente quelli chiacchieroni. In questa ricerca del 2020, viene riscontrato un principio che alcuni di noi avranno già notato: le persone che parlano di più hanno una maggiore probabilità di venire promosse a manger, indipendentemente da intelligenza, esperienza, personalità e gender.
Ovviamente si tratta di un solo studio, in un contesto limitato e c’è il solito problema causation vs. correlation, ma comunque è un punto importante su cui riflettere.
Vuoi diventare un manager? Forse è il caso di intervenire di più nelle discussioni, così che il team ha la possibilità di capire come ragioni e di costruire un senso di fiducia nei tuoi confronti.
Active Learning: come gestire un dataset molto grande senza etichette
Spesso la vita del data scientist è un po’ più complicata di quello che ci si immagina partecipando a competizioni di machine larning su Kaggle. In molti casi abbiamo a che fare con dataset che non sono stati etichettati e che non hanno quindi la variabile y che dobbiamo predirre.
In questo caso, spesso, l’unica soluzione è quella di rimboccarsi le maniche, analizzando a mano alcune centinaia o migliaia di righe del nostro dataset, per capire se la nostra variabile è 1 o 0 o se è “chihuahua” o “muffin”.
Ma esiste una maniera più efficiente di selezionare gli esempi da etichettare? Si e la risposta è Active Learning!
In una frase, l’Active Learning ci suggerisce la maniera ottimale di selezionare le righe del nostro dataset che dobbiamo etichettare per ottenere un modello migliore.
Qui troverete un’introduzione più leggera e una più matematica all’argomento.
Serie temporali: gli algortimi di deep learning sono veramente migliori di altri algoritmi più semplici?
Storicamente, per decine di anni, per ottenere predizioni con serie temporali (time series), sono stati utilizzati algoritmi relativamente semplici come ARIMA. Contemporaneamente il mondo di statistica e machine learning si è anche mosso: una serie temporale può essere trasformata in maniera da essere usata con algoritmi di regressione (linear regression, decision trees, etc.). Poi è arrivata la rivoluzione del deep learning, con algoritmi come RNN (recurrent neural networks) e LSTM (long short-term memory).
In questo paper - pubblicato 4 mesi fa - vengono confrontati algoritmi di deep learning e algoritmi di regressione con Gradient Boosting su una serie di dataset diversi tra loro.
Il risultato è che spesso gli algoritmi Gradient Boosting funzionano meglio di quelli complessi di deep learning. Sorpresi? Forse non troppo se conoscete il teorema del no free lunch. Ma comunque una buona occasione per ricordarci che solo perché un algoritmo è nuovo e molto in voga, non vuol dire che funzioni meglio di altri.
Vuoi cambiare azienda? Occhio a questi segnali!
Non c’è niente di peggio di entrare in una nuova azienda pieni di energie ed aspettative per poi scoprire dopo poco che il ruolo, il team o l’azienda stessa non ti piacciono.
In ruoli relativamente nuovi come quelli nel mondo dei dati (data scientist, data analysist, data engineer, business analyst, etc.), c’è il rischio che la posizione sia stata creata solo perché il manager ha letto su LinkedIn che “data is the new oil” e “Data is the new science. Big data holds the answer”.
In questo articolo vengono analizzati i segnali da tenere d’occhio per evitare queste situazioni. Qui un piccolo riassunto sui problemi e sulle domande da fare per “sgamarli”.
L’azienda non ha abbastanza dati o i dati sono organizzati male e poco accessibili. Le domande da fare:
Quali dati vengono generati o collezionati dai vostri sistemi?
Quali sono gli elementi principali dei dati della vostra azienda (come ad esempio clienti, transazioni, oggetti, etc.) e quante nuove righe vengono aggiunte al database in media ogni giorno/mese?
Se accetto la posizione, come farò ad accedere ai dati? Con che tool?
Poche idee (e confuse) su come il team debba aiutare i clienti, gli stakeholder e l’azienda in generale. Le domande da fare:
Cosa dovrò realizzare nei primi 100 giorni? E nel primo anno?
Che caratteristiche dovrebbe avere il candidato ideale per avere successo in questo ruolo?
Cosa devo dimostrare per avanzare di livello e ottenere una promozione?
Il manager è uno stron*o, incompentente e/o non ha una visione chiara sul ruolo e sul team. Le domande da fare:
Quali sono i punti forti del manager? Quali le aree in cui deve migliorare?
Ti piace lavorare col tuo manager? Perché sì/no?
In che modo il manager aiuta il team a crescere?
Andresti a fare un apertivo col tuo manager?
Gli strumenti utilizzati sono vecchi o creati dall’azienda stessa, sprecherai quindi tempo ed energia per acquisire delle conoscenze che non potrai riutilizzare in altre aziende. Le domande da fare:
Che tool utilizzate?
Qual’è lo stack tecnico?
La struttura dell’azienda non ha senso, specialmente per quanto riguarda il team di data science. Le domande da fare:
A chi riporta l’head of data science?
Chi sono gli stakeholder principali del team di data science?
Distribuzione di Gauss (o normale) + palestra :)
(fonte)