Ne hakkındadır?
Veri bilimciler veya genel olarak verilerle çalışan kişiler için pek çok harika tavsiye var. Ancak benim için en önemli olanlardan bazılarının eksik olduğunu fark ettim. Öyleyse neden kendi listemi yazmayayım? Bu, gelecekte veri bilimcisi olmayı planlayan kişiler için. Bence bunların çoğu programcılar ve büyük veri çalışanları için de geçerli olabilir.
Bugün veri bilimcisi (ya da makine öğrenimi mühendisi veya araştırmacısı) olmak için güzel bir gün. Ve elinizin altındaki kaynaklar muazzam (tüm bu kurslar, kütüphaneler, kitaplar, videolar, eğitimler, ...)
Ancak manzara çok hızlı değişiyor. Kötü haber şu ki, bugün kullandığınız son teknoloji ürünü kütüphane/model yarın demode olabilir. İyi haber ise burada asla sıkılmayacaksınız. Bir başka olumlu taraf ise, temel bilgilerinizi bilmek ve doğru bir bakış açısına sahip olmak çok uzun bir yol kat etmenizi sağlayacak.
Bu makale çoğunlukla veri bilimciler için doğru bakış açısı hakkında.
İşte başlamadan önce tavsiyeler listesi:
- Meraklı olun
- Veri biliminin "bilim" kısmını unutmayın
- Diğer insanların sizi nasıl algıladığını farkında olun
- Ne ile çalıştığınızı çok iyi bilin
- Abartılara dikkat edin
- Bir hikaye anlatın
- T-şeklinde yetkinlik kazanın
- Pareto etkin olun
- Öğrenmeyi öğrenin
- Gelişim zihniyetine sahip olun
- Kendi fikirlerinize karşı çıkın
- Değişen dünyanın farkında olun
Kısa versiyonu isteyenler kalın ve italik bölümleri okuyabilir. Ama bunun neresi eğlenceli?
İlk Teknik Konular
Bu kısımları aradan çıkaralım. Büyük ihtimalle veri bilimi ve makine öğreniminin teknik yönleri hakkında size iyi tavsiyeler verebilecek yüzlerce makale vardır (muhtemelen şu anda size söyleyebileceğimden daha iyi). Makalenin sonunda bazı bağlantılar ekleyeceğim. Ve elbette daha fazlasını Google'da arayabilirsiniz.
Ancak yine de hızlı bir özet:
- Hangi teknolojileri öğrenmeliyim? – Python ekosistemi şu anda en iyisi. Scikit-learn, pandas, numpy gibi şeyleri nasıl kullanacağınızı bilmek ve matplotlib, plotly, seaborn gibi birkaç görselleştirme kütüphanesini bilmek size yardımcı olacaktır. – Derin öğrenme modelleri oluşturabileceğiniz en az bir framework bilin. Tensorflow/keras, pytorch, birini seçin.
- İstatistik bilmeli miyim? – Öncelikle, hayır, Makine Öğrenimi sadece yüceltilmiş İstatistik değildir. – Evet, çünkü günlük olarak istatistiksel kavramları kullanmalısınız, – Hayır, çünkü bir istatistikçinin bildiği her şeyi bilmek zorunda değilsiniz, – Evet, çünkü bu altyapınızı çok daha güçlü hale getirir. – Gerçekten önerebileceğim şey İstatistiksel Öğrenmeyi öğrenmektir. – Genel istatistik terimlerinizi, olasılıkları, dağılımları ve hipotez testlerini bildiğinizden emin olun.
- Ne kadar matematik bilmem gerekir? – Her veri bilimcinin veya makine öğrenimi mühendisinin hesap, lineer cebir, trigonometri, seriler, toplamlar, ... gibi aşina olması gereken bazı kavramlar vardır. – Bu gerçekten ne yapacağınıza bağlı. Bazı yöntemleri anlaması ve kullanması gerekenler olduğu gibi, araştırma yapması ve yeni yöntemler geliştirmesi gerekenler de vardır. Araştırma tarafına yöneldikçe daha fazla matematik her zaman yardımcı olacaktır.
- Programlama önemli mi? – Evet, hem de çok. Ancak yine de önem, ne yaptığınıza ve üretim için çözümler üretip üretmediğinize göre değişecektir. – Her iki durumda da dilinizin temellerini, nesne yönelimli programlamayı, versiyon kontrolünün nasıl kullanılacağını, kodunuzu nasıl test edeceğinizi ve basit bir web sunucusu oluşturmayı öğrenin.
Nasıl Başlamalıyım?
¯\_(ツ)_/¯
Yine, gerçekten nerede olduğunuza ve nerede olmak istediğinize bağlı. Bunu yapmanın tek bir doğru yolu yoktur. Kendinizi ileriye doğru itiyorsanız doğru yoldasınız demektir.
Ancak yine de bazı ipuçları:
- Programlama Öğrenin
- Temel Bilgilerinizi Güçlendirin Bu, okulda aldığınız dersler, çevrimiçi kurslar, kitaplar veya hatta YouTube olabilir. Birçok iyi kaynak var. En son teknolojilere ve parlayan şeylere atlamadan önce temel bilgileri öğrenmek için zaman harcayın. Çevrimiçi kurslar için önerilerim: fast.ai, Coursera, Udacity nano degrees.
- Elinizi Kirletin Bazı eğitimleri bulun ve takip edin. Bazı kodları inceleyin. Bir kaggle yarışmasına katılın. Kendi fikriniz üzerine bir model deneyin. Öğrenme süreci, sonuçtan çok daha değerli olacaktır, bana güvenin.
Geleceğin Veri Bilimcisi İçin Gerçek Tavsiyeler
Sonunda teknik olmayan ama faydalı bazı tavsiyeler. Bu tavsiyelerin en son teknoloji ve popüler teknolojilerden bağımsız olarak size yardımcı olacağını düşünüyorum.
1. Meraklı Olun:
Eğer kendinizi meraklı biri olarak görmüyorsanız, belki de bu iş size uygun değildir. Veri dünyası kesinlikle harikalarla dolu ama çoğu gün böyle değildir.
Burada veri madenciliği faydalı bir benzetme olabilir. Cevhere ulaşmak için tüm kir ve tozun içinden geçmek zorundasınız. Ve bilge bir adamın bir zamanlar söylediği gibi:
"Altın olan her şey parlamaz,"
Aynı zamanda denizde bir maceraya atılmak gibidir. Ama denizin çoğunlukla ne olduğunu biliyor musunuz? Su, çok fazla su.
Sizi sıkıcılığın denizine katlanmaya iten şey merakınızdır. Bu yüzden meraklı olun!
- Dünya nasıl çalışıyor?
- Bu yeni teknolojiler nasıl çalışıyor?
- Elinizdeki veriler size ne anlatıyor?
- Dünya nereye gidiyor?
Merakınızı pusulanız olarak kullanırsanız, sonunda vaat edilen harikalar ve hazinelerle karşılaşacaksınız. Bu yüzden bilge adamın devam ettiği gibi:
"Dolaşanların hepsi kaybolmuş değildir;"
2. Veri Biliminin “Bilim” Kısmını Unutmayın:
Dışarıda birçok parlak, yeni ve harika teknoloji var ve her gün yenileri geliyor. Tüm bu dikkat modelleri, GAN'lar, özellik piramitleri, bellek ağları, yakın politika optimizasyonları, ... Bunlar gerçekten birinin elindeki problemi çözmek için kullanmak istemesine neden olabilir.
Ancak veri biliminin bilim kısmı bazen ailenin yeterince takdir edilmeyen küçük kardeşi gibidir. Bilimsel yöntemin ilkelerini benimsemek, düşündüğünüzden daha fazla yardımcı olabilir.
Çalışmanızı elinizden geldiğince bilimsel bir proje olarak değerlendirin ve aklınızda bulundurmanız gereken iki şey var: hipotez testi ve bilimsel şüphecilik. Bazen modelinizin başarısı için en tehlikeli düşman kendi zihninizdeki önyargılardır. Ve hatta verilerinize ya da modelinize bile girebilirler.
Belki de John Snow'un hikayesini anlatmak için iyi bir zamandır. Hiçbir şey bilmeyen birinden bahsetmiyorum, hayır. Muhtemelen dünyanın ilk veri bilimcisi olan gerçek John Snow'dan bahsediyorum.
1854 yılıydı. Kanalizasyon sistemi yoktu. Kolera salgını Londra'da ölüm saçıyordu. Bu, mikrop teorisinin henüz ortaya çıkmadığı ve insanların hastalığa kötü havanın neden olduğunu düşündüğü bir dönemdi. Bu yüzden hastalıkla savaşmak için güzel kokular kullanmaya çalıştılar (ki belli ki pek işe yaramadı). Ve insanlar ölüyordu. Bu adam, John Snow, zamanının teorilerini bir kenara bıraktı ve elindeki verilerin ne söylediğini dinledi. Kolera vakalarını harita üzerinde işaretledi.
Vakaların hiç de rastgele olmadığını fark etti. Bunun suyla ilgili olduğuna dair bir hipotezi vardı. Ve kolera vakalarına daha yakın olan kuyular kapatıldığında salgın kontrol altına alındı.
Kıssadan hisse, insanların söylediklerine şüpheyle yaklaşırsanız, verilere bakmaya istekli olursanız ve test edebileceğiniz bir hipoteziniz varsa; muhtemelen birçok hayat kurtarabilirsiniz.
3. Diğer insanların sizi nasıl algıladığının farkında olun
Diğer insanların sizin hakkınızda ne düşündüğünü bilmek güçlü bir şey olabilir. Onlara nasıl yaklaşacağınıza veya onlardan ne bekleyeceğinize karar verebilirsiniz.
Müşteriler için siz lazer silahı olan şımarık bir çocuksunuz. Yapabildiğiniz şeylerin çoğunun güçlü bir lazer silahınız olduğu için olduğunu düşünüyorlar. Eğer kendilerinde de bir tane olsaydı, bu şeyleri kolayca yapabilirlerdi. Ama yine de denemeyecek kadar meşguldürler. "Bu sadece makine öğrenimi" gibi şeyler duyacaksınız. "Bu sadece istatistik." "Geçenlerde bir makale okudum, .... bile yapabiliyorlarmış."
İş arkadaşlarınız (veri bilimci olmayanlar) için siz genellikle bir sihirbazsınızdır. Onlara garip gelen şeyleri yapabiliyorsunuz. Ve sırf bunları yapabiliyorsunuz diye sizden başka mucizeler de bekleyebilirler. Yani çoğu insan için ne yaptığınız ve bunu nasıl yaptığınız bir gizemdir.
İnsan kaynakları için siz tek boynuzlu atsınız. Tek boynuzlu atların var olduğuna dair bazı söylentiler var. Elbette bir tane bulmak için çok uğraşıyorlar ama bazen sizi gördüklerinde hayal kırıklığına uğruyorlar. Çünkü siz aslında sihirli bir yaratık değilsiniz.
Elbette bu klişeler her zaman doğru değildir ya da biraz karıştırılmış olabilirler. Ama sonuç olarak, aklınızdaki "nasıl algılandığınız fikri" ile iletişim kurmalısınız. Bazı yanlış algıları beslemekten kaçınmak isteyebilir ve muhtemelen bazılarını kırabilirsiniz.
4. Ne ile çalıştığınızı çok iyi bilin
Ne ile çalıştığınızı bilin. Kullandığınız teknolojilerin nasıl çalıştığını bilin. Örneğin, tensorflow'un belirli şeyleri nasıl yapıyor olabileceğini veya CNN'lerin görüntü verileri üzerinde nasıl bu kadar iyi performans gösterebildiğini anlamak için zaman ayırın. Çalıştığınız alanı anlamak için zaman ayırın.
Oyuncakları açan çocuk olun. Ve hatta bazen onları kırın.
Neyle çalıştığınıza dair kavramsal bir anlayışa sahip olmanız gerekir. Ancak matematiksel bir anlayışa sahipseniz, bu bir süper güç gibi olabilir.
5. Abartılara dikkat edin
Tüm bu derin öğrenme olaylarının bir aldatmaca olduğunu söylemiyorum. Ancak yapay zeka ve sinir ağı araştırmalarının geçmişine baktığınızda kesinlikle inişler ve çıkışlar olduğunu görürsünüz. Karşılanması mümkün olmayan gerçekçi olmayan beklentiler var. Ne kadar fantastik olsalar da tüm sorunlarınız için çözüm olmayabilirler.
Elinizdeki tek şey çekiçse, her şey çivi gibi görünür.
– Bernard Baruch
Bu yüzden sahip olduğunuz modellerin bir çekiç olmasına izin vermeyin. Bazen lojistik regresyon bile mükemmel bir çözüm olabilir.
6. Bir hikaye anlatın
Teknik başarılarımızla elbette gurur duyuyoruz. Zor bir problemi çözmenin üstesinden gelebilecek çok az şey vardır. Ancak gerçek hayat problemlerini çözmenin ne yazık ki teknik olmayan kısımları da var.
Verilerle çalışırken, ne kadar iyi yaptığımızı ölçmek için hata fonksiyonlarımız var. Ve bunları optimize etmeye çalışıyoruz. Ancak hata fonksiyonunun ölçmediği bir şey varsa o da modelinizin kullanışlılığı ya da ne kadar başarılı görüldüğüdür. Sonuçları iyi bir doğrulukla tahmin etmek tek başına yeterli olmayabilir.
Doğruluk, hata metrikleri ve karışıklık matrislerini ortaya dökmek bazı insanları ikna edebilir ama ikna etmeniz gerekenlerin hepsini ikna edemez. Basitçe onların dilini konuşmuyorsunuz.
Hikayeler herkesin evrensel dilidir. Sonuçlarınızı çerçevelere yerleştirin. Senaryolar sunun, hikayeler anlatın ki ne yaptığınızı anlayabilsinler. Bonus puanlar için harika görselleştirmeler kullanın. İşiniz sadece verilerle değil. Kaçınılmaz olarak diğer insanlarla da ilgilidir.
7. T şeklinde bir yetkinlik kazanın
Çok çeşitli şeyleri bilin çünkü ne tür bir sorunla karşılaşabileceğinizi bilemeyebilirsiniz. Çözüm çoğu zaman farklı şeylerin bir kombinasyonudur
Ayrıca alanlardan en az birinde yetkin olun. Bu size diğerlerinin çözemediği bazı sorunları çözme becerisi kazandırır. Bu kariyeriniz için güçlü olabilir. Ayrıca gözden kaçan bir yan etkisi de vardır. Bir şeyi iyi bilmek, bunu yapabilecek kapasiteye sahip olduğunuzu kanıtlar. Gerektiğinde bunu tekrar yapabileceğinizi kanıtlar.
8. Pareto etkin olun
Bir model oluşturmak internetten alışveriş yapmak gibidir. Biraz daha fazla para harcayarak her zaman daha iyisini bulabilirsiniz. Ve biraz daha, ve biraz daha,... ve bütçenizin çok ötesine geçersiniz. Demek istediğim, modelinizi daha iyi hale getirmek için her zaman daha fazla zaman harcayabilirsiniz.
Pareto ilkesi, yaptığınız çoğu şey için harcadığınız zamanın 'inin sonuçların 'sini sağladığını ve yaptığınız bu 'lik önemli işin de elde ettiğiniz sonuçların 'ini sağladığını söyler.
Çoğu zaman 'lik sonuç kısmından kaçınılamasa da, hangi kısımla çalıştığınız konusunda dikkatli olmak her zaman yardımcı olur. Her zaman harcadığınız zamanla nasıl daha iyi sonuç alabileceğinizi düşünün.
9. Öğrenmeyi öğrenin
Bir ağacı kesmek için bana altı saat verin, ilk dört saatimi baltayı bilemekle geçiririm. - Abraham Lincoln
Özellikle bir problemi çözmek için harcadığınız her dakika, o problem için kullanılacaktır. Aynı şekilde, en son teknolojilerin ayrıntılarını öğrenmek için harcadığınız zaman da size çoğunlukla bunu kazandıracaktır. Doğru altyapı olmadan bunları anlamlandırmaya çalışmak, kör bir baltayla ağaç kesmeye çalışmak gibidir.
Temel ve teorik bilgilerinizi geliştirmek için harcadığınız zaman, size belirli bir sorunun çözümünü doğrudan vermeyecektir. Ancak temeliniz ne kadar güçlü olursa, yeni şeyleri o kadar hızlı öğrenebilirsiniz. Bu tıpkı baltayı bilemek gibidir.
Ancak nasıl öğreneceğinizi öğrenebilirseniz, herhangi bir bilgi ve beceriyi edinme hızınız artabilir. Bu, bileme taşınızı daha iyi hale getirmek gibidir. Her baltayı bileme sürenizi kısaltır. Peki ne yapmalısınız? Kendinizi çeşitli konulara maruz bırakın (sadece teknik şeyler değil), çok okuyun ve yeni fikirlere açık olun.
10. Büyüme zihniyetine sahip olun
Bu alanda, zamanınızın en parlak insanlarından bazılarıyla (en azından sanal olarak) birlikte çalışacaksınız. Aralarında bazı dahiler de olacak. Sizin çok zorlandığınız şeyler onlar için çocuk oyuncağı olabilir. Ve bir noktada kaçınılmaz olarak kendinizi onlarla kıyaslayacaksınız. Bazen kendinizi aptal gibi hissedeceksiniz. Ama ne var biliyor musunuz? Çoğumuz öyle hissederiz. Bunun bir adı bile var: sahtekârlık sendromu: imposter syndrome.
İyi haber şu ki, en iyisi olmak zorunda değilsiniz. Sadece iyi olmanız gerekiyor. Yararlı olmanız ve sorunları çözmeniz gerekir. Herkes kendi dünyasında bunu yapmaya çalışır.
Bu yüzden sorunlarla karşılaşacak ve daha önce de belirtildiği gibi kendinizi aptal hissedeceksiniz. Ancak akademik başarı ve iş başarısının belirleyicisi olan ayırt edici bir nitelik, büyüme zihniyetine sahip olmaktır.
Başarısız olduklarında, bazı insanlar zihinsel kapasitelerinin sınırlarına ulaştıklarını düşünür ve başka şeyler denerler. Bununla doğmamışlardır ya da bunun için yaratılmamışlardır. Diğer insanlar, büyüme zihniyetine sahip olan insanlar, bunun sadece kapasiteyle ilgili olmadığını bileceklerdir. Zihinlerinin esnek olduğunu bilirler. Daha fazla zaman ve sistematik çaba gösterdiklerinde, daha önce çok kafa karıştırıcı görünen şeyleri öğrenebileceklerdir. Akademik makaleleri okurken büyük olasılıkla bu duyguyu yaşayacaksınız. Önce anlamakta başarısız olacaksınız. Ama sonuç olarak, eğer daha fazla zaman ayırırsanız daha kolay hale gelecektir, sadece zihninizin esnek olduğunu ve büyüyebileceğini bilmeniz gerekir. But bottom line is if you put more time into it it will get easier you only need to know your mind is flexible and can grow.
11. Kendi fikirlerinize karşı çıkın
Bu, eleştirel düşünme ve bilimsel şüphecilikle ilgilidir. Fikirlerinize ve modellerinize verilerle veya gerçek sözlerle meydan okunmadan önce, kendiniz meydan okumak çok daha kolay ve hızlıdır.
Lord Petyr Baelish'in Sansa'ya verdiği tavsiyenin aynısını veriyorum:
Kuzey'de ya da Güney'de savaşma. Her savaşta her yerde, her zaman zihninde savaş. Herkes senin düşmanın, herkes senin dostun. Olası her olay dizisi aynı anda gerçekleşiyor. Bu şekilde yaşarsanız hiçbir şey sizi şaşırtmayacaktır. Olan her şey daha önce gördüğünüz bir şey olacaktır.
12. Değişen dünyanın farkında olun
Buhar makinesinin icadı ve sanayi devrimiyle birlikte, insanların kas gücü artık belirleyici bir nitelik olmaktan çıktı. Makineler çok daha güçlüydü ve asla yorulmuyorlardı. Türümüzün tek değerli niteliği aklımızdı. Öğrenme, düşünme, hesaplama ve problem çözme yeteneğimiz. Ve şimdi, varlığımızın bu yönüne her zamankinden daha fazla meydan okunuyor.
Daha da ilginci, makine öğrenimi çalışanları olarak bizim de bunda payımız var. Bazen bunu buhar makinesini inşa eden insan emeği gibi düşünüyorum. Kendilerini daha az kullanışlı hale getirecek bir şey inşa ediyorlardı ama aynı zamanda tüm insanlığın bir şeyler kazandığı bir şey inşa ediyorlardı.
Bilişsel bilime ilgi duyan ve psikoloji ve nörobilim hakkında biraz bilgi sahibi olan biri olarak, makinelerin insanların yapabildiği her şeyi yapabilmesine o kadar da yakın olmadığımızı düşünüyorum. Sadece bizim zor bulduğumuz şeylerde iyiler, ancak kolay bulduğumuz şeyleri yapmakta zorlanıyorlar. (İnsanların bilgisayar oyunlarında daha iyi olduğunu, ancak yapay zekanın insan yapımı oyunların çoğunu yendiğini düşünün).
Bu yüzden bilgisayarların nelerde iyi olduğunu ve insanların nelerde iyi olduğunu iyi anlayın. Bilgisayarların kolayca yapabileceği şeylere çok fazla zaman ayırmayın (sayıları çarpma konusunda uzman olmak gibi). Yeni çağın işgücü olmayın.
Veri bilimine başlamak için daha teknik konularla ilgili bazı faydalı bağlantılar. Arama yaparak çok daha fazlasını bulabilirsiniz.