- Mesajlar
- 961
Arkadaşlar merhaba,
bir projede, büyük veri kümeleri ile çalışıyorum. yaptığım iş tweeter'daki anlık yayın akışını çekip, tweetler üzerinde işlem yapmak. 2 günde 60000'den fazla tweet çektim. bunlar üzerinde gerekli analizleri de yaptım, fakat aklıma takılan birşey var?
yaptığım iş şu;
1- tweetleri cümle cümle ayırdıktan sonra cümleleri kelimelerine ayırmak. kelime tabloda yoksa yeni bir düğüm olarak tabloya eklenecek. bu şekilde düğümler tablosu oluşturuluyor.
2- cümledeki kelimeler teker teker alınarak kendinden sonraki kelime ile bağlantısı, bağlantılar tablosuna eklenecek. bunda da eğer bağlantı daha önceden yoksa tabloya eklenecek.
ekteki resim daha açıklayıcı olur sanırım.
Neyse bu işlemleri ben bitirdim fakat yaptğım işlemlerde sürekli veritabanını kullandığı için 60000 tweet'i 3 günde zor bitirdi.
Sürekli veritabanı yerine dizi ve list kullansam büyük ihtimalle daha hızlı olur. Fakat hangisi daha hızlı olur, dizi mi list mi?
Dediğim gibi projeyi bitirdim, teslim ettim
Sadece Merak 
bir projede, büyük veri kümeleri ile çalışıyorum. yaptığım iş tweeter'daki anlık yayın akışını çekip, tweetler üzerinde işlem yapmak. 2 günde 60000'den fazla tweet çektim. bunlar üzerinde gerekli analizleri de yaptım, fakat aklıma takılan birşey var?
yaptığım iş şu;
1- tweetleri cümle cümle ayırdıktan sonra cümleleri kelimelerine ayırmak. kelime tabloda yoksa yeni bir düğüm olarak tabloya eklenecek. bu şekilde düğümler tablosu oluşturuluyor.
2- cümledeki kelimeler teker teker alınarak kendinden sonraki kelime ile bağlantısı, bağlantılar tablosuna eklenecek. bunda da eğer bağlantı daha önceden yoksa tabloya eklenecek.
ekteki resim daha açıklayıcı olur sanırım.
Neyse bu işlemleri ben bitirdim fakat yaptğım işlemlerde sürekli veritabanını kullandığı için 60000 tweet'i 3 günde zor bitirdi.
Sürekli veritabanı yerine dizi ve list kullansam büyük ihtimalle daha hızlı olur. Fakat hangisi daha hızlı olur, dizi mi list mi?
Dediğim gibi projeyi bitirdim, teslim ettim

