ספּאַרק סטרימינג דאַטן רייניקונג מעקאַניזאַם
(I) דיסטרים און רדד
ווי מיר ווייסן, איז Spark Streaming קאמפיוטאציע באזירט אויף Spark Core, און דער קערן פון Spark Core איז RDD, ממילא מוז Spark Streaming אויך זיין פארבונדן מיט RDD. אבער, Spark Streaming לאזט נישט באניצער ניצן RDD גלייך, נאר אבסטראקטירט א סעט פון DStream קאנצעפטן, DStream און RDD זענען אינקלוסיווע באציאונגען, מען קען דאס פארשטיין אלס די דעקאראציע מוסטער אין Java, דאס הייסט, DStream איז א פארבעסערונג פון RDD, אבער די אויפפירונג איז ענליך צו RDD.
DStream און RDD האבן ביידע עטלעכע באדינגונגען.
(1) האָבן ענלעכע טראַנספאָרמאַציע אַקציעס, ווי map, reduceByKey, אאז"וו, אָבער אויך עטלעכע יינציקע, ווי Window, mapWithStated, אאז"וו.
(2) אַלע האָבן אַקציע אַקציעס, ווי למשל foreachRDD, count, אאז"וו.
דער פּראָגראַממינג מאָדעל איז קאָנסיסטענט.
(ב) הקדמה פון DStream אין Spark סטרימינג
DStream אנטהאלט עטלעכע קלאסן.
(1) דאַטן מקור קלאַסן, ווי למשל InputDStream, ספּעציפֿיש ווי DirectKafkaInputStream, א.א.וו.
(2) קאָנווערסיע קלאַסן, טיפּיש מאַפּטדסטרים, שאַפאַלדדסטרים
(3) אויסגאַנג קלאַסן, טיפּיש ווי למשל ForEachDStream
פון דעם אויבנדערמאנטן, די דאטן פון אנפאנג (אינפוט) ביזן סוף (אויספוט) ווערט געטאן דורך דעם DStream סיסטעם, וואס מיינט אז דער באניצער קען נארמאלערהייט נישט דירעקט דזשענערירן און מאניפולירן RDDs, וואס מיינט אז דער DStream האט די מעגלעכקייט און פליכט צו זיין פאראנטווארטלעך פארן לעבנס-ציקל פון RDDs.
מיט אנדערע ווערטער, ספּאַרק סטרימינג האט אַאויטאָמאַטישע רייניקונגפונקציע.
(iii) דער פּראָצעס פֿון RDD דזשענעריישאַן אין ספּאַרק סטרימינג
דער לעבנס-פלוס פון RDDs אין Spark Streaming איז גראָב ווי פאלגנד.
(1) אין InputDStream, ווערט די באקומענע דאטן טראנספארמירט אין RDD, ווי למשל DirectKafkaInputStream, וואס שאפט KafkaRDD.
(2) דערנאך דורך MappedDStream און אנדערע דאטן קאנווערזיע, ווערט דאס מאל גלייך גערופן RDD קארעספאנדירנדיג צום מאפ מעטאד פאר קאנווערזיע
(3) אין דער אויסגאַנג קלאַס אָפּעראַציע, נאָר ווען די RDD איז אויסגעשטעלט, קענט איר לאָזן דעם באַניצער דורכפירן די קאָרעספּאָנדירנדיקע סטאָרידזש, אַנדערע קאַלקולאַציעס און אַנדערע אָפּעראַציעס.