Parquet ფაილი არის hdfs ფაილი, რომელიც უნდა შეიცავდეს ფაილის მეტამონაცემებს. ეს საშუალებას გაძლევთ დაყოთ სვეტები მრავალ ფაილად, ასევე გქონდეთ ერთი მეტამონაცემების ფაილი, რომელიც მიუთითებს მრავალ პარკეტის ფაილზე. მეტამონაცემები მოიცავს სქემას ფაილში შენახული მონაცემებისთვის.
როგორ შევქმნა სქემა პარკეტის ფაილისთვის?
პარკეტის ნიმუშის მონაცემების სქემის შესაქმნელად, გააკეთეთ შემდეგი:
- შედით Haddop/Hive ყუთში.
- ის აგენერირებს სქემას stdout-ში შემდეგნაირად: -------------- [~] parquet-tools schema abc.parquet. შეტყობინების hive_schema { …
- დააკოპირეთ ეს სქემა ფაილში. პარკეტი/. პარამეტრის გაფართოება.
მხარს უჭერს პარკეტი სქემის ევოლუციას?
სქემის შერწყმა
პროტოკოლის ბუფერის, Avro და Thrift-ის მსგავსად, პარკეტი ასევე მხარს უჭერს სქემის ევოლუციას მომხმარებლებს შეუძლიათ დაიწყონ მარტივი სქემით და თანდათან დაამატოთ მეტი სვეტი სქემა საჭიროებისამებრ. ამგვარად, მომხმარებლებს შეუძლიათ დაასრულონ მრავალი პარკეტის ფაილი განსხვავებული, მაგრამ ურთიერთთავსებადი სქემებით.
აქვს პარკეტის ფაილებს მონაცემთა ტიპები?
Parquet ფაილის მონაცემთა ტიპები ასახავს ტრანსფორმაციის მონაცემთა ტიპებს, რომლებსაც მონაცემთა ინტეგრაციის სერვისი იყენებს მონაცემთა გადასატანად პლატფორმებზე. პარკეტის სქემა, რომელიც თქვენ მიუთითებთ პარკეტის ფაილის წასაკითხად ან ჩასაწერად, უნდა იყოს პატარა ასოებით.
როგორია პარკეტის ფაილის სტრუქტურა?
პარკეტის ფაილები არის შედგენილი მწკრივების ჯგუფები, სათაური და ქვედაბოლო თითოეული მწკრივის ჯგუფი შეიცავს მონაცემებს იმავე სვეტებიდან. ერთი და იგივე სვეტები ინახება მწკრივების ჯგუფში ერთად: ეს სტრუქტურა კარგად არის ოპტიმიზებული როგორც სწრაფი შეკითხვის შესრულებისთვის, ასევე დაბალი I/O (მინიმიზაცია სკანირებული მონაცემთა ოდენობისთვის).