Giter VIP home page Giter VIP logo

big-data's Introduction

SSAU BIG DATA

labs: https://git.ai.ssau.ru/tk/big_data/src/branch/master

  1. Introduction to Apache Spark
  2. Reports with Apache Spark
  3. Stream processing with Apache Flink
  4. ZooKeeper

Вопросы:

Может ли пользователь использовать кэширование в DataFrame API?

Для кэширования DataFrame необходимо вызвать метод cache() или persist() на объекте DataFrame. При этом данные будут сохранены в памяти кластера и будут доступны для последующих запросов. Также можно использовать различные уровни кэширования, например, MEMORY_ONLY, MEMORY_AND_DISK и другие, в зависимости от требований к производительности и доступности данных.

В каком случае может потребоваться метод mapPartitions?

Метод mapPartitions может потребоваться в случае, когда необходимо выполнить операцию над каждой частью (partition) DataFrame, а не над каждой отдельной строкой. Например, если требуется применить функцию к каждому partition и получить новый DataFrame, то можно использовать метод mapPartitions. Это может быть полезно, когда функция имеет высокую стоимость и необходимо минимизировать количество вызовов. Кроме того, метод mapPartitions может использоваться для выполнения операций, которые требуют доступа к локальным ресурсам, таким как файлы или базы данных.

В какой момент начинает выполняться граф обработки?

Граф обработки начинает выполняться в момент вызова действия (action) на DataFrame, например, при вызове метода show() или collect(). До этого момента все операции выполняются в ленивом режиме и формируют граф обработки.

Какие типы времени существуют в Apache Flink?

В Apache Flink существуют следующие типы времени:

  1. Event time - это время, которое связано с событиями, происходящими в реальном мире. Оно может быть получено из данных, которые поступают в систему.

  2. Processing time - это время, которое используется для обработки данных внутри системы. Оно зависит от скорости обработки данных и может отличаться от реального времени.

  3. Ingestion time - это время, которое определяется при поступлении данных в систему. Оно может быть использовано для корректировки временных меток в данных, если они были неправильно установлены при создании событий.

Для чего нужен класс ValueState?

Класс ValueState в Apache Flink используется для хранения состояния значения в операторах, работающих в режиме с сохранением состояния (stateful operators). Он позволяет оператору сохранять значения между различными вызовами оператора, что может быть полезно для решения задач, связанных с агрегацией данных или обработкой потоковых данных. ValueState может хранить значения различных типов данных, таких как числа, строки, объекты и т.д. и обеспечивает быстрый доступ к сохраненным значениям в процессе выполнения оператора.

big-data's People

Contributors

lilpank avatar

Stargazers

Sharky_001 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.