ИНСТРУМЕНТЫ ДЛЯ РАБОТЫ С ОТКРЫТЫМИ ДАННЫМИ
Версия для начинающих
Существуют 3 категории инструментов, направленных на работу с большими данными:
1) Программное обеспечение:
Подразделяются на языки программирования(Python, Java) и платформы для обработки данных(Apache Hadoop)
2) Платформы визуализации данных:
  • Grafana: Платформа визуализации и мониторинга метрик.
  • Qlik Sense: Инструмент для самообслуживания бизнес-аналитики.
3) Ресурсы для поиска информации и данных:
  • Google Dataset Search: Поиск наборов данных в интернете.
  • Kaggle: Платформа обмена наборами данных.
Важно: Этот список не является исчерпывающим, в официальной версии представлен расширенный ассортимент ресурсов. Выбор конкретных инструментов зависит от специфики проекта, бюджета и опыта команды. Многие инструменты интегрируются друг с другом, позволяя создавать мощные решения для работы с большими данными. Некоторые инструменты являются коммерческими, а другие – открытым программным обеспечением.
Гайд по Python
1
Перейдите на официальный сайт Python — python.org
2
Нажмите на кнопку Downloads, выберите нужную версию и скачайте установочный файл
3
Запустите установщик и следуйте инструкциям. Убедитесь, что установили флажок Add Python to PATH
4
Откройте командную строку (Windows) или терминал (Linux/macOS)
5
Введите команду python и нажмите Enter. Вы попадете в интерактивный режим Python
6
Напишите ваш первый код: print("Привет, мир!")
7
Чтобы выйти из режима, нажмите Ctrl+D или введите exit()
Как работает Hadoop
Hadoop — это система для обработки больших объемов данных на нескольких компьютерах одновременно. Она работает следующим образом:

1. Map (Картирование): Данные делятся на части и отправляются разным компьютерам. Эти компьютеры выполняют первичную обработку данных, например, отфильтровывают ненужную информацию и сортируют её.

2. Shuffle and Sort (Перемешивание и сортировка): Промежуточные данные собираются вместе и сортируются так, чтобы одинаковые элементы были на одном компьютере.

3. Reduce (Редукция): Обработанные данные сводятся в одно целое. Компьютеры получают обработанные данные и объединяют их, создавая конечный результат.

Таким образом, благодаря параллельному выполнению задач на разных компьютерах, Hadoop позволяет быстро и эффективно обрабатывать огромные массивы данных.20:23
Важно: В данном разделе представлены примеры гайдов только нескольких ресурсов, чтобы ввести пользователя в изучение открытых данных.
Видео с дополнительной информацией
Тест
Знаешь ли ты инструменты, связанные с открытыми данными?
Проверьте свои знания и узнайте, насколько хорошо вы знаете инструменты для работы с открытыми данными. Можете ли вы ответить на эти вопросы?
Начать тест
  1. Что является «сердцем» любой работы с данными (ОД)?
Дальше
Проверить
Узнать результат
Какой язык программирования наиболее популярен для работы с данными благодаря своим обширным библиотекам?
Дальше
Проверить
Узнать результат
Какую команду нужно использовать в Python для вывода текста «Hello, world!» на экран?

Дальше
Проверить
Узнать результат
На каком этапе процесса MapReduce происходит распределение и сортировка промежуточных данных?
Дальше
Проверить
Узнать результат
Что делает функция Map в процессе MapReduce?
Дальше
Проверить
Узнать результат
Не очень хорошо
 Похоже, вы не тщательно изучили материал, попробуйте перечитать материал!
Пройти еще раз
Хорошо
Похоже, вы запомнили большую часть материала, но есть к чему стремиться!
Пройти еще раз
Отлично
Вы хорошо изучили материал, можете теперь отдохнуть!
Пройти еще раз
This site was made on Tilda — a website builder that helps to create a website without any code
Create a website