Archive for the 'Обработка данных' Category

CDO (Climate Data Operators) — рабочая лошадка для обработки netCDF файлов

Задача: проводить манипуляции с файлами формата netCDF, в том числе осреднение и выборку по различным осям, установку временной оси, интерполяцию полей, объединение и разделение файлов.
?нструмент: CDO (Climate Data Operators)

Причина, по которой я так долго тянул с постом о cdo, наверное в том, что они настолько незаметны и настолько часто мной используются, что я практически забываю об их существовании, воспринимая больше просто как некие обычные команды шела. Однако без них жизнь человека работающего с netCDF (а также GRIB) файлами становится гораздо неуютнее. На сегодняшний день существует около 400 операторов, позволяющих проводить первичную обработку файлов. Как бы я не любил Python, поручить ему обработку террабайтов информации значит обречь себя на очень долгое ожидание, тогда как cdo, написанные на C++, справляются с крупномасштабными задачами сравнительно быстро, при этом обладают очень простым для понимания синтаксисом.

В посте я расскажу об установке CDO под Ububtu 10.04 и Windows (да, они есть и под винду) покажу как пользоваться несколькими наиболее популярными их функциями.
Read more »

F2PY — ускоряем вычисления в Питоне в 500 раз

Лирическое отступление:

Сегодня у меня радостное событие, мне подарили новогодний подарок. Как известно лучший подарок это подарок сделанный своими руками, так и поступил Михаил ?ткин из ?нститута Метеорологии им. Макса Планка, подарив мне эту статью. Большое тебе, Миша, человеческое спасибо ) Если у кого появится подобное желание по поводу и без повода — пишите на koldunovn@gmail.com

Собственно статья:

Чистый питон очень сильно проигрывает низкоуровневым языкам программирования, длинные циклы могут замедлить выполнение программы на пару порядков. Часто узкие места можно обойти используя пакеты вроде numpy, в них функции написаны с использованием С? и Фортрана. Функционала numpy или PyNGL хватит для большинства рутинных задач, но если нужно применить вычисление к каждому элементу массива или, не дай бог, к «бегущему окну» — двигающемуся массиву меньшего размера, то придётся писать рутину самому.

Read more »

Массивы в scipy (numpy), шпаргалка.

Массивы SciPy

Решил перевести славную шпаргалку по массивам в scipy. Под катом
Read more »

VirtualBox образ системы для океанологов на основе Ubuntu

Задача: Сделать образ Linux системы, содержащей уже установленные программы для океанологов, которым мог бы пользоваться самый прожженный виндузятник.

?нструменты: VirtualBox

К сожалению большинство программ популярных у океанологов и людей к ним приближенных совершенно не популярны у остальной части человечества. Не популярны до такой степени что дистрибутивы типа Ubuntu их в себя не включают, то есть практически мало вероятно что вы сможете выполнить

sudo apt-get install cool-ocean-soft

и получить желаемый результат. Более того, зачастую даже для немного продвинутого в *nix системах человека правильно поставить некоторый океанологический софт представляется задачей нетривиальной. Он даже может после пары часов (в лучшем случае дней) плюнуть на это дело. Если же человек сидит на Виндоуз, то от него потребуются и вовсе титанические усилия, связанные с дополнительными трудностями перехода на новую систему.

Чтобы хотя бы частично избавиться от вопросов типа «почему у меня PyNGL на новой Убунте не устанавливается?» и «что прописать в .bashrc чтобы заработал Ferret» я решил создать образ системы в которой все основные программы о которых рассказывается на koldunov.net были бы уже установлены и работали.

За основу был взят LTS дистрибутив Ubuntu 8.04 . Программы были проинсталированы и более-менее проверены на работоспособность. В результате получился образ системы для VirtualBox, который вы можете развернуть как под Линукс, так и под Виндоуз.
Read more »

Визуализация кластерного анализа в Python (модули hcluster и matplotlib)

dendrogram_hcluster_small.png
Задача: провести кластерный анализ и его результат представить в виде дендрограммы.
?нструменты: модули hcluster, matplotlib

Это короткий пост больше для того, чтобы не забыть чем для того, чтобы рассказать в подробностях о том, что происходит.
Допустим у нас есть набор данных и мы хотим посмотреть не образуют ли некоторые из этих данных группы и если да то какие. После чего мы хотим отобразить эти наши группы и отношения найденные между ними так, как это показано на картинке. Такой вид графиков называется дендрограмма. Обе эти задачи поможет нам решить модуль hcluster, который является частью SciPy.
Read more »

Создание netCDF файла из бинарных при помощи PyNIO

Задача: перевести данные из бинарного формата в netCDF
?нструменты: PyNIO

В одном из предыдущих постов я рассказывал почему бинарники это далеко не всегда хорошо и зачем нам бывает нужно перевести их в формат netCDF. Там я приводил пример того как можно это сделать при помощи NCL. Здесь я рассмотрю способ который возможно подойдёт большему количеству народа, поскольку не предусматривает установку NCL, а даёт возможность воспользоваться уже установленным в составе PyNGL модулем PyNIO. Этот модуль предназначен в частности для открытия и создания netCDF файлов, и по моим впечатлениям делает это гораздо более простым способом чем NCL (хоть PyNGL и производная NCL :)).
Read more »

Создание netCDF файла из кучи бинарных при помощи NCL

nc_arctic_sea_ice.pngЗадача: взять данные, которые распространяются в виде жуткой кучи бинарников и сделать из неё один красивый, легко обрабатываемый файл netCDF
?нструмент: NCL

В незапамятные времена, когда интернет у всех был медленным и дисковое пространство было на вес золота, королём форматов для распространения данных был, так называемый, бинарный формат. Это обычная последовательность нулей и единиц, которая не содержит в себе никакой информации о данных находящихся внутри. Чтобы «расшифровать» его вам нужно добыть информацию о структуре файла, о порядке байтов (endianness), о типе данных (float, integer), о том не умножены ли данные на какое-нибудь значение, что за единицы измерения используются, что за координаты, за какую дату и время эти данные и так далее и тому подобное. Геморрой. Единственное достоинство бинарного формата это размер получающихся файлов, он сравнительно мал.

Прогресс не стоял на месте и были изобретены, так называемые, self-describing форматы, одним из которых является netCDF. Преимущество этих форматов в том, что вам не надо пытать создателей файлов для того, чтобы получить информацию о его содержании, в идеале вся необходимая информация должна уже содержаться в самом файле. Это позволяет создавать приложения однообразно работающие с различными данными представленными в self-describing форматах, а не заново изобретать велосипед для каждого нового бинарника.

Размер файлов netCDF больше чем бинарных, но если это было очень важным в 90е, то в 2000х большинству нет разницы качать один или два мегабайта, телефонные модемы постепенно вымирают и слава богу. Тем не менее, некоторые несознательные граждане продолжают предоставлять данные в бинарном формате, то-ли по привычке, то-ли ленясь изменять схемы обработки, работающие с 90х (работает, не трогай). Ещё одной причиной может быть то, что создание правильного netCDF файла это не самая простая задача (в отличии от его чтения).

Далее я приведу код для довольно простого создания netCDF файла из бинарных при помощи языка программирования для наук о Земле NCL о котором я рассказывал в одном из предыдущих постов.
Read more »

Создание карты для Google Earth при помощи Python

sst_ge_koldunovnet_top.pngЗадача: отобразить наши данные на Google Earth
?нструменты: Python, PyNGL, convert

Я почему-то всегда думал что создание карт для Google Earth это занятие для избранных. С такой помпой очередной институт всегда анонсировал что его данные теперь и на Google Eatrh, что мне казалось группа программистов денно и ношно трудилась над этой непростой задачей год и вот теперь, наконец, долгожданный .kml файл увидел свет.

При ближайшем рассмотрении всё оказалось просто до тривиальности.

Собственно создание карты будет проводиться при помощи PyNGL, питоновского модуля позволяющего отображать двумерные данные на карте. Основы работы с этим модулем описаны в данном блоге и могут быть найдены по тегу PyNGL.
После мы обрежем карту при помощи convert и создадим простейший .kml файл, который и «натянет» наше изображение на Google Earth.

Поехали.
Read more »

NCL — язык программирования для наук о Земле

ncl05.pngЗадача: проводить анализ гео данных и их визуализацию средствами одного инструмента
?нструмент: NCL (NCAR Command Language)

Моделирование атмосферы, океана а также других элементов земной системы уже в начале 90х годов было развито довольно хорошо и стало производить такое количество данных, что для обработки всего этого зоопарка переменных потребовалось создать специальный язык.
NCL это интерпретируемый, объектно ориентированный язык программирования, который предназначен специально для людей занимающихся анализом данных привязанных на сетку связанную с географическими координатами, попросту говоря с Землей, и в особенности модельеров. Не могу не заметить что NCL это прародитель так нежно любимых мною PyNGL/PyNIO.

В дополнение к обычным свойствам, присущим языкам программирования, NCL также обладает средствами для манипуляции метаданными, тонкой настройки визуализации, импорта данных в различных форматах широко используемых в геонауках и поддержкой матричной алгебры.

В NCL включены более 600 функций и процедур облегчающих жизнь человека который видит перед собой террабайтные массивы данных и понимает что что-то с этим ему придётся делать иначе диплома не видать как своих ушей. Среди них:

  • те что используются специально с климатическими и модельными данными
  • для расчёта эмпирических ортогональных функций, трансформаций Фурье, сингулярного разложения, осреднения, стандартного отклонения, синусов, косинусов, логорифмов, минимумов, максимумов и так далее.
  • получения и трансформации временной информации
  • отображения примитивов (линий, залитых площадей, маркеров), спецсимволов для метеокарт, изоповерхностей и других графических объектов
  • интерполяция, аппроксимация и регридинг в одном двух и трёх измерениях
  • облегчённый анализ скалярных и векторных значений глобальных геофизических величин

Сегодня я расскажу как поставить NCL и написать в нём несложную программу.
Read more »

Ferret — инструмент для анализа гидрометеорологических данных

Ferret - инструмент для анализа гидрометеорологических данныхЗадача: быстро анализировать данные, проверять догадки, создавая карты пространственного и временного распределения характеристик в различных комбинациях
?нструмент: Ferret

Ferret — это интерактивная среда для визуализации и анализа больших наборов метеорологических и океанологических данных, то есть, он может работать с любыми гридированными данными, будь-то вывод моделей или спутниковые продукты. Работает ferret по утверждению создателей на всём, но под виндоуз вам придётся попотеть, чтобы его завести. Можно обрабатывать данные как находящиеся на вашем компьютере, так и данные лежащие в интернете при помощи протокола OPeNDAP. Ferret предлагает подход подобный тому, что используется в пакете Mathematica: новые переменные создаются интерактивно как математические выражения. Расчёты могут быть сделаны для произвольно выбранных районов.

Несмотря на то, что разработчики уверяют, что их детище производит иллюстрации качества пригодного для использования в научных публикациях, это, на мой взгляд, не так. Хоть некоторые действительно вставляют графику Ferret в свои работы, на мой взгляд до уровня PyNGL или GMT ей как до луны. Но, в роли инструмента для анализа ferret очень удобен и тут можно закрыть глаза на качество вывода. Для того, чтобы проверить свою гипотезу или взглянуть на то, не слишком ли далеко модель отдрейфовала от реальности, совсем не нужно располагать графикой высшего разряда, вполне достаточно адекватных картинок. Тут главное, чтобы вы могли создавать эти картинки быстро и интерактивно, а в этом ferret мало кому уступит первенство.
Read more »

← Предыдущая страницаСледующая страница →