Archive for the 'Визуализация данных' Category

Работаем с метеоданными в Pandas

met06Задача: сконвертировать данные метеостанции по температуре для работы в pandas
?нструмент: pandas

Всё чаще российские метеорологические данные становятся открытыми, что не может не вызывать положительных эмоций. Однако к сожалению все центры данных стремяться придумать свой уникальный формат, и к сожалению каждый раз нужно мучаться с конвертацией.

В этой короткой заметке я покажу как сконвертировать метеоданные (температуру) полученные с сервера ВН??ГМ?-МЦД в pandas DataFrame.
Read more »

Миникурс «Python for Geosciences»

Я прочитал небольшое введение в питон для коллег — «Python for Geosciences». Записки с этой презентации доступны на гитхабе. Чтобы от курса была польза вы должны уже знать какой-либо язык программирования, предпочтительно Матлаб.

Они сделаны в виде IPython notebooks, то есть вы сможете загрузив их себе на компьютер и запустив ноутбук IPython исполнять показанный в записках код. Необходимые для работы библиотеки и способ запуска IPython notebooks описаны в третьей части. Чтобы посмотреть онлайн версии ноутбуков прокрутите гитхабовскую страничку немного вниз, там в ридми файле будет оглавление со ссылками на html версии. Код в этих версиях вы исполнять, конечно, не сможете, доступен только просмотр.

Большая часть этих записок также доступна на сайте EarthPy.org.

Рецензия на книгу «?скусство визуализации в бизнесе»

vizСо мной связались из издательства, и попросили написать рецензию на эту книжку. Я рецензий никогда в жизни не писал, но книжка показалась действительно полезной, так что решил попробовать. Это дебют в жанре, так что не судите строго.

Если вы изучаете специальность, которая предполагает работу с данными, будь то астрономия, океанология, экономика и даже, как ни странно, менеджмент, то покидая университет вы обычно обладаете довольно неплохими теоретическими знаниями. При этом практическая сторона дела для выпускников является тёмным лесом. Однако в повседневной работе собственно теорией вы пользуетесь довольно редко, и большую часть времени приходится уделять практическим вопросам, которые зачастую в университетах не рассматриваются.

Вы может и знаете назубок все необходимые статистические методы, но голова чаще всего у вас будет болеть не о них. Вы, возможно, прекрасно разбираетесь в законах небесной механики, но не они будут вам мешать спать по ночам. Bill Howe, профессор data science из Университета Вашингтона задаёт всем учёным, которым он помогает справиться с современными потоками информации в их областях, один и тот же вопрос: «Сколько времени у вас уходит на обработку данных, а сколько собственно на науку? Большинство отвечает не задумываясь, что на обработку данных у них уходит 90% времени. То есть в основном они занимаются поиском данных, их конвертацией из разных безумных форматов, переформатированием их под свои цели и, наконец, визуализацией.
Read more »

Анализ логов Apache при помощи Pandas и IPython notebook

Apache log analysis with Pandas, mapПотихоньку осваиваю Pandas, питоновский модуль для анализа данных. В процессе сделал довольно подробный ноутбук с примером анализа логов доступа Apache. Цель я преследовал больше образовательную, чем практическую, так что не знаю насколько анализ сделанный там пригодится мне в реальной жизни 🙂

Полностью ноутбук сюда не стал выкладывать по двум причинам: он на английском, а переводить мне пока лень, и я не до конца разобрался как красиво перенести ноутбук в вордпресс, делать это полностью вручную, как с прошлым постом, довольно глупо, долго и выглядит в итоге довольно страшно. Пост с примерами работы в Pandas для новичков надеюсь написать в ближайшем будущем.

Виртуальная машина для работы океанолога на основе Ubuntu 12.04

vmoЗадача: обновить виртуальную машину для работы океанолога.

Пришла пора обновить виртуальную машину до нового LTS релиза Ubuntu 12.04. Под катом список установленного софта, инструкция по установке под виндоуз и советы о том как искать и устанавливать недостающие программы.
Read more »

Ipython notebook. Часть II — пример работы

Задача: Показать ipython notebook в действии. В частности будем рисовать нашу любимую температуру из файла NCEP реанализа.
�?нструменты: ipython notebook, scipy, Basemap

Попробуем использовать ipython notebook, установленный нами в первой части, для чего-нибудь полезного и в процессе ближе познакомимся с его возможностями.
Read more »

Ipython notebook. Часть I — установка в Ubuntu 12.04 и запуск.

Задача: поставить ipython notebook — среду для работы с ipython в браузере, и немножко рассказать о его возможностях.
?нструменты: iptyhon notebook

Думаю, что многим хорошо известен продвинутый питоновский шел ipython. Его создатели большие любители пакета Matematika, и при работе в питоне, они скучали по её рабочей среде, которая реализована в виде записной книжки. Там имеется возможность тут же решить уравнение, отобразить результаты решения, нарисовать график, снабдить всё это текстовым комментарием, а при изменении исходных данных всё пересчитать и перерисовать одним нажатием клавиши.

Примерно с год назад разработчики ipython решили, что так жить больше нельзя, и начали изобретать велосипед разрабатывать свою записную книжку. Да так их понесло, что до сих пор не могут остановиться — очень уж им нравится то, что в итоге получается. Под катом рассказ о том как поставить последнюю стабильную версию ipython notebook под Ubuntu, запустить её и посмотреть примеры. Во второй части я покажу свой пример сеанса работы с notebook.
Read more »

Metview — инструмент для визуализации метеорологических данных


Василий Поддубный прислал мне файл с подробной инструкцией по установке программы Metview под линукс, предположив, что его опыт может пригодиться читателям этого блога. Я, к стыду своему, про эту программу совершенно ничего не знал, и попросил его немножко рассказать о ней. Василий любезно согласился, и под катом вы найдёте его рассказ. Те же, кому и так всё ясно могут скачать файл здесь и заняться установкой программы в убунту, как вы увидите из файла дело это не совсем тривиальное 🙂
Read more »

VirtualBox образ системы для океанологов на основе Ubuntu

Задача: Сделать образ Linux системы, содержащей уже установленные программы для океанологов, которым мог бы пользоваться самый прожженный виндузятник.

?нструменты: VirtualBox

К сожалению большинство программ популярных у океанологов и людей к ним приближенных совершенно не популярны у остальной части человечества. Не популярны до такой степени что дистрибутивы типа Ubuntu их в себя не включают, то есть практически мало вероятно что вы сможете выполнить

sudo apt-get install cool-ocean-soft

и получить желаемый результат. Более того, зачастую даже для немного продвинутого в *nix системах человека правильно поставить некоторый океанологический софт представляется задачей нетривиальной. Он даже может после пары часов (в лучшем случае дней) плюнуть на это дело. Если же человек сидит на Виндоуз, то от него потребуются и вовсе титанические усилия, связанные с дополнительными трудностями перехода на новую систему.

Чтобы хотя бы частично избавиться от вопросов типа «почему у меня PyNGL на новой Убунте не устанавливается?» и «что прописать в .bashrc чтобы заработал Ferret» я решил создать образ системы в которой все основные программы о которых рассказывается на koldunov.net были бы уже установлены и работали.

За основу был взят LTS дистрибутив Ubuntu 8.04 . Программы были проинсталированы и более-менее проверены на работоспособность. В результате получился образ системы для VirtualBox, который вы можете развернуть как под Линукс, так и под Виндоуз.
Read more »

Визуализация кластерного анализа в Python (модули hcluster и matplotlib)

dendrogram_hcluster_small.png
Задача: провести кластерный анализ и его результат представить в виде дендрограммы.
?нструменты: модули hcluster, matplotlib

Это короткий пост больше для того, чтобы не забыть чем для того, чтобы рассказать в подробностях о том, что происходит.
Допустим у нас есть набор данных и мы хотим посмотреть не образуют ли некоторые из этих данных группы и если да то какие. После чего мы хотим отобразить эти наши группы и отношения найденные между ними так, как это показано на картинке. Такой вид графиков называется дендрограмма. Обе эти задачи поможет нам решить модуль hcluster, который является частью SciPy.
Read more »

Следующая страница →