Информационная проходка

Сбор данных в Интернете на языке R

Всё, что регистрирует человек и созданные им машины, может считаться данными. Фиксируя новое и переводя архивы в цифровую форму, мы с каждым днём производим всё больше данных. Но гораздо чаше случается так, что

Обработка неструктурированных текстов. Поиск, организация и манипулирование

В книге описаны инструменты и методы обработки неструктурированных текстов. Прочитав ее, вы научитесь пользоваться полнотекстовым поиском, распознавать имена собственные, производить кластеризацию, пометку, извлечение информации и автореферирование. Знакомство с фундаментальными принципами сопровождается изучением реальных

Изучаем Spark. Молниеносный анализ данных

Объем обрабатываемых данных во всех областях человеческой деятельности продолжает расти быстрыми темпами. Существуют ли эффективные приемы работы с ним? В этой книге рассказывается об Apache Spark, открытой системе кластерных вычислений, которая позволяет быстро

Статистический анализ и визуализация данных с помощью R

Сегодня язык R является безусловным лидером среди свободно распространяемых систем статистического анализа. Ведущие университеты мира, аналитики крупнейших компаний и исследовательских центров регулярно используют R при проведении научно-технических расчетов и создании крупных информационных проектов.

Анализ больших наборов данных

Эта книга написана ведущими специалистами в области технологий баз данных и веба. Благодаря популярности интернет-торговли появилось много чрезвычайно объемных баз данных, для извлечения информации из которых нужно применять методы добычи данных (data mining).

Библиометрические индикаторы. Практикум

В практикуме рассматривается ряд библиометрических индикаторов, связанных с цитируемостью научных публикаций: импакт-фактор (двухлетний, пятилетний, совокупный, средневзвешенный, относительный), средняя цитируемость статей организации/автора, средняя нормализованная цитируемость (с нормализацией по областям науки и по журналам), SNIP,

Скрапинг веб-сайтов с помощью Python

Изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета в любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API,

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Насколько велики на самом деле «большие данные» — огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых

Методы и алгоритмы анализа данных и их моделирование в MATLAB

Рассматриваются модели, методы и алгоритмы анализа данных, используемые в современных системах обработки информации. Приводятся основные понятия и определения общей теории информационных систем, анализируется типовая структура систем извлечения информации и систем обработки информации, рассматриваются

Наглядная статистика. Используем R!

Если вам необходима статистическая обработка данных для курсовой, диплома, статьи или диссертации; вы хотите лучше понимать результаты тех статистических методов, которые применяете; вы устали от того, что программы анализа данных не способны выполнить

Основы Data Science и Big Data. Python и наука о данных

Data Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных. Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы