Визуализация на данни от трета вълна

Разбиране на конвергенцията на инструменти, аудитории и режими

Това е запис на моята основна бележка от конференцията за гоблени 2018 г. (по-горе). Можете да видите слайдовете (от които получих много от изображенията по-долу) с бележки за високоговорители тук.

Представете си какво беше да правиш визуализация на данни преди 30 години. Това е 1988 г. и използвате Excel 2.0 за прости диаграми като пай диаграми и линейни диаграми или може би нещо като SPSS за по-сложно проучване и Arc / Info за визуализация на геопространствени данни. Някои видове диаграми, които са станали доста повсеместни, като дървената карта, все още не са изобретени. Но през 1988 г. визуалното показване на количествена информация на Едуард Туфте беше вече на пет години.

Кадри на анализатори, работещи с Excel 2.0, за да направят диаграми на пай c. 1988

А сега си представете какво е било да направите визуализация на данни преди 15 години. Нямаше D3, няма Tableau, няма ggplot или дори Prefuse / Flare. Ако искате да направите визуализация на мрежата, може да използвате новоиздадения Cytoscape, въпреки че е фокусиран върху биоинформатиката. Геопространствените опции бяха по-усъвършенствани, като ArcGIS осигуряваше все повече и повече картографски функции в множеството си червени кутии с инструменти.

Разликата в традициите, подкрепящи визуализацията на геопространствените данни и визуализацията на мрежовите данни: през 2003 г. тя вече беше версия 8.0 на ArcGIS, докато същата година бе пуснат първият модерен инструмент за визуализация на мрежови данни: Cytoscape.

Знам колко се е променила визуализацията на данни, защото прекарах последните десет години или така правех продукти за визуализация на данни под една или друга форма. Голяма публична работа като ORBIS и Kindred Britain, както и по-малко визуализация на публични данни за забавление или за подкрепа на изследвания, анализи и проучвания. Заедно с практическата работа, правеща визуализация на данни, написах книга за най-мощната библиотека за визуализация на данни в света днес: D3. И тогава отново написах тази книга. През последната година създавам собствена библиотека за графики, Semiotic. Също така провеждам ежегодно проучване на специалистите по визуализация на данни през последните две години. И по начина, по който съм писал за визуализацията на данните тук на Medium.

Ето защо не бях поканен да дам основна бележка в гоблена. Бях поканен, защото правя запалени коментари в социалните медии, в интервюта и от време на време в разговори. Отдавна казвам, че трябва да сме по-удобни с критиката във визуализацията на данни, но без контекст забележките, които правя, могат да изглеждат произволни и средно настроени.

Така че бях щастлив, че имах тази възможност да дам контекст и да изразя загрижеността си, че е налице сближаване на инструменти и режими, но няма съответна реорганизация на мисълта и практиката. Изглежда, че все още говорим и оценяваме визуализацията на данни, сякаш това беше 1988 или 2003 г., когато броят на хората, които правят визуализация на данни, възможностите на техните инструменти и очакванията на аудиторията си, драстично се увеличи.

Продължаваме да разделяме общността за визуализация на данни на стари категории като анализатори, използващи BI инструменти за създаване на отчети, разработчици, използващи код за извършване на визуализация на персонализирани данни, журналисти, създаващи базирани на данни истории или учени, използващи проучвателен анализ на данни. В рамките или между тези групи имаме артисти на данни, професионални учени, бизнес анализатори и производители на инструменти от вида, който бихме могли да видим обезсмъртен в карикатурите на Сузи Лу. Тези категории практики директно се съпоставят с конкретни инструменти и режими, които от късно започнаха да се трансформират.

1-ва вълна: Яснота

И така бих искал да предложа, че в съвременния смисъл на визуализация на данни имаше 1-ва вълна, съсредоточена върху Едуард Туфте, която подчерта яснотата, простотата и директното картографиране на точки от 1 към 1, като се избягва възможно най-голяма трансформация , От тази епоха наблюдаваме възхода на спартанските цветови схеми - често фокусирани върху неутрални или десатирани цветове с един отличителен цвят - значението на етикетите и заглавията на естествен език и своеобразна идеализация на перфектната диаграма, която е веднага четена, достъпна и изпълнима , Един вид диаграма с изречение с ясни структури и правила, каквито може да видите в Елементите на стила.

Вълна 1: Яснота

Втора вълна: Системи

Втората вълна се фокусира върху систематизирането на кодирането на информация, необходима за разработването на инструментариум за производство на визуализация на данните. Тя е съсредоточена върху най-влиятелната работа по тази тема: Граматиката на графиката на Леланд Уилкинсън. Вместо диаграмата като езикова аналогия, тя е диаграма като екструзия от валидна спецификация. Граматиката на графика се стреми да даде възможност на хората да създадат графичен ансамбъл и ако разгледаме някоя библиотека за визуализация на данни, включена и моя собствена, и виждаме тази философия в действие.

Тези инструменти и библиотеки рекламират огромни количества примери и изчезва внимателното използване на цвят и текст, заменено с любовно писмо до геометрията. Целият подход „например“ е толкова вграден в тези инструменти, че Майк Босток е написал цяло парче върху него.

Вълна 2: Системи

D3, като всички инструменти от този период, е пряко вдъхновен от или силно повлиян от Граматиката на графиката. Semiotic, Victory, Highcharts, Plotly: Всички те идват от или самите са силно повлияни от D3. Двете g в Граматиката на графиката е мястото, където ggplot получава своето име. Авторът на Лиланд Уилкинсън беше главен учен в Табау. Граматиката на графиката се фокусира по бръснач върху кодирането на данни чрез канали върху геометрията. Това е система за кодиране на графики от данни, където атрибутите на данните съответстват и динамично влияят на дължината, ъгъла, цвета или позицията (или всеки друг графичен символ) въз основа на данните и промените в данните.

Вълна 2 замисляше използването на тези теоретични системи и създаването на необходимите инструменти за всеки практикуващ визуализация на данни за създаване на графичен израз на базата на данни. Това е чудесно за инженери и софтуерни архитекти, които се опитват да създадат библиотеки, за да позволят визуализация на данни, но не е задължително за практикуващи, създаващи продукти за визуализация на данни. Ето защо видяхме такова разпространение на инструменти и библиотеки за визуализация на данни, но едновременно увеличаване на отвратителни графики, представящи се като графики.

Търсенето на перфектна спецификация за кодиране на атрибути на данни чрез графични канали е средство за постигане. Но силата и успехът на системите, изградени през този период, се превърнаха сами в себе си, което е в основата на основното предписание на Граматиката на графиката:

Тази система е в състояние да произвежда някои отвратителни графики. ... Тази система обаче не може да създаде безсмислена графика.

От това Уилкинсън означава, че има логическа връзка между графиката и данните, но това, че графиката има някаква „рецепта“, не означава, че по някакъв начин „не е безсмислена“. Визуализацията на данни е форма на комуникация и ако създавате отвратителни диаграми, това означава, че са нечетливи и това означава, че са безсмислени.

Визуализацията на данни е форма на комуникация и ако създавате отвратителни диаграми, това означава, че са нечетливи и това означава, че са безсмислени.

Визуализация на данните от втората вълна, с липсата на акцент върху дизайна в полза на системите, създадени гора от ужасни табла и доклади. Всеки инженерен отдел във всяка компания има поне една грозна диаграма в реално време, написана с някаква рамка, изградена на D3. Всеки изпълнителен директор има дузина табла за табла, пълни с раздели и изгледи на едни и същи 10-цветни дезацерени линии. Виждаме скрийншоти от това, което е привидно проучвателният анализ на данни, попаднал в документи или интегриран в табла за управление, без смисъл от оптимизация. Всичко това се случва въпреки нарастващия паритет на характеристиките между технологиите.

3-та вълна: конвергенция

Имаме отчаяна нужда да преоценяваме и преименуваме режимите си. Преди 5 или 10 години какъв вид визуализация на данни сте направили - независимо дали е табло, бележник, отчет или поръчана комуникационна част - беше много различно в зависимост от езика, библиотеката или инструмента, който използвате. Това вече не е така.

Трябва да си представим нови подходи, които признават, че конвергенцията не се случва само във възможностите на инструментите, но и в очакването на потребители, които вече не са готови да приемат, че трябва да излязат от един режим, за да оптимизират за друг. Това означава да изместим нашия акцент от отделните схеми към изграждането, оценяването и доставката на продуктите, където се появяват тези диаграми.

Платформата nteract notebook се рекламира не само за традиционните потребители на преносими компютри (изследователи и учени за данни), но и за широка аудитория, интересувана от нещо повече от

Преносимите компютри стават все по-подобни на таблото за управление, таблата за управление стават все по-приказки и като цяло има нарастващо кръстосано опрашване и конвергенция между медиите / режимите. Можете да правите красива графика с R, можете да имате йерархични диаграми в Tableau, можете лесно да разгърнете отчети по имейл от персонализираното си табло.

В Netflix експериментираме с аналитични преносими компютри, предназначени не за проучвателен анализ на данни, а за визуализация на обяснителни данни и нуждите за сътрудничество и комуникация, необходими в този режим. Техниките за разказване на истории, общи за журналистиката на данните, са най-важни за заинтересованите страни, които са се усъвършенствали във вкуса си и очакват уредена анимация и персонализирани референтни рамки.

Има все повече и повече от тези тенденции, които трябва да разберем по-добре:

  • Някога типовете езотерични диаграми, като дървесни карти и диаграми за връзка с възел, сега са толкова достъпни, че се появяват навсякъде, а сега е необходима наистина странна диаграма, която да бъде обявена за ксенографска.
  • Тетрадките се използват като табла за управление, а също и като артефакти в процеса на проектиране и трансформиране на данни.
  • Визуализацията на данни в R стана почти толкова здрава и интерактивна, колкото визуализацията на данни в BI инструменти или персонализирани приложения.
  • Хората стават все по-удобни със стилизирана визуализация на данни (схематична, но и ISOTYPE).

Накъде сме се насочили?

Всички тези фактори допринасят за това, което мисля, че ще определи трета вълна на визуализация на данни, където режими като преносими компютри, табла за управление и дълги форми на разказване на истории, както и инструментите за създаването им и грамотността на аудиторията, за която са създадени. Това се случва от известно време и ние реагирахме на него, но мисля, че е време активно да помислим какво означава това.

Clickbait Charts

Това изисква да се отдалечим от очакването, че правим изолирани диаграми, оптимизирани за незабавна четимост. В момента оценяваме и празнуваме визуализацията на данни, която е проектирана и оптимизирана за едно посещение. Това е добре, но трябва също така да популяризираме и оценим и разберем по-добре визуализацията на данни, проектирана и оптимизирана за множество посещения. Потребителският интерфейс и UX трябва да бъдат първокласни проблеми и интерактивността не може да бъде просто атрибут на геометрията. За да направим това, трябва да се отдалечим от модела на изолирания гений, създаващ по поръчка визуализация на данни и да внесем най-добри практики от съвместни проекти, общи за по-голямата общност за разработка на софтуер.

Подпомагане на критиката

Лесно е да омаловажавате някаква 3D диаграма с пай или най-новата „невероятна карта“. Това може да изглежда така, как е позиционирана последната точка, но не е, това е опит да ни накара да не само да отпразнуваме това, което е много за визуализацията на данните, но и да говорим честно какво е лошо. Трябва да направим повече от това, ако искаме да продължим напред като общност. Но критиката е трудна - трудно се чува и трудно се дава добре.

Част от причините да сме толкова лоши в даването, вземането и насърчаването на критика е, че визуализацията на данни отдавна е индивидуалистичен стремеж. Другата причина, поради която не сме толкова добри в критиката, е, че нашата е общност на празнуване. Но празнуването не е изцяло положителен акт, когато разделя и екзотизира мощни механизми за ускоряване на комуникацията чрез последиците, че те са достъпни само за журналисти или на свободна практика.

Отчасти мисля, че това има връзка с акцента ни върху отделните канали в академичната литература. Ние сме много удобни за критикуване на пай диаграми, защото знаем, че ъглите са лоши в кодиращата стойност. Но ни липсват указания как да оценим по-цялостно, така че да не сме в състояние да обясним защо някои кодиращи избори, макар и да не са оптимални поотделно, могат да се окажат ценни на практика. Ние също не знаем как да оценим обжалването, така че ни липсва езика или структурата, за да обясним защо хората харесват оразмерените кръгове в сюжетните граници и градуираните символни графики толкова лесно, колкото можем да обясним защо кръговете са лош избор за стойност на кодиране.

Редизайн на класацията на Джорджия Лупи от Алберто Кайро от The Functional Art.

Друга причина, поради която не сме много добри в критиката, е, че имаме този много изявен модел на критика (подкрепян от Алберто Кайро, както и Фернанда Вигас и Мартин Ватенберг), който предполага, че най-добрият начин да критикуваме ази е да го преосмислим. Въпреки че това е ценен подход, той е толкова скъп за труда и интелектуалните инвестиции, че го прави естествено по-рядък, отколкото просто посочване на неща, които не работят в продукт за визуализация на данни. Наред с този подход трябва да насърчаваме и повишаваме нивото си на комфорт с по-малко ангажирани форми на критика.

Не можем просто да направим това, като напишем куп мисли за критика, макар че би било хубаво да имаме няколко таксономии на критика, като ние имаме таксономии от класации. Трябва активно да работим за развитието на нашата общност, която да бъде място, където да даваме, получаваме и моделираме критичен дискурс. Последният материал на Бен Джоунс за изграждането на здравна общност за визуализация на данни предоставя някои добри насоки, базирани на реалния опит, който всички трябва да следваме.

Разберете дизайн

Някои свързани с дизайна резултати от проучването за визуализация на данни за 2018 г.

Отговорите на анкетите и разговорите показват, че дизайнът е важна тема за подобряване на практиката за визуализиране на данни. Но практикуващите изразиха объркване относно това какво означава дизайн. Имаме предвид графичен дизайн? UI дизайн? Общи концепции за дизайнерско мислене? Информационен дизайн? Има липса на меки дизайнерски подходи във визуализацията на данни, които могат да бъдат научени и научени от професионалисти в ранната кариера.

Възхитителни цветове и gif-ове като тези, които се намират във визуализацията на данни на Nadieh Bremer в Dragonball Z или прости хакове като прекъсване на линията „навсякъде“ са трикове, за които може да се чувстваме мръсни, но могат да се окажат критични за привличане на потребителите към четене и взаимодействие с вашия продукт за визуализация на данни.

Приемете икономиката на вниманието

Мисля, че денят на „съзнанието на очите“ бързо наближава.
- Ото Норат

Когато за пръв път дойдох в Netflix от Станфорд, наивно си помислих, че тъй като това е бизнес, служителите ще бъдат принудени да използват и да научат визуализацията на данните, която направих. Бързо разбрах, че това не е така. Собствената култура на Netflix беше против подобни диктаторски мерки, но още повече, моите заинтересовани страни се опитваха да вземат критични решения и продуктите ми за визуализация на данни се конкурираха с десетина или повече други табла и доклади.

В резултат на това работата, която извършваме вътрешно в Netflix, използва изображения, gifs, игрив цвят и нови визуални методи, за да зарадва потребителите. Макар че общата забрана срещу диаграмата е добро правило, като всички неща тя може да се прилага твърде стриктно. По-декоративен подход, който признава съществуването на икономика на вниманието дори в организация, базирана на данни, ще доведе до по-ефективна визуализация на данните.

Нова кръв

Вече преминахме през един разхвърлян период, в който нашата общност почувства нуждата радикално да се дистанцира от по-старото ръководство, до степен, че блокирането в Twitter от Едуард Туфте се превърна в своеобразен обред за преминаване. Не бива да го правим, за да чуваме и усилваме нови гласове. Трябва да идентифицираме и активно да популяризираме нови гласове в ръководството за визуализация на данни.

Кои са лидери за визуализация на данни от трета вълна? Кой се възползва от новите възможности, представени от сближаването на режимите, аудиториите и инструментите? Как изглежда тази нова творба? Дали тетрадките с функции на табла за управление и задвижвани от данни разкази на истории, като науката за боба на Кристи Вонгсуфаусат? Нови подходи ли са към графичните инструменти като Charticulator? Или използването на R за направата на графики за визуализация на данни за новините, като тази, която се вижда в работата на Джон Бърн-Мърдок? Или dataviz в стил Giorgia Lupi в Tableau като Нийл Ричардс? Или това е размитата граница между визуализация на данни, маргинали, анимационни филми и текст, гледани в INFO WE TRUST? Или е невероятният ръчно рисуван подход на Мона Чалаби? Или е нещо друго?

Едно е сигурно, имаме примери за онези, които са се оптимизирали за минали най-добри практики, сега имаме нужда от тези, които олицетворяват нова вълна на визуализация на данни.