Как строится дерево целей


как составить и где применять

Цели — есть то, что движет нами в рабочем пространстве. Главная задача рабочего дня — приблизиться к поставленным целям, причем не только компании, но и своим собственным. В этом непростом деле поможет метод дерева целей.

Построение дерева целей

Итак, мы все прекрасно помним метод SMART при формулировке целей. Коротко напомним о нем; цель должна быть:

  1. Конкретной (Specific).
  2. Измеримой (Measurable).
  3. Достижимой (Achievable).
  4. Значимой (Relevant).
  5. Ограниченной во времени (Time bound).

Работа с построением дерева целей производится уже на сформулированной цели, а не с ее зачатками. После формулировки SMART начинаем разбивать цель на шаги.

Чтобы составить грамотное дерево целей, вы должны запомнить одно очень важное правило — длительность каждой задачи не должна превышать 1 час. Таким образом, начинаем разбивать цель на подзадачи.

Безусловно, первые подзадачи будут длиться дни, месяцы, а в некоторых случаях и целые годы. Продолжаем их разбивать на подзадачи, уменьшая длительность каждого выполнимого дела. Создание дерева целей набирает обороты!

Таким образом, через некоторое время у вас должно получиться огромное количество задач, длительность которых не превышает 1 час. Проще всего смастерить такое дерево целей в программе ЛидерТаск, т.к. разработчики внедрили неограниченную вложенность задач, что очень важно в работе по этой методике.

Что делать с деревом целей?

Итак, сама структура построена, что делать дальше? А дальше необходимо раскидать задачи по дням, дабы обеспечить их выполнение. В ЛидерТаске это можно сделать посредством драг-н-дропа, т.е. просто перенеся задачу на конкретный день в календаре.

В программе вы сможете отследить, на какой стадии реализации находится ваша цель, когда будет выполняться та или иная задача, а главное — выделить свободные дни и улучшить собственное управление временем.

Дерево целей проекта строится ровно по такому же принципу: сначала формулируется цель, а затем она разбивается на мелкие подзадачи. Но тут уже возникает иной фактор — поручения.

Как реализовать проект при помощи дерева целей

В каждом проекте есть целый отряд исполнителей, который берет мельчайшие точки его решения на себя. Например, дизайнеры создают дизайн или макет финального продукта, маркетологи обеспечивают его контентным наполнением и т.д.

Именно так следует поступить с поручениями подзадач в проекте. После того, как вы обеспечили создание дерева целей, начинайте поручать задачи сотрудникам. И опять же — в ЛидерТаске такой функционал реализован «на ура»:

  1. В ЛидерТаске всегда видно, кто за какой участок проекта несет ответственность.
  2. По каждой из задач вы можете общаться с исполнителем во встроенном чате.
  3. Другие участники проекта также могут иметь доступ к документам других исполнителей. А могут и не иметь.
  4. При помощи инструмента «Диаграмма Гантта» вы всегда сможете отследить, на каком этапе находится реализация проекта.

Вот так просто можно работать с деревом целей в проектном менеджменте вашей организации.

Дерево целей компании

Тут дела обстоят куда сложнее, ведь цели компании — гораздо масштабнее проектных составляющих. Отсюда вывод: придется выделить несколько часов на построение хотя бы одного такого дерева.

Дерево целей компании строится на основе того же SMART. Это дерево может охватывать:

  1. Стремление к доходу.
  2. Реализация новых продуктов.
  3. Новые партнерки.
  4. Найм сотрудников и формирование отделов.

Это лишь малая часть тех аспектов, которые можно «отсмартовать» в изучаемом нами методе. Ну и, конечно, всё это возможно сделать в удобной программе для управления своей компанией и жизнью — в ЛидерТаске. Скачать ее можно прямо сейчас по ссылке ниже:

Поэтапный метод построения Дерева Целей

Что такое дерево целей и зачем оно нужно, есть соответствующая статья, или для наглядности можно воспользоваться примером уже построенного дерева личных целей по Х. Адлеру. Эта же статья посвящена практическим рекомендациям, как самостоятельно составить иерархию целей.

Что нужно для составления

Если вы только учитесь стратегическому планированию или строите дерево целей для себя, то кроме самого желания быть успешным, нужны: чистый лист бумаги А4 (на обучающем этапе – возможно стопка бумаги), ручка.

Если готовите презентацию дерева целей: в таком случае подойдут многие программы на ПК (Mind Manager, простенький SmartArt MS Word, …)

Этапы построения дерева целей

1. Формулировка стратегической цели.  Это вершина дерева, так же может быть глобальная большая и очень сложная цель, в отличии от стратегической, в возможности ее конечной достижимости. (пример, стратегическая – увеличение продаж, глобальная – увеличение капитала в определенную сумму; стратегическая – личностный рост, глобальная – выучить 5 ин. языков). Эта цель отвечает на вопросы: что я (мы, организация) хотим получить или получать в прошествии такого-то срока? Кем я хочу быть? Чего хотим достигнуть или достигать? Ответ –  записываем в вершину.

2. Записываем условия, под-цели способствующие  осуществления глобальной стратегической цели. Отвечая на вопросы: при каких условиях возможна реализация поставленной цели? Какие задачи или цели нужно решить, что бы осуществить цель номер 1? См. пример ниже.

2.1. Выделить те цели и задачи, условия, которые зависят напрямую от нас (себя), или поддаются косвенному нашему влияния, или наоборот – являются абсолютно от нас независимыми.  Обычно это формулируют как внутренними, внешними или косвенными условиями. Подпишите,  соответственно, условия, цели или задачи. Этот пункт можно пропустить. Но иногда он тоже нужен.

3. Дробим дальше цели,  делаем ту же процедуру, что и в случае в п.2, но только в отношении 2-го ряда  целей. Наша задача выстроить последовательную иерархию до тех пор, пока все цели на сведутся к реализации конкретной мелкой задачи, то ли разово выполненной, то ли находящейся в постоянном цикле.

Общие рекомендации к построению

Достраиваем дерево на одном листе. Но если нужно что-то вычеркнуть для наглядности лучше начать с нового чистого листа.

Дробить цели нужно последовательно. Т.е. они должны быть подчинены друг другу, и не было больших прыжков.

Записывая ту или иную ступень в иерархии – важно помнить, всегда есть еще один вариант.

Самые мелкие цели – должны быть максимально простыми, реализация которых реализует, так же просто, более высшую цель.

Тренироваться и еще раз тренироваться. В идеале вы спустя некоторого времени достигнете такого успеха в построении целей – что будете делать это почти автоматически.

Не боятся ошибок. Ошибки – необходимое условие в успешном обучении.

Вот так на скорую руку я набрал макет дерева целей в МO SmartArt

Управление по целям или как построить дерево целей

Очень часто в компаниях можно увидеть стратегию в виде увесистого документа, содержащего множество разнородной информации, при этом ответственность за достижение стратегии возложена только на генерального директора. Я рассмотрю, как формализовать и оцифровать стратегию, создав дерево целей, назначить ответственных за достижение целей сотрудников, определить показатели для оценки прогресса в достижении целей, а также определить программу проектов, которая и обеспечит выполнение стратегии.

История подхода управления по целям

Технология управления по целям имеет серьёзных основоположников и долгую историю развития. Концепция управления по целям (Management by objectives — МВО) была введена в деловую практику еще в 1954 году Питером Друкером. В основу управления по целям положены формализованные цели компании, цели сотрудников компании, а также регулярные процедуры оценки прогресса в достижении целей.

По технологии Питера Друкера управление по целям строится в соответствии с пятью базовыми принципами. Первый принцип подразумевает разработку целей до уровня каждого сотрудника, при этом, цели сотрудника должны напрямую вытекать из целей организации. Второй принцип гласит, что при разработке целей используется детализация целей «сверху-вниз» от уровня стратегии к уровню сотрудников, а также агрегация целей «снизу-вверх» для связывания целей сотрудников с целями компании. Третий принцип предусматривает взаимодействие руководителя и сотрудника при формулировке целей, а не простое доведение поставленных целей до сотрудника без возможности их обсуждения и корректировки. Четвёртый принцип требует проводить регулярную оценку прогресса в достижении целей и анализировать обратную связь от сотрудников. Ну и пятый подразумевает использование принципа SMART при формализации целей.

Дерево целей — построение

Итак, что же такое цель? Цель — это желаемое состояние компании на стратегическом горизонте планирования, который может варьироваться от одного до десяти лет в зависимости от отрасли и размера компании. Фактически миссия компании и видение владельца является основой для построения дерева целей, которое детализируется «сверху-вниз» от миссии по принципу «что это значит?».

Концепция «дерева целей» впервые была предложена Ч. Черчменом и Р. Акоффом в 1957 году и представляет собой инструмент структуризации, используемый для определения и формализации целевого состояния компании и создания программы ее развития.

Дерево целей — это структурированная, построенная по иерархическому принципу совокупность целей организации, в которой выделены основная цель (миссия), а также подчиненные ей подцели первого, второго и последующего уровней детализации.

При построении дерева целей на практике нужно учитывать, что цель будет достигнута, когда будут достигнуты все ее подцели, таким образом обеспечивается полнота целеполагания и связанность целей между уровнями.

По технологии дерево целей формируется «сверху-вниз» уровень за уровнем, до тех пор, пока не появится возможность «оцифровать» цель показателями, а также назначить ответственного сотрудника за ее достижение. На практике дерево целей часто ограничено двумя-тремя уровнями детализации, ведь при формализации целей главное вовремя остановиться, чтобы не уйти в излишнюю детализацию.

В этом и заключается отличие от «классического» подхода Питера Друкера, который подразумевает доведение цели до каждого сотрудника. В проектах бывает непросто «дотащить» цели до уровня руководителей ключевых подразделений, а не то, что до каждого рядового сотрудника.

Поэтому детализация дерева целей прекращается, после того, как за цель назначен ответственный, цель стала измерима с помощью показателя, а также сформированы проекты, направленные на достижение данной цели.

Дерево целей — группировка

При построении дерева целей, необходимо изначально соблюдать некоторый порядок структуризации или группировки целей для обеспечения полноты и непротиворечивости создаваемого дерева целей. Можно использовать несколько вариантов группировки, кто-то группирует цели по циклу PDCA, кто-то группирует по бизнес-процессам, однако на основе проектного опыта можно с уверенностью сказать, что наиболее удобными являются следующие два варианта.

Первый вариант подразумевает группировку целей по перспективам системы сбалансированных показателей — BSC (финансы, клиенты, процессы, обучение и развитие) и чаще всего применим для коммерческих компаний. Второй вариант чаще используется в государственных структурах и крупных холдингах и подразумевает группировку целей в дерево в соответствии с организационной структурой, например, по заместителям генерального директора, что облегчает последующее согласование дерева целей в организации.

Определение правил группировки целей позволяет навести «порядок» при создании дерева целей, а также проверить полноту целеполагания. В качестве примера при использовании группировки по перспективам BSC, можно обнаружить «пробелы» в части ориентации на клиента, развития внутренних бизнес-процессов или в обучении и развитии персонала. По факту можно увидеть, что российский бизнес иногда руководствуется анекдотом – «Что бы корова меньше ела и больше давала молока, ее нужно меньше кормить и больше доить».

Для верификации построенного дерева целей на полноту, можно дополнительно провести SWOT-анализ компании, что позволяет определить те цели, которые могли быть пропущены при целеполагании, однако на практике это делается не всегда.

Всегда ли возможен SMART

Если говорить о правилах формализации целей, то с одной стороны, технология SMART была создана именно для этого, однако на практике не всегда удается придерживаться ее на все 100 процентов. Не сразу удается добиться измеримости целей, например, на верхних «этажах» дерева целей, для их измерения может потребоваться множество показателей, а при первичной формулировке цели определить перечень показателей сразу бывает просто невозможно.

Если обратиться к примерам, то цель «Увеличивать объем продаж на 20 % ежегодно», часто вполне достаточна для дальнейшего обсуждения и детализации, тогда как цель, сформулированная с применением SMART может выглядеть следующим образом «Коммерческому директору увеличивать объем продаж на 20% ежегодно, за счет выхода на рынок Китая, с новыми продуктами в области online обучения».

Общность формулировок в дереве целей будет восполнена позже, при детализации целей и когда будет строиться модель окружения цели, в которой будут определены: показатели и их фактические и плановые значения; алгоритмы расчета показателей и источники сбора информации, ответственные за достижения целей сотрудники; проекты, направленные на достижение целей.

Для оценки прогресса в достижении поставленной цели используются показатели, и именно они показывают, на сколько мы сдвинулись в выполнении стратегии, и кому из менеджеров можно заплатить за это премию, а кому нет. Большое количество показателей для измерения степени достижения целей часто приводит к необходимости серьёзной доработки системы управленческого учета и серьёзных трудозатрат для сбора данных, и именно поэтому к каждой цели привязывается максимум 2-3 показателя, которые выбираются по принципу Парето с учетом возможности их расчета на базе существующей в компании системы управленческого учета.

Следующим шагом, после оцифровки цели показателями и назначения ответственного сотрудника является формирование проектов, направленных на достижение самих целей. При этом для достижения одной цели может быть сформировано несколько проектов, для которых необходимо указать сроки их исполнения.

Таким образом в результате должно быть формализовано дерево целей, к каждой цели «привязаны» показатели с фактическими и плановыми значениями, назначены ответственные за достижение целей и показателей, сформирована программа проектов, направленная на достижение поставленных целей, а, следовательно, на достижение стратегии. Осталось только приступить к выполнению проектов и ввести новые показатели в систему мотивирования ответственных сотрудников.

Стоит ли строить систему сбалансированных показателей (BSC)

Следующим шагом при оцифровке стратегии является построение системы сбалансированных показателей (BSC) по технологии Нортона и Каплана. BSC позволяет нивелировать недостаток системы управления по целям и сбалансировать цели и показатели относительно друг друга.
Например, в дереве целей могут находится две противоречащие друг другу цели: «Сокращать время разработки нового продукта» и «Сокращать затраты на разработку нового продукта», приоритеты между которыми будут определяться в ручном режиме при определении приоритетов между проектами.

BSC позволяет определить приоритеты проектов через алгоритмы балансировки целей и показателей по перспективам на основании экспертных оценок, а также в результате анализа корреляции фактических значений показателей. Однако на практике можно увидеть сложность алгоритмов BSC, и, хотя в России есть множество положительных примеров ее построения, неудачных примеров еще больше.

Поэтому нужно анализировать зрелость управления в той или иной компании, чтобы понять, насколько она сможет внедрить и использовать технологию BSC, ведь очень часто вполне достаточно использовать дерево целей с показателями, проектами и ответственными, без применения BSC с ее непростыми алгоритмами.

Продолжение — примеры целей и показателей.

Видео-ролик по построению дерева целей.

Коптелов А.К.

Опубликовано на e-xecutive.ru

Дерево целей человека - простой путь в будущее

Прочитано: 13 338

Сложно сказать, кто первый ввел в обиход этот термин «дерево целей». Линкольн Акофф, как указывают многие… Или Брайн Трейси под термином ограниграмма… Или разработчик первых ментальных карт… Но это и не важно. Главное, что некто умный придумал отличную структуру планирования жизни и повышения эффективности и назвал ее «дерево целей человека».

Кстати, есть еще и «дерево целей предприятия» – суть та же, но анализ глубже. Да и вообще, принцип дерева целей подходит для решения практические любых проблем и задач. Структура:

Как это происходит?

Дерево целей человека: схема, граф, карта

Создание дерева целей начинается с выявления проблемы, для которой нужно найти решение.

Проблема – ствол структуры.

«Ветки» выстраиваемого растения будут обозначать задачи – те шаги, которые требуется предпринять для достижения целей или нейтрализации сложностей.

Ветки – подцели, этапы, действия.

Строится дерево в перевернутом состоянии и выглядит как схема, в которой:

Достоинства дерева целей

Методика позволяет явственно и четко разделить любой крупные проект на множество последовательных действий, выполнение которых приведут к цели.

Система имеет огромные преимущества перед любыми другими видами планирования:

  1. Наглядность – отмечены все даже второстепенные действия
  2. Логичность – понятно, как достигать поставленных целей
  3. Последовательность – нельзя «перепрыгнуть» или забыть о каком-то этапе
  4. Лаконичность – одна проблема = одно дерево целей

Правила построения дерева целей

Разработка структуры дерева целей человека ведется в определенной последовательности:

  1. Сначала ставится основная задача/проблема/цель. Чаще всего она недостижима в одно действие, поэтому нуждается в прорисовке «кроны».

Пример: поступление в ВУЗ.

  1. Каждая широкая ветвь ниже – подцель. Предпоследний шаг, ведущий к достижению цели.

Пример: выбор ВУЗа, подача документов, сдача экзаменов, переезд при иногороднем варианте обучения.

  1. Мелкие ветки – основные шаги, для достижения каждого последующего этапа.

Пример: для подачи документов нужно сделать копии некоторых из них, сфотографироваться, заполнить заявление.

Правильным решением для любого дерева целей станут отметки:

Все то, что требует система SMART для достижения целей, здесь можно и нужно использовать.

Выкристаллизовавшиеся с помощью дерева целей последовательные шаги в дальнейшем следует включать в план дня и уничтожать их или как свою главную лягушку, или по принципу 15 минут. Чем мельче этапы достижения целей, тем проще дойти к конечному результату.

Построение дерева целей – процесс не сложный, но очень важный. Потому что заставляет через мелкие задачи думать на перспективу и двигаться только вперед. Действовать проактивно и эффективно.

Об этом же пишет и Брайан Трейси в своей книге «Оставьте брезгливость – съешьте лягушку».

Чем четче мы видим и воспринимаем будущее, свои глобальные цели, тем быстрее мы к ним придем.

А Вы пробовали рисовать проблемы как деревья целей? Какой результат получился?

Интересные статьи:

“Дерево целей”: что это, зачем нужно, как работает?

Для целеустремлённого человека данная методика крайне важна, ведь “Дерево целей” позволяет эффективно планировать свои задачи, ставить правильные цели, как в бизнесе, так и в личной жизни. Если вам интересно подробнее узнать о том, что такое “дерево целей”, зачем нужно и как работает, продолжайте читать данную статью.

Что такое “Дерево целей”?

Методика “Дерево целей” была разработана в 1957 году и с того времени не потеряла своей актуальности до наших дней. Сейчас она активно применяется менеджерами, бизнесменами, руководителями в планировании своих задач и построении целей, ведь является максимально эффективной.

Давайте обсудим, что же из себя представляет методика “Дерево целей”. По сути это система, отражающая план достижения поставленной цели и разработку задач. помогающих в достижении. “Дерево целей” имеет чёткую структуру: “ствол” дерево — это ваша главная жизненная цель, которую важно достигнуть в любом случае, “ветви” — это второстепенные задачи и цели, помогающие в конечном итоге достичь главную цель, “веточки” — это подцели и задачи, среди которых также встречаются рутинные задачи и прочие. Как правило, “Дерево целей” изображается графически в виде рисунка дерева, что позволяет человеку легче увидеть свои задачи, понимать в каком направлении двигаться, на что обратить внимание и что именно приведёт его к главной цели.

Правила построения “Дерева целей”

Данные правила невероятно просты. Для того, чтобы построить своё “дерево целей”, необходимо решить, что же будет вашей главной целью, вашим “стволом”. Эта задача, которую нельзя достигнуть сразу, как правило она требует времени, решения других, более мелких задач для своего достижения. Именно эти подцели, эти более мелкие задачи называются “ветвями”, а “веточки” это ещё более мелкие, рутинные задачи. Таким образом, сложность лишь в определении того, что действительно важно для вас. При создании своего “Дерева целей” важно детально прописывать каждую “ветвь”, ставить сроки выполнения, описывать количество необходимых “веточек” для вашего прогресса.

Принципы построения

Основными принципами построения “Дерева целей” считаются 5 пунктов, а именно: Потребности и ресурсы, конкретика, этапность, совместимость и декомпозиция. Разберём каждый из них чуть подробнее.

Потребности и ресурсы

Как правило, цели сходу решить не получается, для того, чтобы достичь цели необходимы ресурсы и потребности. Если с потребностями всё ясно, то о ресурсах поговорим. Как правило, бывает два варианта: либо ресурсов просто не хватает, либо задача сложная, что не получается оценить наличие ресурсов. В первом случае, необходимо поставить цель найти способы получения ресурсов, во втором случае как раз и потребуется “Дерево целей”, чтобы понять, какими ресурсами вы владеете и сколько потребуется для достижения задуманного.

Конкретика

Для успешного построения “Дерева целей” цели необходимо формулировать детально и конкретно. Помимо этого оцените количество времени, требуемого для выполнения задачи, а также крайний срок выполнения.

Этапность

Логично ставить цели и задачи к ним поэтапно. Первый этап — постановка генеральной цели (“ствола”), затем для неё  расписать ресурсы, чтобы грамотно поставить подцели “ветви”, для реализации которых также ищутся ресурсы и ставятся цели и задачи “веточки”.

Совместимость

Подцели должны вести вас в генеральной цели. Т.е. при достижении всех подцелей “ветвей”, вы должны достигнуть главной цели “ствола”. Если этого не получается, то дерево построено неверно.

Метод декомпозиции

Суть метода в разбиение генеральной цели на частные подцели или наоборот, из подцелей формируют генеральную цель

Сформировать своё Дерево целей помогут недатированные ежедневники LeonaBureau, а также специализированные записные книги — Книги целей и идей. Вся продукция обладает уникальным дизайном лицевой и внутренней части изделия, изготовленными непосредственно специалистами компании. Страницы имеют бежевый оттенок Ivory. Отличительными особенностями является наличие специальных полей для постановки целей на день, финансового плана, плана поездок, гардероба на следующий день и пр.

Построение дерева целей и дерева проблем

 МИР ЛОГИКИ

Что такое дерево целей?

Дерево целей, иногда еще называемое промежуточной картой целей или картой ввода-вывода, в первую очередь является инструментом для рационального анализа всех предпосылок, т.е. необходимых условий для достижения цели, и их зависимостей.

Дерево целей - это центральный инструмент процесса логического мышления и дополнение к исходным логическим инструментам под названием « Thinking Processes » из теории ограничений.

На самой вершине дерева находится цель, замысел или видение.Уникальное поле содержит краткое «заявление о миссии» или «почему» эта система существует. На следующем уровне от трех до максимум пяти критических факторов успеха (CSF) являются главными задачами, которые необходимо достичь для достижения цели.

Критических факторов успеха можно рассматривать как конечные этапы перед достижением Цели, а Цель - это уникальная финишная черта.

Для каждого критического фактора успеха находится переменное количество необходимых условий (NC).Что касается цели с критическими факторами успеха, необходимые условия являются предпосылками, которые должны быть выполнены для достижения критических факторов успеха. Необходимые условия могут затем перейти к деталям. Каждое необходимое условие - это промежуточная цель, которую необходимо достичь, чтобы можно было достичь указанной выше цели, и так далее.

> Спешите? Краткое видео-введение в дерево целей

Дерево целей построено на «логике необходимости», связывая предварительные условия с целью.Отношение, основанное на необходимости, гласит: « для того, чтобы иметь / достичь… (верхняя цель), мы должны иметь / достичь… (нижнее условие) ».

Опыт вскоре показывает, что критические факторы успеха (CSF) должны быть ограничены максимум пятью (рекомендуется). Одна из веских причин для этого заключается в том, что высшее руководство должно держать обзор с помощью краткой и ограниченной приборной панели, состоящей из ограниченного набора на самом деле (выделите на самом деле ) Критических факторов. Если достижение Цели зависит от большого количества CSF, цель может быть плохо сформулирована, и предприятие может потерпеть неудачу.

Вторая причина в том, что легко не согласовать необходимое условие с CSF. Следовательно, очень ограниченное количество CSF вынуждает строителей деревьев тщательно проверять каждую границу.

Дальнейшие объяснения построения дерева целей можно найти в публикациях Уильяма Деттмера.

После построения дерево целей выполняет тройную функцию:

  1. A Карта логического будущего состояния : поскольку цель может быть достигнута только тогда, когда выполнены все необходимые условия, а они, очевидно, не будут выполнены к тому времени, когда дерево будет построено, дерево целей дает представление о будущем состоянии.
  2. Контрольный показатель и фактическая ситуация Карта : дерево целей - это контрольный показатель, по которому оценивается текущее состояние системы. Когда на дереве отмечены промежутки между текущим и будущим состояниями, дерево целей превращается в снимок текущей ситуации.
  3. A R oad Карта : с выявленными пробелами и четким представлением о том, что нужно достичь для достижения цели и в каком порядке, Дерево целей становится дорожной картой.

Давайте рассмотрим пункты 2 и 3 выше более подробно.Хотя изображение будущего состояния является основным использованием дерева целей, изображение на том же дереве реальной ситуации является личной интерпретацией, вероятно, разделяемой со многими из тех, кто знаком с деревом целей.

После того, как Дерево завершено, имеет смысл окрасить каждую коробку в 3 Зеленых / Янтарных / Красных цвета в соответствии с завершенностью и уровнем владения содержимым коробки.

Пример : если в одном из необходимых условий указано, что «мы должны поддерживать нашу общую эффективность оборудования (OEE) выше 80%», а фактическая производительность составляет в лучшем случае только 65%, поле должно быть окрашено в красный цвет.Если OEE находится в диапазоне 75-80%, поле может стать желтым. Когда стабильно превышает 80%, он становится зеленым.

Насколько зеленое ваше дерево целей? Как далеко вы от достижения своей цели?

Этот цветовой код становится понятным и делает дерево целей пригодным для визуального управления.

«Правило цветов» гласит, что верхнее поле принимает цвет наихудшего случая необходимых условий внизу. Если один NC - желтый, верхний уровень - желтый, если один NC - красный, верхний уровень становится красным.

Цветовой код превращает дерево целей в дорожную карту, поскольку желтые и красные квадраты должны быть превращены в зеленые для достижения цели. Это способ сосредоточить усилия и ограниченные ресурсы на тех местах, которые необходимо улучшить в обязательном порядке в соответствии с принципами Теории ограничений.

Со временем цвета на дереве целей должны меняться в соответствии с улучшениями и решением проблем. Дерево целей начинается с осенних цветов и со временем становится зеленым.

Один практический совет: сохраните исходное цветное дерево целей в качестве справочного материала и используйте копию, чтобы отобразить изменение цвета.Таким образом, при отображении исходного и фактического деревьев рядом друг с другом изменения становятся видимыми.

Деревья целей, используемые в этом деле, находят свое место в Обейе или Операционной комнате.

> Читайте также Дерево целей как средство управления изменениями


Если вам понравился этот пост, поделитесь им!

Следуйте @HOHMANN_Chris

Нравится:

Нравится Загрузка ...

Связанные

.

Понимание деревьев решений (раз и навсегда!) 🙌 | Валентин Ричер

Эта статья предназначена для начинающих в машинном обучении, которые хотят понять один из простейших алгоритмов, но один из самых важных из-за его интерпретируемости, силы предсказания и использования в различных вариантах, таких как случайный лес или градиентное усиление. Деревья.
Эта статья также предназначена для всех техников машинного обучения, как я, которые бросились к дочерним элементам деревьев решений (случайный лес или деревья повышения градиента), потому что они обычно лучше выступали на соревнованиях Kaggle, забывая познакомиться с деревьями решений и раскрывая все их тайна.🔮

Первая часть статьи посвящена настройке набора данных и модели, вторая часть посвящена пониманию модели: дерева решений.

К этой статье также прилагается записная книжка, которую вы можете найти здесь.

Определение цели

Ирис чашелистик и лепесток

Чтобы прояснить деревья решений, мы будем использовать знаменитый набор данных радужки. Этот набор данных состоит из 4 характеристики : длина лепестка , ширина лепестка , длина чашелистика и ширина чашелистика .Целевая переменная для прогнозирования - это вид ириса. Всего их три: iris setosa , iris versicolor и iris virginica .

Виды ириса

Первое, что мы можем заметить, это то, что для неспециалиста в садоводстве вроде меня довольно сложно различить разницу между этими тремя видами ирисов. Давайте воспользуемся машинным обучением для решения этой задачи! 😃

Анализ набора данных

Теперь, когда мы знаем, что ищем, давайте более подробно рассмотрим набор данных.

Первые 10 строк набора данных радужки

На картинке выше мы видим первые 10 строк набора данных радужки. Первые 4 столбца - это первые 4 характеристики, которые мы будем использовать для прогнозирования цели, вида ириса, представленных последним столбцом с числовыми значениями: 0 для setosa , 1 для versicolor , 2 для virginica .
Всего у нас 150 наблюдений (150 строк), по 50 наблюдений для каждого вида ирисов: набор данных сбалансирован.

Подготовка набора данных и выбор функций

Чтобы облегчить понимание того, как работает дерево решений, мы будем работать только с двумя функциями: шириной лепестка и шириной чашелистника .(Затем мы удаляем наблюдения, в которых есть дубликаты этих функций, чтобы можно было увидеть каждую точку на графиках, которые мы построим, чтобы помочь нашему пониманию).

Моделирование и оценка

Как вы уже поняли, выбранная модель представляет собой…

… ДЕРЕВО РЕШЕНИЙ !!! 😉

Без оптимизации гиперпараметров (таких как глубина дерева, минимальное количество листьев в узле или разделение узла…) и только с двумя функциями мы уже получаем 93% точности на тестовой выборке.

Точность - это количество хороших прогнозов по сравнению с количеством прогнозов.

Эта метрика интересна, но не помогает нам понять, что не так в Дереве решений. Матрица путаницы может нам помочь.

Матрица неточностей дерева решений на тестовом наборе

Матрица неточностей выше состоит из двух осей, ось y - это цель , истинное значение для вида радужной оболочки и x -axis - это вид , предсказанный деревом решений для этого ириса.В верхнем левом квадрате мы видим, что для 5 setosa ирисов дерево решений предсказало setosa для вида. Вторая строка показывает, что из 16 ирисов versicolor 14 были классифицированы как versicolor , а 2 были ошибочно приняты за virginica . Это причина того, что у нас нет стопроцентной точности. Наконец, нижний правый квадрат показывает, что все ирисы virginica классифицированы как virginica .
Благодаря матрице путаницы мы можем получить точность: все диагональные элементы являются хорошими прогнозами, 5 + 14 + 9 = 28, а все прогнозы - это все квадраты, 5 + 14 + 2 + 9 = 30. Находим такую ​​же точность 28/30 = 93%.

Теперь, когда мы настроили наш набор данных и модель, мы можем, наконец, погрузиться в построение дерева решений! 😜

Визуализация дерева

Дерево решений, построенное после обучения

Выше мы можем видеть дерево, построенное после обучения. На этапе обучения Дерево решений добавляет узлы, разделяет их на ветви, ведущие к листьям.

Как получить это дерево? 🌳

Дерево строится итеративно от корня к листьям благодаря обучающему набору. Действительно, набор данных разделен на два: обучающий набор , который дерево решений использует для , обучающий и набор тестирования , используемый для измерения производительности дерева решений, когда-то построенного путем сравнения его прогнозов с реальные ценности.

Целью Дерева решений является разделение обучающего набора на однородные области, где присутствует только один вид радужной оболочки в соответствии с заданными характеристиками: здесь ширина лепестков и чашелистиков.

Узел 0: корневой узел

.

1.10. Деревья принятия решений - документация scikit-learn 0.23.2

Деревья решений (DT) - это непараметрический метод обучения с учителем. для классификации и регрессии. Цель состоит в том, чтобы создать модель, которая предсказывает ценность целевая переменная путем изучения простых правил принятия решений, выведенных из данных функции.

Например, в приведенном ниже примере деревья решений обучаются на основе данных аппроксимировать синусоидальную кривую с набором правил принятия решения «если-то-иначе».Чем глубже чем выше дерево, тем сложнее решающие правила и тем лучше модель.

Некоторые преимущества деревьев решений:

  • Просто для понимания и интерпретации. Деревья можно визуализировать.

  • Требуется небольшая подготовка данных. Другие методы часто требуют данных нормализации, необходимо создать фиктивные переменные и пустые значения для удалить. Однако обратите внимание, что этот модуль не поддерживает отсутствующие ценности.

  • Стоимость использования дерева (т.е., прогнозирование данных) является логарифмическим по количество точек данных, используемых для обучения дерева.

  • Может обрабатывать как числовые, так и категориальные данные. Другие техники обычно специализируются на анализе наборов данных только одного типа переменной. Смотрите алгоритмы для получения дополнительной информации Информация.

  • Может обрабатывать проблемы с несколькими выходами.

  • Использует модель белого ящика. Если данная ситуация наблюдается в модели, объяснение условия легко объясняется булевой логикой.Напротив, в модели черного ящика (например, в искусственной нейронной сеть), результаты может быть труднее интерпретировать.

  • Можно проверить модель с помощью статистических тестов. Это делает это Можно учесть надежность модели.

  • Работает хорошо, даже если его предположения несколько нарушаются истинная модель, из которой были созданы данные.

К недостаткам деревьев решений можно отнести:

  • Обучающиеся дерева решений могут создавать слишком сложные деревья, которые не хорошо обобщить данные.Это называется переобучением. Механизмы например, обрезка, установка минимального количества требуемых образцов на листовом узле или установка максимальной глубины дерева необходимо, чтобы избежать этой проблемы.

  • Деревья решений могут быть нестабильными из-за небольших вариаций в данные могут привести к созданию совершенно другого дерева. Эта проблема смягчается за счет использования деревьев решений в ансамбль.

  • Известно, что задача изучения дерева оптимальных решений NP-полная по нескольким аспектам оптимальности и даже для простых концепции.Следовательно, практические алгоритмы обучения дереву решений основаны на эвристических алгоритмах, таких как жадный алгоритм, где локально оптимальные решения принимаются на каждом узле. Такие алгоритмы не может гарантировать возврат глобально оптимального дерева решений. Этот можно смягчить путем обучения нескольких деревьев в ученике ансамбля, где функции и образцы выбираются случайным образом с заменой.

  • Есть концепции, которые трудно изучить, потому что деревья решений не выражают их легко, например, проблемы XOR, четности или мультиплексора.

  • Обучающиеся дерева решений создают предвзятые деревья, если некоторые классы доминируют. Поэтому рекомендуется сбалансировать набор данных перед подгонкой. с деревом решений.

1.10.1. Классификация

DecisionTreeClassifier - это класс, способный выполнять мультиклассы классификация по набору данных.

Как и другие классификаторы, DecisionTreeClassifier принимает на вход два массива: массив X, разреженный или плотный, размером [n_samples, n_features] , содержащий обучающие выборки и массив Y целых значений размером [n_samples] , с метками классов для обучающих выборок:

 >>> из дерева импорта sklearn >>> X = [[0, 0], [1, 1]] >>> Y = [0, 1] >>> clf = дерево.DecisionTreeClassifier () >>> clf = clf.fit (X, Y) 

После установки модель может быть использована для прогнозирования класса образцов:

 >>> clf.predict ([[2., 2.]]) массив ([1]) 

В качестве альтернативы можно предсказать вероятность каждого класса, которая является доля обучающих выборок одного класса в листе:

 >>> clf.predict_proba ([[2., 2.]]) массив ([[0., 1.]]) 

DecisionTreeClassifier поддерживает как двоичные (где метки - это [-1, 1]) классификация и мультикласс (где метки [0,…, K-1]) классификация.

Используя набор данных Iris, мы можем построить дерево следующим образом:

 >>> из sklearn.datasets import load_iris >>> из дерева импорта sklearn >>> X, y = load_iris (return_X_y = True) >>> clf = tree.DecisionTreeClassifier () >>> clf = clf.fit (X, y) 

После обучения вы можете построить дерево с помощью функции plot_tree :

.

tree - Построение Quadtree

Переполнение стека
  1. Около
  2. Товары
  3. Для команд
  1. Переполнение стека Общественные вопросы и ответы
  2. Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
.

1.10. Деревья принятия решений - документация scikit-learn 0.19.1

Деревья решений (DT) - это непараметрический метод обучения с учителем. для классификации и регрессии. Цель состоит в том, чтобы создать модель, которая предсказывает ценность целевая переменная путем изучения простых правил принятия решений, выведенных из данных функции.

Например, в приведенном ниже примере деревья решений обучаются на основе данных аппроксимировать синусоидальную кривую с набором правил принятия решения «если-то-иначе». Чем глубже чем выше дерево, тем сложнее решающие правила и тем лучше модель.

Некоторые преимущества деревьев решений:

  • Просто понять и интерпретировать. Деревья можно визуализировать.
  • Требуется небольшая подготовка данных. Другие методы часто требуют данных нормализации, необходимо создать фиктивные переменные и пустые значения для удалить. Однако обратите внимание, что этот модуль не поддерживает отсутствующие ценности.
  • Стоимость использования дерева (т. Е. Прогнозирования данных) является логарифмической в количество точек данных, используемых для обучения дерева.
  • Может обрабатывать как числовые, так и категориальные данные. Другие техники обычно специализируются на анализе наборов данных только одного типа переменной. Смотрите алгоритмы для получения дополнительной информации Информация.
  • Может обрабатывать проблемы с несколькими выходами.
  • Использует модель белого ящика. Если данная ситуация наблюдается в модели, объяснение условия легко объясняется булевой логикой. Напротив, в модели черного ящика (например, в искусственной нейронной сеть), результаты может быть труднее интерпретировать.
  • Можно проверить модель с помощью статистических тестов. Это делает это Можно учесть надежность модели.
  • Хорошо работает, даже если его предположения несколько нарушаются истинная модель, из которой были созданы данные.

К недостаткам деревьев решений можно отнести:

  • Обучающиеся дерева решений могут создавать слишком сложные деревья, которые не хорошо обобщить данные. Это называется переобучением. Механизмы например, обрезка (в настоящее время не поддерживается), установка минимального количество выборок, требуемых на листовом узле, или установка максимального глубина дерева необходима, чтобы избежать этой проблемы.
  • Деревья решений могут быть нестабильными из-за небольших вариаций в данные могут привести к созданию совершенно другого дерева. Эта проблема смягчается за счет использования деревьев решений в ансамбль.
  • Как известно, проблема изучения дерева оптимальных решений NP-полная по нескольким аспектам оптимальности и даже для простых концепции. Следовательно, практические алгоритмы обучения дереву решений основаны на эвристических алгоритмах, таких как жадный алгоритм, где локально оптимальные решения принимаются на каждом узле.Такие алгоритмы не может гарантировать возврат глобально оптимального дерева решений. Этот можно смягчить путем обучения нескольких деревьев в ученике ансамбля, где функции и образцы выбираются случайным образом с заменой.
  • Есть концепции, которые сложно изучить, потому что деревья решений не выражают их легко, например, проблемы XOR, четности или мультиплексора.
  • Обучающиеся дерева решений создают предвзятые деревья, если некоторые классы доминируют. Поэтому рекомендуется сбалансировать набор данных перед подгонкой. с деревом решений.

1.10.1. Классификация

DecisionTreeClassifier - это класс, способный выполнять мультикласс классификация по набору данных.

Как и другие классификаторы, DecisionTreeClassifier принимает на вход два массива: массив X, разреженный или плотный, размером [n_samples, n_features] , содержащий обучающие выборки и массив Y целых значений размером [n_samples] , с метками классов для обучающих выборок:

 >>> из дерева импорта sklearn >>> X = [[0, 0], [1, 1]] >>> Y = [0, 1] >>> clf = дерево.DecisionTreeClassifier () >>> clf = clf.fit (X, Y) 

После установки модель может быть использована для прогнозирования класса образцов:

 >>> clf.predict ([[2., 2.]]) массив ([1]) 

В качестве альтернативы можно предсказать вероятность каждого класса, которая является доля обучающих выборок одного класса в листе:

 >>> clf.predict_proba ([[2., 2.]]) массив ([[0., 1.]]) 

DecisionTreeClassifier поддерживает как двоичные (где метки - это [-1, 1]) классификация и мультикласс (где метки [0,…, K-1]) классификация.

Используя набор данных Iris, мы можем построить дерево следующим образом:

 >>> из sklearn.datasets import load_iris >>> из дерева импорта sklearn >>> iris = load_iris () >>> clf = tree.DecisionTreeClassifier () >>> clf = clf.fit (iris.data, iris.target) 

После обучения мы можем экспортировать дерево в формат Graphviz, используя export_graphviz экспортер. Если вы используете менеджер пакетов conda, двоичные файлы graphviz и пакет python можно установить с помощью

conda установить python-graphviz

Также двоичные файлы для graphviz можно загрузить с домашней страницы проекта graphviz, и оболочка Python, установленная из pypi с помощью команды pip install graphviz .

Ниже приведен пример экспорта graphviz указанного дерева, обученного на всем набор данных iris; результаты сохраняются в выходном файле iris.pdf :

 >>> импорт графвиз >>> dot_data = tree.export_graphviz (clf, out_file = None) >>> graph = graphviz.Source (dot_data) >>> graph.render ("радужная оболочка") 

export_graphviz экспортер также поддерживает различные эстетические параметры, включая окраску узлов по их классу (или значению для регрессии) и используя явные имена переменных и классов при желании.Ноутбуки Jupyter также автоматически отображать эти графики в строку:

 >>> dot_data = tree.export_graphviz (clf, out_file = None, feature_names = iris.feature_names, class_names = iris.target_names, заполнено = верно, округлено = верно, special_characters = True) >>> graph = graphviz.Source (dot_data) >>> график 

После установки модель может быть использована для прогнозирования класса образцов:

 >>> clf.предсказать (iris.data [: 1,:]) массив ([0]) 

В качестве альтернативы можно предсказать вероятность каждого класса, которая является доля обучающих выборок одного класса в листе:

 >>> clf.predict_proba (iris.data [: 1,:]) массив ([[1., 0., 0.]]) 

1.10.2. Регрессия

Деревья решений также могут применяться к задачам регрессии, используя DecisionTreeRegressor класс.

Как и в настройке классификации, метод соответствия будет принимать в качестве аргументов массивы X и y, только в этом случае ожидается, что y будет иметь значения с плавающей запятой вместо целых значений:

 >>> из дерева импорта sklearn >>> X = [[0, 0], [2, 2]] >>> у = [0.5, 2.5] >>> clf = tree.DecisionTreeRegressor () >>> clf = clf.fit (X, y) >>> clf.predict ([[1, 1]]) массив ([0.5]) 

1.10.3. Проблемы с несколькими выходами

Задача с несколькими выходами - это задача контролируемого обучения с несколькими выходами. чтобы предсказать, то есть когда Y - это 2d массив размером [n_samples, n_outputs] .

Когда нет корреляции между выходами, очень простой способ решить Задача такого рода - построить n независимых моделей, т.е.е. по одному на каждого вывода, а затем использовать эти модели для независимого прогнозирования каждого из n выходы. Однако, поскольку вполне вероятно, что выходные значения связаны с одни и те же входные данные сами коррелированы, часто лучший способ - создать единый модель, способная прогнозировать одновременно все n выходов. Во-первых, это требует меньшее время обучения, так как строится только одна оценка. Во-вторых, точность обобщения результирующей оценки часто может быть увеличена.

Что касается деревьев решений, эту стратегию можно легко использовать для поддержки проблемы с несколькими выходами.Для этого необходимы следующие изменения:

  • Сохранять n выходных значений в листьях вместо 1;
  • Используйте критерии разделения, которые вычисляют среднее сокращение по всем n выходов.

Этот модуль предлагает поддержку проблем с несколькими выходами за счет реализации этого стратегии как в DecisionTreeClassifier , так и в Обсуждение Дерева . Если дерево решений соответствует выходному массиву Y размером [n_samples, n_outputs] , то итоговая оценка будет:

  • Вывести значения n_output при прогнозе ;
  • Вывести список массивов n_output вероятностей классов при Прогноз_проба .

Использование деревьев с несколькими выходами для регрессии продемонстрировано в Регрессия дерева решений с несколькими выходами. В этом примере вход X - одно действительное значение, а выходы Y - синус и косинус X.

Использование многовыходных деревьев для классификации продемонстрировано в Доработка лица с многовыходной оценкой. В этом примере входы X - это пиксели верхней половины граней, а выходы Y - пиксели нижняя половина этих лиц.

1.10.5. Советы по практическому использованию

  • Деревья решений имеют тенденцию чрезмерно соответствовать данным с большим количеством функций. Правильное соотношение количества образцов к количеству характеристик важно, поскольку дерево с несколькими образцами в многомерном пространстве, скорее всего, переобьется.
  • Рассмотреть возможность уменьшения размерности (PCA, ICA или Feature selection) заранее, чтобы дайте вашему дереву больше шансов найти отличительные признаки.
  • Визуализируйте свое дерево во время обучения с помощью экспорта функция.Используйте max_depth = 3 в качестве начальной глубины дерева, чтобы почувствовать насколько дерево соответствует вашим данным, а затем увеличьте глубину.
  • Помните, что количество образцов, необходимых для заполнения дерева, удваивается. за каждый дополнительный уровень, до которого растет дерево. Используйте max_depth для управления размер дерева, чтобы предотвратить переоснащение.
  • Используйте min_samples_split или min_samples_leaf , чтобы контролировать количество образцы на листовом узле. Очень маленькое число обычно означает дерево будет переобучаться, тогда как большое количество не позволит дереву обучаться данные.Попробуйте в качестве начального значения min_samples_leaf = 5 . Если размер выборки сильно различается, число с плавающей запятой можно использовать в процентах в этих двух параметрах. Основное различие между ними заключается в том, что min_samples_leaf гарантирует минимальное количество образцов в листе, а min_samples_split может создавать произвольные маленькие листья, хотя min_samples_split является более распространенным в литературе.
  • Сбалансируйте набор данных перед обучением, чтобы дерево не смещалось в сторону доминирующих классов.Балансировка классов может быть выполнена отбор равного количества образцов из каждого класса, или предпочтительно путем нормализация суммы весов выборки ( sample_weight ) для каждого класс к тому же значению. Также обратите внимание, что критерии предварительной обрезки на основе веса, например, min_weight_fraction_leaf , тогда будет меньше смещения в сторону доминирующие классы, чем критерии, которые не знают весов выборки, например min_samples_leaf .
  • Если образцы взвешены, будет проще оптимизировать дерево структура с использованием критерия предварительной обрезки на основе веса, такого как min_weight_fraction_leaf , что гарантирует, что конечные узлы содержат не менее часть общей суммы весов выборки.
  • Все деревья решений внутренне используют массивы np.float32 . Если данные обучения не в этом формате, будет сделана копия набора данных.
  • Если входная матрица X очень разреженная, рекомендуется преобразовать в разреженную csc_matrix перед вызовом fit и sparse csr_matrix перед вызовом предсказывать. Время обучения может быть на несколько порядков меньше для редких ввод матрицы по сравнению с плотной матрицей, когда объекты имеют нулевые значения в большинство образцов.

1.10.6. Алгоритмы дерева: ID3, C4.5, C5.0 и CART

Что представляют собой различные алгоритмы дерева решений и чем они отличаются друг от друга? Какой из них реализован в scikit-learn?

ID3 (Iterative Dichotomiser 3) был разработан Россом Куинланом в 1986 году. Алгоритм создает многостороннее дерево, находя для каждого узла (т.е. жадным образом) категориальный признак, который даст наибольший получение информации для категориальных целей. Деревья выросли до своих максимальный размер, а затем обычно применяется этап обрезки, чтобы улучшить способность дерева обобщать невидимые данные.

C4.5 является преемником ID3 и снял ограничение, связанное с должен быть категориальным путем динамического определения дискретного атрибута (на основе на числовых переменных), который разделяет непрерывное значение атрибута в дискретный набор интервалов. C4.5 конвертирует обученные деревья (т.е. результат алгоритма ID3) в наборы правил «если-то». Затем эта точность каждого правила оценивается для определения порядка в котором они должны применяться. Обрезка выполняется путем удаления правила предварительное условие, если без него точность правила улучшится.

C5.0 - это последняя версия Quinlan под частной лицензией. Он использует меньше памяти и создает меньшие наборы правил, чем C4.5, при этом более точным.

CART (Деревья классификации и регрессии) очень похожа на C4.5, но он отличается тем, что поддерживает числовые целевые переменные (регрессию) и не вычисляет наборы правил. CART строит бинарные деревья, используя функцию и порог, который дает наибольший прирост информации в каждом узле.

scikit-learn использует оптимизированную версию алгоритма CART.

1.10.7. Математическая постановка

Даны обучающие векторы, i = 1,…, l и вектор-метка , дерево решений рекурсивно разбивает пространство, такое что образцы с одинаковыми метками сгруппированы вместе.

Пусть данные в узле представлены как. За каждый раскол кандидатов, состоящий из функция и порог, разделите данные на и подмножества

Примесь при вычисляется с использованием функции примеси , выбор которых зависит от решаемой задачи (классификация или регрессия)

Выберите параметры, минимизирующие примеси

Рекурсия для подмножеств и до достижения максимально допустимой глубины, или .

1.10.7.1. Критерии классификации

Если целью является результат классификации, принимающий значения 0,1,…, K-1, для узла, представляющего регион с наблюдения, пусть

- доля наблюдений класса k в узле

.

Общие меры примесей - Джини

Кросс-энтропия

и ошибочная классификация

, где данные обучения в узле

1.10.7.2. Критерии регрессии

Если целью является непрерывное значение, то для узла представляющий регион с наблюдениями, общий критерии для сведения к минимуму для определения местоположения на будущее разбиения представляют собой среднеквадратичную ошибку, которая минимизирует ошибку L2 с использованием средних значений в конечных узлах и средней абсолютной ошибки, которая минимизирует ошибку L1, используя медианные значения в конечных узлах.

Среднеквадратичная ошибка:

Средняя абсолютная ошибка:

, где данные обучения в узле

Артикулы:

  • https: // en.wikipedia.org/wiki/Decision_tree_learning
  • https://en.wikipedia.org/wiki/Predictive_analytics
  • Л. Брейман, Дж. Фридман, Р. Олшен и К. Стоун. Классификация и Деревья регрессии. Уодсворт, Белмонт, Калифорния, 1984.
  • J.R. Quinlan. C4. 5: программы для машинного обучения. Морган Кауфманн, 1993.
  • Т. Хасти, Р. Тибширани и Дж. Фридман. Элементы статистического обучения, Springer, 2009.
.

5 алгоритмов кластеризации, которые необходимо знать ученым | Джордж Сейф

Кластеризация - это метод машинного обучения, который включает в себя группировку точек данных. Учитывая набор точек данных, мы можем использовать алгоритм кластеризации для классификации каждой точки данных в определенную группу. Теоретически точки данных, которые находятся в одной группе, должны иметь схожие свойства и / или функции, тогда как точки данных в разных группах должны иметь очень разные свойства и / или функции. Кластеризация - это метод обучения без учителя и распространенный метод статистического анализа данных, используемый во многих областях.

В Data Science мы можем использовать кластерный анализ, чтобы получить ценную информацию из наших данных, увидев, в какие группы попадают точки данных, когда мы применяем алгоритм кластеризации. Сегодня мы рассмотрим 5 популярных алгоритмов кластеризации, которые необходимо знать специалистам по данным, а также их плюсы и минусы!

Кластеризация K-средних

K-средних, вероятно, самый известный алгоритм кластеризации. Его преподают на многих вводных курсах по науке о данных и машинному обучению. Его легко понять и реализовать в коде! Посмотрите рисунок ниже для иллюстрации.

Кластеризация K-средних
  1. Для начала мы сначала выбираем несколько классов / групп для использования и случайным образом инициализируем их соответствующие центральные точки. Чтобы определить количество используемых классов, полезно быстро взглянуть на данные и попытаться выделить какие-либо отдельные группы. Центральные точки - это векторы той же длины, что и каждый вектор точек данных, и обозначены буквами «X» на рисунке выше.
  2. Каждая точка данных классифицируется путем вычисления расстояния между этой точкой и центром каждой группы, а затем классификации точки в группе, центр которой находится ближе всего к ней.
  3. На основе этих классифицированных точек мы повторно вычисляем центр группы, взяв среднее значение всех векторов в группе.
  4. Повторите эти шаги для заданного количества итераций или до тех пор, пока центры групп не будут сильно меняться между итерациями. Вы также можете выбрать случайную инициализацию групповых центров несколько раз, а затем выбрать прогон, который, похоже, обеспечил наилучшие результаты.

K-Means имеет то преимущество, что он довольно быстр, поскольку все, что мы на самом деле делаем, это вычисляем расстояния между точками и центрами групп; очень мало вычислений! Таким образом, он имеет линейную сложность O ( n ).

С другой стороны, у K-Means есть несколько недостатков. Во-первых, вы должны выбрать количество групп / классов. Это не всегда тривиально, и в идеале с алгоритмом кластеризации мы хотели бы, чтобы он выяснял их за нас, потому что цель этого - получить некоторое представление о данных. K-средство также начинается со случайного выбора центров кластеров и, следовательно, может давать разные результаты кластеризации при разных прогонах алгоритма. Таким образом, результаты могут быть неповторимыми и непротиворечивыми.Другие кластерные методы более последовательны.

K-Medians - это еще один алгоритм кластеризации, связанный с K-средними, за исключением того, что вместо пересчета центральных точек группы с использованием среднего мы используем медианный вектор группы. Этот метод менее чувствителен к выбросам (из-за использования медианы), но намного медленнее для больших наборов данных, так как сортировка требуется на каждой итерации при вычислении медианного вектора.

Кластеризация со средним сдвигом

Кластеризация со средним сдвигом - это алгоритм на основе скользящего окна, который пытается найти плотные области точек данных.Это алгоритм на основе центроида, означающий, что цель состоит в том, чтобы найти центральные точки каждой группы / класса, который работает путем обновления кандидатов на центральные точки, чтобы они были средними точками в скользящем окне. Эти окна кандидатов затем фильтруются на этапе постобработки, чтобы исключить почти дубликаты, образуя окончательный набор центральных точек и их соответствующих групп. Посмотрите рисунок ниже для иллюстрации.

Кластеризация среднего сдвига для одного скользящего окна
  1. Чтобы объяснить средний сдвиг, мы рассмотрим набор точек в двумерном пространстве, как на иллюстрации выше.Мы начинаем с круглого скользящего окна с центром в точке C (выбранной случайным образом) и с радиусом r в качестве ядра. Среднее смещение - это алгоритм подъема в гору, который включает итеративное смещение этого ядра в область с более высокой плотностью на каждом шаге до сходимости.
  2. На каждой итерации скользящее окно смещается в сторону областей с более высокой плотностью за счет смещения центральной точки на среднее значение точек внутри окна (отсюда и название). Плотность внутри скользящего окна пропорциональна количеству точек внутри него.Естественно, при переходе к среднему значению точек в окне он будет постепенно перемещаться в области с более высокой плотностью точек.
  3. Мы продолжаем сдвигать скользящее окно в соответствии со средним значением до тех пор, пока не будет направления, в котором сдвиг может вместить больше точек внутри ядра. Посмотрите на рисунок выше; мы продолжаем перемещать круг до тех пор, пока не перестанем увеличивать плотность (то есть количество точек в окне).
  4. Этот процесс шагов с 1 по 3 выполняется с множеством скользящих окон, пока все точки не окажутся внутри окна.Когда несколько скользящих окон перекрываются, окно, содержащее наибольшее количество точек, сохраняется. Затем точки данных группируются в соответствии со скользящим окном, в котором они находятся.

Иллюстрация всего процесса от начала до конца со всеми скользящими окнами показана ниже. Каждая черная точка представляет собой центр тяжести скользящего окна, а каждая серая точка - это точка данных.

Весь процесс кластеризации среднего сдвига

В отличие от кластеризации K-средних, нет необходимости выбирать количество кластеров, поскольку средний сдвиг автоматически обнаруживает это.Это огромное преимущество. Тот факт, что центры кластера сходятся к точкам максимальной плотности, также весьма желателен, поскольку это довольно интуитивно понятно для понимания и хорошо подходит для естественного управления данными. Недостатком является то, что выбор размера / радиуса окна «r» может быть нетривиальным.

Пространственная кластеризация приложений с шумом на основе плотности (DBSCAN)

DBSCAN - это кластерный алгоритм на основе плотности, аналогичный среднему сдвигу, но с несколькими заметными преимуществами.Посмотрите еще одну причудливую картинку ниже, и приступим!

DBSCAN Smiley Face Clustering
  1. DBSCAN начинается с произвольной начальной точки данных, которая не была посещена. Окрестность этой точки выделяется с использованием расстояния epsilon ε (все точки, которые находятся в пределах расстояния ε, являются точками окрестности).
  2. Если в этой окрестности имеется достаточное количество точек (согласно minPoints), то начинается процесс кластеризации, и текущая точка данных становится первой точкой в ​​новом кластере.В противном случае точка будет помечена как шум (позже эта зашумленная точка может стать частью кластера). В обоих случаях эта точка помечается как «посещенная».
  3. Для этой первой точки в новом кластере точки в пределах ее окрестности расстояния ε также становятся частью того же кластера. Эта процедура приведения всех точек в окрестности ε к одному кластеру затем повторяется для всех новых точек, которые были только что добавлены в группу кластеров.
  4. Этот процесс шагов 2 и 3 повторяется до тех пор, пока не будут определены все точки в кластере i.e все точки в пределах ε окрестности кластера были посещены и помечены.
  5. Как только мы закончим с текущим кластером, новая непосещенная точка извлекается и обрабатывается, что приводит к обнаружению следующего кластера или шума. Этот процесс повторяется до тех пор, пока все точки не будут отмечены как посещенные. Поскольку в конце все точки были посещены, каждая точка будет отмечена либо как принадлежащая кластеру, либо как шумовая.

DBSCAN обладает некоторыми большими преимуществами перед другими алгоритмами кластеризации.Во-первых, он вообще не требует определенного количества кластеров. Он также определяет выбросы как шумы, в отличие от среднего сдвига, который просто отбрасывает их в кластер, даже если точки данных сильно отличаются. Кроме того, он может довольно хорошо находить кластеры произвольного размера и произвольной формы.

Главный недостаток DBSCAN заключается в том, что он не работает так же хорошо, как другие, когда кластеры имеют разную плотность. Это связано с тем, что установка порогового значения расстояния ε и minPoints для идентификации точек соседства будет варьироваться от кластера к кластеру при изменении плотности.Этот недостаток также возникает с данными очень большого размера, поскольку снова становится сложно оценить пороговое значение расстояния ε.

Кластеризация ожидания – максимизации (EM) с использованием моделей смешения гауссов (GMM)

Одним из основных недостатков K-средних является наивное использование среднего значения для центра кластера. Мы можем понять, почему это не лучший способ решения задач, посмотрев на изображение ниже. С левой стороны человеческому глазу совершенно очевидно, что есть два круглых кластера с разным радиусом 'с одним и тем же средним значением.K-средние не справятся с этим, потому что средние значения кластеров очень близки друг к другу. K-среднее также не работает в тех случаях, когда кластеры не являются круговыми, опять же в результате использования среднего в качестве центра кластера.

Два случая отказа для К-средних.

Гауссовские модели смеси (GMM) дают нам больше гибкости, чем К-средние. С GMM мы предполагаем, что точки данных распределены по Гауссу; это менее ограничительное предположение, чем утверждение, что они являются круговыми с использованием среднего. Таким образом, у нас есть два параметра для описания формы кластеров: среднее значение и стандартное отклонение! Если взять пример в двух измерениях, это означает, что кластеры могут принимать любую форму эллипса (поскольку у нас есть стандартное отклонение как по осям x, так и по y).Таким образом, каждое гауссово распределение относится к одному кластеру.

Чтобы найти параметры гауссианы для каждого кластера (например, среднее и стандартное отклонение), мы будем использовать алгоритм оптимизации, называемый ожиданием – максимизацией (EM). Взгляните на рисунок ниже как иллюстрацию подгонки гауссиан к кластерам. Затем мы можем приступить к процессу кластеризации ожидания – максимизации с использованием GMM.

EM-кластеризация с использованием GMM
  1. Мы начинаем с выбора количества кластеров (как это делает K-Means) и случайной инициализации параметров гауссова распределения для каждого кластера.Можно попытаться дать хорошее предположение для начальных параметров, также быстро взглянув на данные. Хотя обратите внимание, как видно на графике выше, это не обязательно на 100%, поскольку гауссианы начинают наши как очень плохие, но быстро оптимизируются.
  2. Учитывая эти гауссовы распределения для каждого кластера, вычислите вероятность того, что каждая точка данных принадлежит определенному кластеру. Чем ближе точка находится к центру Гаусса, тем больше вероятность, что она принадлежит этому кластеру. Это должно иметь интуитивный смысл, поскольку с распределением Гаусса мы предполагаем, что большая часть данных находится ближе к центру кластера.
  3. На основе этих вероятностей мы вычисляем новый набор параметров для гауссовых распределений, чтобы максимизировать вероятности точек данных в кластерах. Мы вычисляем эти новые параметры, используя взвешенную сумму позиций точек данных, где веса - это вероятности принадлежности точки данных к этому конкретному кластеру. Чтобы объяснить это наглядно, мы можем взглянуть на рисунок выше, в частности, на желтый кластер в качестве примера. Распределение начинается случайным образом на первой итерации, но мы видим, что большинство желтых точек находятся справа от этого распределения.Когда мы вычисляем сумму, взвешенную по вероятностям, даже несмотря на то, что рядом с центром есть некоторые точки, большинство из них находятся справа. Таким образом, естественно, что среднее значение распределения смещается ближе к этому набору точек. Мы также можем видеть, что большинство точек расположены «сверху-справа-снизу-слева». Поэтому стандартное отклонение изменяется, чтобы создать эллипс, который больше соответствует этим точкам, чтобы максимизировать сумму, взвешенную по вероятностям.
  4. Шаги 2 и 3 повторяются итеративно до сходимости, когда распределения не сильно меняются от итерации к итерации.

Использование GMM дает два ключевых преимущества. Во-первых, GMM намного больше гибких с точки зрения кластерной ковариации , чем K-средних; из-за параметра стандартного отклонения кластеры могут принимать любую форму эллипса, а не ограничиваться кругами. К-средние фактически являются частным случаем GMM, в котором ковариация каждого кластера по всем измерениям приближается к нулю. Во-вторых, поскольку GMM используют вероятности, они могут иметь несколько кластеров на точку данных. Итак, если точка данных находится в середине двух перекрывающихся кластеров, мы можем просто определить ее класс, сказав, что она принадлежит X-процентов к классу 1 и Y-процентам к классу 2.То есть GMM поддерживают смешанное членство .

Агломеративная иерархическая кластеризация

Алгоритмы иерархической кластеризации делятся на 2 категории: нисходящие и восходящие. Восходящие алгоритмы обрабатывают каждую точку данных как единый кластер вначале, а затем последовательно объединяют (или агломерат ) пары кластеров, пока все кластеры не будут объединены в один кластер, содержащий все точки данных. Таким образом, восходящая иерархическая кластеризация называется иерархической агломеративной кластеризацией или HAC .Эта иерархия кластеров представлена ​​в виде дерева (или дендрограммы). Корень дерева - это уникальный кластер, который собирает все образцы, а листья являются кластерами только с одним образцом. Перед тем, как переходить к шагам алгоритма, просмотрите рисунок ниже.

Агломеративная иерархическая кластеризация
  1. Мы начинаем с обработки каждой точки данных как одного кластера, т.е. если в нашем наборе данных есть X точек данных, то у нас есть X кластеров. Затем мы выбираем метрику расстояния, которая измеряет расстояние между двумя кластерами.В качестве примера мы будем использовать среднее значение связи , которое определяет расстояние между двумя кластерами как среднее расстояние между точками данных в первом кластере и точками данных во втором кластере.
  2. На каждой итерации мы объединяем два кластера в один. Два кластера, которые необходимо объединить, выбираются как кластеры с наименьшей средней связью. То есть, согласно выбранной нами метрике расстояния, эти два кластера имеют наименьшее расстояние между собой и, следовательно, наиболее похожи и должны быть объединены.
  3. Шаг 2 повторяется до тех пор, пока мы не достигнем корня дерева, т.е. у нас будет только один кластер, содержащий все точки данных. Таким образом, мы можем выбрать, сколько кластеров мы хотим в конце, просто выбрав, когда прекратить объединение кластеров, то есть когда мы перестанем строить дерево!

Иерархическая кластеризация не требует от нас указывать количество кластеров, и мы даже можем выбрать, какое количество кластеров выглядит лучше всего, поскольку мы строим дерево. Кроме того, алгоритм нечувствителен к выбору метрики расстояния; все они, как правило, работают одинаково хорошо, тогда как с другими алгоритмами кластеризации выбор метрики расстояния имеет решающее значение.Особенно хороший вариант использования методов иерархической кластеризации - это когда базовые данные имеют иерархическую структуру, и вы хотите восстановить иерархию; другие алгоритмы кластеризации не могут этого сделать. Эти преимущества иерархической кластеризации достигаются за счет более низкой эффективности, поскольку она имеет временную сложность O (n³) , в отличие от линейной сложности K-средних и GMM.

.

Смотрите также

Сайт о Бане - проект, посвященный строительству, эксплуатации и уходу за русской баней. Большой сборник статей, который может быть полезен любому любителю бани

Содержание, карта сайта.