Глубокое обучение (Deep Learning): обзор

Всем привет. Уже в этом месяце в ОТУС стартует новый курс — «Математика для Data Science». В преддверии страта данного курса традиционно делимся с вами переводом интересного материала.

Аннотация. Глубокое обучение является передовой областью исследований машинного обучения (machine learning — ML). Оно представляет из себя нескольких скрытых слоев искусственных нейронных сетей. Методология глубокого обучения применяет нелинейные преобразования и модельные абстракции высокого уровня на больших базах данных. Последние достижения во внедрении архитектуры глубокого обучения в многочисленных областях уже внесли значительный вклад в развитие искусственного интеллекта. В этой статье представлено современное исследование о вкладе и новых применениях глубокого обучения. Следующий обзор в хронологическом порядке представляет, как и в каких наиболее значимых приложениях использовались алгоритмы глубокого обучения. Кроме того, представлены выгода и преимущества методологии глубокого обучения в ее многослойной иерархии и нелинейных операциях, которые сравниваются с более традиционными алгоритмами в обычных приложениях. Обзор последних достижений в области далее раскрывает общие концепции, постоянно растущие преимущества и популярность глубокого обучения.

1. Введение

Искусственный интеллект (ИИ) как интеллект, демонстрируемый машинами, является эффективным подходом к пониманию человеческого обучения и формирования рассуждений [1]. В 1950 году «Тест Тьюринга» был предложен как удовлетворительное объяснение того, как компьютер может воспроизводить когнитивные рассуждения человека [2]. Как область исследований, ИИ делится на более конкретные подобласти. Например: обработка естественного языка (Natural Language Processing — NLP) [3] может улучшить качество письма в различных приложениях [4,17]. Самым классическим подразделением в NLP является машинный перевод, под которым понимают переводом между языками. Алгоритмы машинного перевода способствовали появлению различных приложений, которые учитывают грамматическую структуру и орфографические ошибки. Более того, набор слов и словарный запас, относящиеся к теме материала, автоматически используются в качестве основного источника, когда компьютер предлагает изменения для автора или редактора [5]. На рис. 1 подробно показано, как ИИ охватывает семь областей компьютерных наук.

В последнее время машинное обучение и интеллектуальный анализ данных попали в центр внимания и стали наиболее популярными темами среди исследовательского сообщества. Совокупность этих областей исследования анализируют множество возможностей характеризации баз данных [9]. На протяжении многих лет базы данных собирались в статистических целях. Статистические кривые могут описывать прошлое и настоящее, чтобы предсказывать будущие модели поведения. Тем не менее, в течение последних десятилетий для обработки этих данных использовались только классические методы и алгоритмы, тогда как оптимизация этих алгоритмов могла бы лечь в основу эффективного самообучения [19]. Улучшенный процесс принятия решений может быть реализован на основе существующих значений, нескольких критериев и расширенных методов статистики. Таким образом, одним из наиболее важных применений этой оптимизации является медицина, где симптомы, причины и медицинские решения создают большие базы данных, которые можно использовать для определения лучшего лечения [11].


Рис. 1. Исследования в области искусственного интеллекта (ИИ) Источник: [1].

Поскольку ML охватывает широкий спектр исследований, на данный момент уже разработано множество подходов. Кластеризация, байесовская сеть, глубокое обучение и анализ дерева решений — это только их часть. Следующий обзор в основном фокусируется на глубоком обучении, его основных понятиях, проверенных и современных применениях в различных областях. Кроме того, в нем представлены несколько рисунков, отражающих стремительный рост публикаций с исследованиями в области глубокого обучения за последние годы в научных базах данных.

2. Теоретические основы

Концепция глубокого обучения (Deep Learning — DL) впервые появилась в 2006 году как новая область исследований в машинном обучении. Вначале оно было известно как иерархическое обучение в [2], и как правило оно включало в себя множество областей исследований, связанных с распознаванием образов. Глубокое обучение в основном принимает в расчет два ключевых фактора: нелинейная обработка в нескольких слоях или стадиях и обучение под наблюдением или без него [4]. Нелинейная обработка в нескольких слоях относится к алгоритму, в котором текущий слой принимает в качестве входных данных выходные данные предыдущего слоя. Иерархия устанавливается между слоями, чтобы упорядочить важность данных, полезность которых следует установить. С другой стороны, контролируемое и неконтролируемое обучение связано с меткой классов целей: ее присутствие подразумевает контролируемую систему, а отсутствие — неконтролируемую.

3. Применения

Глубокое обучение подразумевает слои абстрактного анализа и иерархические методы. Тем не менее, оно может быть использовано в многочисленных реальных приложениях. Как пример, в цифровой обработке изображений; раскраска черно-белых изображений раньше выполнялась вручную пользователями, которым приходилось выбирать каждый цвет на основе своего собственного суждения. Применяя алгоритм глубокого обучения, раскраска может выполняться автоматически с помощью компьютера [10]. Точно так же звук может быть добавлен в видео с игрой на барабанах без звука с использованием рекуррентных нейронных сетей (Recurrent Neural Networks — RNN), которые являются частью методов глубокого обучения [18].

Глубокое обучение может быть представлено как метод улучшения результатов и оптимизации времени обработки в нескольких вычислительных процессах. В области обработки естественного языка методы глубокого обучения были применены для создания подписей к изображениям [20] и генерации рукописного текста [6]. Следующие применения детальнее классифицированы в таких областях как цифровая обработка изображений, медицина и биометрия.

3.1 Обработка изображений

До того, как глубокое обучение официально утвердилось в качестве нового исследовательского подхода, некоторые приложения были реализованы в рамках концепции распознавания образов посредством обработки слоев. В 2003 году был разработан интересный пример с применением фильтрации частиц и алгоритма распространения доверия (Bayesian – belief propagation). Основная концепция этого приложения полагает, что человек может распознавать лицо другого человека, наблюдая только половину изображения лица [14], поэтому компьютер может восстановить изображение лица из обрезанного изображения.

Позже в 2006 году жадный алгоритм и иерархия были объединены в приложение, способное обрабатывать рукописные цифры [7]. Недавние исследования применили глубокое обучение в качестве основного инструмента для цифровой обработки изображений. Например, применение сверточных нейронных сетей (Convolutional Neural Networks — CNN) для распознавания радужной оболочки может быть более эффективным, чем использование привычных датчиков. Эффективность CNN может достигать 99,35% точности [16].

Мобильное распознавание местоположения в настоящее время позволяет пользователю узнать определенный адрес на основе изображения. Алгоритм SSPDH (Supervised Semantics – Preserving Deep Hashing) оказался значительным улучшением по сравнению VHB (Visual Hash Bit) и SSFS (Space – Saliency Fingerprint Selection). Точность SSPDH аж на 70% эффективнее [15].

Наконец, еще одно замечательное применение в цифровой обработке изображений с использованием метода глубокого обучения — распознавание лиц. Google, Facebook и Microsoft имеют уникальные модели распознавания лиц с глубоким обучением [8]. В последнее время идентификация на основе изображения лица изменилась на автоматическое распознавание путем определения возраста и пола в качестве исходных параметров. Sighthound Inc., например, тестировали алгоритм глубокой сверточной нейронной сети, способный распознавать не только возраст и пол, но даже эмоции [3]. Кроме того, была разработана надежная система для точного определения возраста и пола человека по одному изображению путем применения архитектуры глубокого многозадачного обучения [21].

3.2 Медицина

Цифровая обработка изображений, несомненно, является важной частью исследовательских областей, где может применяться метод глубокого обучения. Таким же образом, недавно тестировались клинические приложения. Например, сравнение между малослойным обучением и глубоким обучением в нейронных сетях привело к лучшей эффективности в прогнозировании заболеваний. Изображение, полученное с помощью магнитно-резонансной томографии (МРТ) [22] из головного мозга человека, было обработано, чтобы предсказать возможную болезнь Альцгеймера [3]. Не смотря на быстрый успех этой процедуры, некоторые проблемы должны быть серьезно рассмотрены для будущих применений. Одними из ограничений являются тренировка и зависимость от высокого качества. Объем, качество и сложность данных являются сложными аспектами, однако интеграция разнородных типов данных является потенциальным аспектом архитектуры глубокого обучения [17, 23].

Оптическая когерентная томография (ОКТ) является еще одним примером, где методы глубокого обучения показывают весомые результаты. Традиционно изображения обрабатываются путем ручной разработки сверточных матриц [12]. К сожалению, отсутствие учебных наборов ограничивает метод глубокого обучения. Тем не менее, в течение нескольких лет внедрение улучшенных тренировочных наборов будет эффективно предсказывать патологии сетчатки и уменьшать стоимость технологии ОКТ [24].

3.3 Биометрия

В 2009 году было применено приложение для автоматического распознавания речи, чтобы уменьшить частоту телефонных ошибок (Phone Error Rate — PER) с использованием двух разных архитектур сетей глубокого доверия [18]. В 2012 году метод CNN [25] был применен в рамках гибридной нейронной сети — скрытой модели маркова (Hybrid Neural Network — Hidden Markov Model — NN — HMM). В результате был достигнут PER на уровне 20,07%. Полученный PER лучше по сравнению с ранее применяемым 3-слойным методом базовой линии нейронной сети [26]. Смартфоны и разрешение их камер были протестированы для распознавания радужной оболочки. При использовании мобильных телефонов, разработанных различными компаниями, точность распознавания радужной оболочки может достигать до 87% эффективности [22,28].

С точки зрения безопасности, особенно контроля доступа; глубокое обучение используется в сочетании с биометрическими характеристиками. DL был использован для ускорения разработки и оптимизации устройств распознавания лиц FaceSentinel. По словам этого производителя, их устройства могут расширить процесс идентификации с одного-к-одному до одного-к-многим за девять месяцев [27]. Это усовершенствование движка могло бы занять 10 человеко-лет без внедрения DL. Что ускорило производство и запуск оборудования. Эти устройства используются в лондонском аэропорту Хитроу, а также могут использоваться для учета рабочего времени и посещаемости, и в банковском секторе [3, 29].

4. Обзор

Таблица 1 подытоживает несколько применений, реализованных в течение предыдущих лет относительно глубокого обучения. В основном упоминаются распознавание речи и обработка изображений. В этом обзоре рассматриваются только некоторые из большого списка применений.

Таблица 1. Применения глубокого обучения, 2003–2017 гг.

(Применение: 2003 — Иерархический байесовский вывод в зрительной коре; 2006 — Классификация цифр; 2006 — Глубокая сеть доверия для телефонного распознавания; 2012 — Распознавание речи из множественных источников; 2015 — Распознавание радужки глаза с помощью камер смартфонов; 2016 — Освоение игры Го глубокими нейронными сетями с поиском по дереву; 2017 — Модель сенсорного распознавания радужки).

4.1 Анализ публикаций за год

На рис. 1 приведено количество публикаций по глубокому обучению из базы данных ScienceDirect в год с 2006 по июнь 2017 года. Очевидно, что постепенное увеличение числа публикаций мог бы описать экспоненциальный рост.

На рис. 2 представлено общее количество публикаций по глубокому обучению в Springer в год с января 2006 года по июнь 2017 года. В 2016 году наблюдается внезапный рост публикаций, достигающий 706 публикаций, что доказывает, что глубокое обучение действительно в центре внимания современных исследований.

На рис. 3 показано количество публикаций на конференциях, в журналах и изданиях IEEE с января 2006 года по июнь 2017 года. Примечательно, что с 2015 года количество публикаций значительно увеличилось. Разница между 2016 и 2015 годами составляет более 200% прироста.


Рис. 1. Рост количества публикаций по глубокому обучению в базе данных Sciencedirect (январь 2006 г. — июнь 2017 г.)


Рис. 2. Рост количества публикаций по глубокому обучению из базы данных Springer. (январь 2006 г. — июнь 2017 г.)


Рис. 3. Рост публикаций в по глубокому обучению из базы данных IEEE. (январь 2006 г. — июнь 2017 г.)

5. Выводы

Глубокое обучение — действительно быстро растущее применение машинного обучения. Многочисленные приложения, описанные выше, доказывают его стремительное развитие всего за несколько лет. Использование этих алгоритмов в разных областях показывает его универсальность. Анализ публикаций, выполненный в этом исследовании, ясно демонстрирует актуальность этой технологии и дает четкую иллюстрацию роста глубокого обучения и тенденций в отношении будущих исследований в этой области.

Кроме того, важно отметить, что иерархия уровней и контроль в обучении являются ключевыми факторами для разработки успешного приложения в отношении глубокого обучения. Иерархия важна для соответствующей классификации данных, в то время как контроль учитывает важность самой базы данных как части процесса. Основная ценность глубокого обучения заключается в оптимизации существующих приложений в машинном обучении благодаря инновационности иерархической обработки. Глубокое обучение может обеспечить эффективные результаты при цифровой обработке изображений и распознавании речи. Снижение процента ошибок (от 10 до 20%) явно подтверждает улучшение по сравнению с существующими и проверенными методами.

В нынешнюю эпоху и в будущем глубокое обучение может стать полезным инструментом безопасности благодаря сочетанию распознавания лиц и речи. Помимо этого, цифровая обработка изображений является областью исследований, которая может применяться в множестве других областей. По этой причине и доказав истинную оптимизацию, глубокое обучение является современным и интересным предметом развития искусственного интеллекта.

Использованная литература

  1. Abdel, O.: Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition. Acoustics, Speech and Signal Processing 7, 4277-4280 (2012).
  2. Mosavi A., Varkonyi-Koczy A. R.: Integration of Machine Learning and Optimization for Robot Learning. Advances in Intelligent Systems and Computing 519, 349-355 (2017).
  3. Bannister, A.: Biometrics and AI: how FaceSentinel evolves 13 times faster thanks to deep learning (2016).
  4. Bengio, Y.: Learning deep architectures for AI. Foundations and trends in Machine Learning 2, 1-127 (2009).
  5. Mosavi, A., Varkonyi-Koczy, A. R., Fullsack, M.: Combination of Machine Learning and Optimization for Automated Decision-Making. MCDM (2015).
  6. Deng L, Yu D Deep learning: methods and applications. Foundations and Trends in Signal Processing 7, 197-387 (2014)
  7. Goel, B.: Developments in The Field of Natural Language Processing. International Journal of Advanced Research in Computer Science 8, (2017).
  8. Vaezipour, A.: Mosavi, A. Seigerroth, U.: Machine learning integrated optimization for decision making, 26th Europian Conference on Operational Research, Rome (2013).
  9. Hinton G E, Simon O, Yee-Whye T A fast learning algorithm for deep belief nets. Neural computation 18, 1527-1554 (2006)
  10. Hisham, A., Harin, S.: Deep Learning – the new kid in Artificial Intelligence. (2017)
  11. Kim I W, Oh, M.: Deep learning: from chemoinformatics to precision medicine. Journal of Pharmaceutical Investigation: 1-7 (2017)
  12. Mosavi, A., Vaezipour, A.: Developing Effective Tools for Predictive Analytics and Informed Decisions. Technical Report. University of Tallinn (2013)
  13. Mosavi A., Y., Bathla, Varkonyi-Koczy A. R.: Predicting the Future Using Web
    Knowledge: State of the Art Survey Advances in Intelligent Systems and Computing (2017).
  14. Mosavi, A., Vaezipour, A.: Reactive Search Optimization; Application to Multiobjective
    Optimization Problems. Applied Mathematics 3, 1572-1582 (2012)
  15. Lee J-G (2017) Deep Learning in Medical Imaging: General Overview. Korean Journal of
    Radiology 18(4):570-584
  16. Lee T.: David M Hierarchical Bayesian inference in the visual cortex. JOSA 20, 1434-1448
    (2003).
  17. Liu W Deep learning hashing for mobile visual search. EURASIP Journal on Image and
    Video Processing 17, (2017).
  18. Marra F.: A Deep Learning Approach for Iris Sensor Model Identification. Pattern Recognition Letters (2017).
  19. Miotto R et al (2017) Deep learning for healthcare: review, opportunities and challenges.
    Briefings in Bioinformatics
  20. Mohamed A.: Deep belief networks for phone recognition. Nips workshop on deep learning
    for speech recognition and related applications: 1, 635-645 (2009).
  21. Moor. J.: The Turing test: the elusive standard of artificial intelligence. Springer Science &
    Business Media (2003).
  22. Vaezipour, A. Mosavi, U. Seigerroth, A.: Visual analytics and informed decisions in health
    and life sciences, International CAE Conference, Verona, Italy (2013)
  23. Raja K B, Raghavendra R, Vemuri V K, Busch C (2015) Smartphone based visible iris
    recognition using deep sparse filtering. Pattern Recognition Letters 57:33-42.
  24. Safdar S, Zafar S, Zafar N, Khan N F (2017) Machine learning based decision support systems (DSS) for heart disease diagnosis: a review. Artificial Intelligence Review: 1-17
  25. Mosavi, A. Varkonyi. A.: Learning in Robotics. Learning 157, (2017)
  26. Xing J, Li K, Hu W, Yuan C, Ling H et al (2017) Diagnosing deep learning models for high
    accuracy age estimation from a single image. Pattern Recognition
  27. Mosavi, A. Rabczuk, T.: Learning and Intelligent Optimization for Computational Materials
    Design Innovation, Learning and Intelligent Optimization, Springer-Verlag, (2017)
  28. Vaezipour, A., et al., Visual analytics for informed-decisions, International CAE Conference, Verona, Italy, (2013).
  29. Dehghan, A.: DAGER: Deep Age, Gender and Emotion Recognition Using Convolutional
    Neural Network3, 735-748 (2017)
  30. Mosavi, A: predictive decision model, 2015, https://doi.org/10.13140/RG.2.2.21094.630472
  31. Vaezipour, A., et al.: Visual analytics and informed decisions in health and life sciences.»
    Paper in Proceedings of International CAE Conference, Verona, Italy. (2013).
  32. Vaezipour, A.: Visual analytics for informed-decisions, CAE Conference, Italy, (2013).
  33. A.Vaezipour, A.:Machine learning integrated optimization for decision making. 26th European Conference on Operational Research, Rome (2013).
  34. Vaezipour, A.: Visual Analytics for Multi-Criteria Decision Analysis, in Proceedings of International CAE Conference, Verona, Italy (2013).
  35. Mosavi, A., Vaezipour, A.: Developing Effective Tools for Predictive Analytics and Informed Decisions. Technical Report. (2013). https://doi.org/10.13140/RG.2.2.23902.84800
  36. Mosavi A., Varkonyi-Koczy A. R.: Integration of Machine Learning and Optimization for
    Robot Learning. Advances in Intelligent Systems and Computing 519, 349-355 (2017).
  37. Mosavi, A., Varkonyi, A.: Learning in Robotics. Learning, 157, (2017).
  38. Mosavi, A.: Decision-making software architecture; the visualization and data mining assisted approach. International Journal of Information and Computer Science 3, 12-26 (2014).
  39. Mosavi, A.: The large scale system of multiple criteria decision making; pre-processing,
    Large Scale Complex Systems Theory and Applications 9, 354-359 (2010).
  40. Esmaeili, M., Mosavi, A.: Variable reduction for multiobjective optimization using data
    mining techniques. Computer Engineering and Technology 5, 325-333 (2010)
  41. Mosavi, A.: Data mining for decision making in engineering optimal design. Journal of AI
    and Data Mining 2, 7-14 (2014).
  42. Mosavi, A., Vaezipour, A.: Visual Analytics, Obuda University, Budapest, (2015).
  43. Mosavi, A., Vaezipour, A.: Reactive Search Optimization; Application to Multiobjective
    Optimization Problems. Applied Mathematics 3, 1572-1582 (2012).
  44. Mosavi, A., Varkonyi-Koczy, A. R., Fullsack, M.: Combination of Machine Learning and
    Optimization for Automated Decision-Making. MCDM (2015).
  45. Mosavi, A., Delavar, A.: Business Modeling, Obuda University, Budapest, (2016).
  46. Mosavi, A.: Application of data mining in multiobjective optimization problems. International Journal for Simulation and Multidisciplinary Design Optimization, 5, (2014)
  47. Mosavi, A. Rabczuk, T.: Learning and Intelligent Optimization for Material Design Innovation, Theoretical Computer Science and General Issues, LION11 (2017).
  48. Mosavi, A., Visual Analytics, Obuda University, 2016.
  49. Mosavi, A.: Predictive decision making, Tech Rep 2015. doi: 10.13140/RG.2.2.16061.46561
  50. Mosavi. A.: Predictive Decision Making, Predictive Decision Model, Tech. Report. (2015).
    https://doi.org/10.13140/RG.2.2.21094.63047
  51. Mosavi, A., Lopez, A.: Varkonyi-Koczy, A.: Industrial Applications of Big Data: State of
    the Art Survey, Advances in Intelligent Systems and Computing, (2017).
  52. Mosavi, A., Rabczuk, T., Varkonyi-Koczy, A.: Reviewing the Novel Machine Learning
    Tools for Materials Design, Advances in Intelligent Systems and Computing, (2017).
  53. Mousavi, S., Mosavi, A., Varkonyi-Koczy, A. R.: A load balancing algorithm for resource
    allocation in cloud computing, Advances in Intelligent Systems and Computing, (2017).
  54. Baranyai, M., Mosavi, A., Vajda, I., Varkonyi-Koczy, A. R.: Optimal Design of Electrical
    Machines: State of the Art Survey, Advances in Intelligent Systems and Computing, (2017).
  55. Mosavi, A., Benkreif, R., Varkonyi-Koczy, A.: Comparison of Euler-Bernoulli and Timoshenko Beam Equations for Railway System Dynamics, Advances in Intelligent Systems
    and Computing, (2017).
  56. Mosavi, A., Rituraj, R., Varkonyi-Koczy, A. R.: Reviewing the Multiobjective Optimization
    Package of modeFrontier in Energy Sector, Advances in Intelligent Systems and Computing,
    (2017).
  57. Mosavi, A., Bathla, Y., Varkonyi-Koczy A. R.: Predicting the Future Using Web
    Knowledge: State of the Art Survey, Advances in Intelligent Systems and Computing,
    (2017).
FavoriteLoadingДобавить в избранное
Posted in Без рубрики

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *