- ЛЕКЦІЯ 1. ОСНОВНІ ТИПИ ТА ФОРМАТИ ЗОБРАЖЕНЬ,
- МЕТОДИ ЇХ ОТРИМАННЯ
- Основні функції зорового аналізатора (ЗА)
- Фізичні особливості ЗА:
- Механізми і процеси ЗА:
ЛЕКЦІЯ 1. ОСНОВНІ ТИПИ ТА ФОРМАТИ ЗОБРАЖЕНЬ,
МЕТОДИ ЇХ ОТРИМАННЯ
1.1 КЛАСИФІКАЦІЯ (ТАКСОНОМІЯ) ЗОБРАЖЕНЬ
Два фактори (аспекти): 1) за призначенням (зовнішній, функціонал), 2) За структурою (внутрішній, будова)
За призначенням
- оптичні зображення (фото, відео, також іч та уф)
- інші реальні – за межами оптичного діапазону (електричні, магнітні, емп, емх, нвч, рентген, гамма) та частинки (електронні промені, іонізуючі частинки)
- реконструйовані з реальних з метою візуалізації джерел – наприклад томогафія чи розвязання оберненої задачі
- похідні, отримані в результаті математичних перетворень (фурє, вейвлет, уолша, хаара, дкп, мнк, мгк, карунена-лоева та інші)
- абстрактні – довільні образи в двовимірних просторах чи зрізах багатовимірних просторів, двовимірні функції, простори ознак, фрактали, результати статобробки (скаттерограми та ін.), кластеризація, точкові функції, карти пуанкаре, фазові простори, біфуркаційні діаграми та ін.
За структурою
-
Формати даних у тому числі файлів, алгоритми стиснення, засоби архівування та передачі, (bmp, gif, tiff, jpeg), cпецформати для певних галузей (scp-ecg, dicom, pacs)
-
Прості – 1 піксел – 1 число (атрибут) – мат модель – матриця, чорнобілі та інші монохромні, колір та псевдоколір, бінаризовані, більша кількість градацій, контурні
3) складні – 1 піксел – більш ніж 2 атрибути, вектор атрибутів – матмодель – набір матриць або матриця з елементами-векторами, блочна матриця, атрибути – інтенсивність, колір, напрям, швидкість, щільність, тип обєкту
Приклади – псевдо- чи кольорове зображення, сегментоване (тассельоване, триангульоване) зображення, векторне поле (градієнт, ротор-вихор, швидкість),
Поєднання їх – напр кольорове-векторне, тип-щільність, псевдоколір-вихор (карти ргс) та псевдоколір-швидкість (метеорологія)
- 4) композитні – утворене як набір простих чи складних - багато- чи мульти- шарові, сректральні, зрізові , мат модель – набір матриць,
- 5) набір у просторі чи часі – послідовність, ряд, потік – особливість наявність кореляції, тобто надлишкова інформація
- 6) похідні від композитних та послідовностей та різні представлення-узагальнення – комплексні, та на основі Гільберта.
- 7) Формати даних у тому числі файлів, алгоритми стиснення, засоби архівування та передачі, (bmp, gif, tiff, jpeg), cпецформати для певних галузей (scp-ecg, dicom, pacs)
- 8) Прості – 1 піксел – 1 число (атрибут) – мат модель – матриця, чорнобілі та інші монохромні, колір та псевдоколір, бінаризовані, більша кількість градацій, контурні.
Растрові графічні файли стали активно застосовуватися для зберігання і транспортування графічної інформації, в системах обробки даних та підготовки науково-технічної документації, що використовують персональні комп'ютери, а також лазерні та струменеві друкуючі пристрої. Основними характеристиками растрових файлів є метод упаковки (стиснення) інформації і тип підтримуваної колірної моделі.
Спочатку растрові файли містили тільки статичні зображення. Останнім часом з'явилися проекти по стандартизації форматів динамічних (анімаційних) зображень. Сьогодні використовується вже велика кількість різноманітних форматів растрових файлів. Деякі з них (наприклад, GIF, TIFF, РСХ) отримали широке розповсюдження і підтримку, інші чекають суспільного визнання, треті підтримуються тільки їх розробниками.
GIF – Compuserve Graphics Interchange Format
TIFF – Aldus & Microsoft Tag Image File Format
РСХ – ZSoft РС Paintbrush format
RLE – Compuserve & Teletext Run Length Encoded
ВМР – Microsoft Windows BitMaP
LBM – Deluxe Paint format
PIC – Pictor/PC Paint forma
МАС – MacPaint format
IMG – Gem Paint format
CUT – Dr. Halo Cut files
TGA – Targa format
JPEG – Joint Photographic Experts Group
MEPG – Moving Pictures Experts Group
FLC – AutodeskAnimator
AVI – Microsoft Animation VIdeo GIF формат був розроблений в CompuServe Incorporation для зберігання і транспортування растрових зображень. Підтримувана колірна модель - індексовані кольорові зображення. Використовує метод кодування LZW (Lempel, Ziv & Welch), що дає високий коефіцієнт стиснення. Дозволяє утримувати в одному файлі кілька зображень, не пов'язаних між собою. Підтримується багатьма розробниками графічних систем.
TIFF розроблений фірмами Aldus і Microsoft головним чином для настільних видавничих систем. Поширеність цього формату обумовлена його гнучкістю в частині підтримуваних способів кодування і кольорових моделей зображення. TIFF підтримує дворівневі (bi-level), монохромні (gray-scale), індексовані кольорові (paletted color), і повні кольорові (full RGB) зображення. Для кодування різних зображень або його частин можуть застосовуватися різні методи, зокрема LZW. Крім того, TIFF містить метричні характеристики зображення - розмір, щільність і пр. Передбачена можливість запису в один файл декількох зображень та / або копій одного зображення з різними метричними характеристиками.
РСХ формат поширений на ПК і підтримується безліччю графічних редакторів і настільних видавничих систем. У РСХ використовується попутне або потокове стиснення на основі врахування повторюваних серій. Цей метод, в порівнянні з LZW, дає більш низький коефіцієнт стиснення, однак час, необхідний для читання / запису упакованого таким способом файлу, практично дорівнює часу читання / запису вихідного файлу. Це дає переваги при використанні РСХ формату в інтерактивних системах з швидкою зміною зображень.
JPEG – стандарт ISO, орієнтований на цифрове опис (стиснення і кодування) фотозображень. Він передбачає можливість часткової втрати інформації без візуального погіршення якості зображення.
MPEG – стандарт ISO, призначений для кодування динамічних зображень і пов'язаної з ними звукової інформації.
ВМР, LBM, PIC, IMG, CUT, FLC і безліч інших форматів є локальними стандартами на подання растрових зображень у рамках відповідних програмних систем. Розглянуті графічні стандарти відображають процес розвитку машинної графіки від векторних систем до систем генерації реалістичних зображень. Наступне покоління стандартів буде пов'язане вже з розвитком систем мультимедіа, гіпермедіа та віртуальної реальності, в яких графічна інформація поєднується з будь-якої іншої.
Сенсорна інформація щодо навколишнього середовища сприймається людиною або твариною у вигляді змін таких параметрів як як інтенсивність світла, довжина світлової хвилі, форма, розміри й положення об'єкта. Основний елемент зорового аналізатора (сенсорної системи, шо перетворює оптичні стимули в послідовність нервових імпульсів) є око; його призначення — фокусування зображення на сітківку; регуляція кількості світла, шо бере участь у формуванні зображення; перетворення зображення фоторецепторною системою ока і передача інформації в мозок.
Будову ока ссавців в горизонтальній площині наведено на рис. 2.65. Зовнішній захисний шар, що оточує очне яблуко, називається склерою. На передній частині ока склера переходить в прозору шарувату структуру, що зветься рогівкою. Задні дві третини ока облицьовує пігментований шар — судинна оболонка. Саме в цій оболонці міститься сітківка, шо має фоторецептори. Світло надходить в око крізь рогівку в передню камеру, так само, як і задня камера, вона заповнена прозорою рідиною — водянистою вологою. Між передньою і задньою камерами розташована райдужна оболонка, яка виконує функції діафрагми. Завдяки скороченню або розслабленню мускулатури м'язів змінюється величина діаметра зіниці — отвору, через який світло проходить в задню частину ока. За райдужною оболонкою розміщений кришталик, радіус кривизни якого може бути змінений за допомогою війчастого тіла. Простір між кришталиком та сітківкою заповнений скловидним тілом — желатиноподібною рідиною. На сітківці, до якої врешті-решт досягає світло, є оптичний диск, до якого сходяться нервові волокна. Там же розташована й центральна ямка, що є місцем найкращого зору.
|
Цікаво розглянути властивості зорового аналізатора деяких живих істот, які в процесі еволюції придбали специфічних рис. До таких істот можна сміливо віднести коня. Очне яблуко коня асиметричне; рогівка розміщена поблизу верхньої ділянки ока; сітківка зсунута відносно оптичної осі ока. Війчасті м'язи відіграють незначну роль у зміні радіуса кривизни кришталика.
Здатність коня фокусувати зоровий аналізатор на об'єкти, розташовані на різних відстанях, досягається простим нахилом голови. З кожною зміною положення голови коня змінюється фокусна відстань (рис. 2.66) — від 40 до 45 мм. Ще однією особливістю зорового аналізатора коня є форма зіниці — у молодих коней зіниця кругла, після 5—6 років форма зіниці наближається до еліпсоїдальної.
Розміри ока у ссавців варіюють у широких межах. Не завжди зміна розміру ока супроводжується адекватною зміною структурних елементів — товщина сітківки змінюється не так істотно, як розміри інших елементів.
Зоровий аналізатор птахів призначений не тільки для створення зорових зображень; функції його полягають також у формуванні кольорових образів, що важливо з точки зору розпізнавання сексуальних партнерів, суперників та ворогів. Більшість птахів проводить весь свій час у пошуках корму. Вони можуть вести денний або нічний спосіб життя; деякі з них літають високо над поверхнею землі. Все це накладає відбиток на будову й функції зорового аналізатора, що сформувався протягом еволюції. Можна розрізнити 4 основних типи будови ока у птахів.
Рурчастий (циліндричний) тип ока характеризується грушеподібною формою, значною сітківкою й істотно меншою напівсферичною рогівкою, що виступає вперед (рис. 2.67,а). Чотири п'ятих ока сховано в черепній коробці птаха. Є чітко виражена склеротична кісточка. Такий тип ока у сови.
Плаский тип ока властивий курям (рис. 2.67,6). Кулястий тип ока характерний для птахів-хижаків. Око цього типу має дзвоноподібну форму з опуклою рогівкою (рис. 2.67,е). Діаметр ока у хижаків значно менший, ніж у звичайних птахів. Такий тип ока забезпечує гостре фокусування на великих відстанях. Пласко-сферичний тип ока у співочих птахів. Характерними рисами такого ока є ледь приплюснута, але сферична форма рогівки (рис. 2.67,г).
Рис. 2.67. Основні типи будови ока у птахів (пояснення в тексті)
Таким чином, птахи відрізняються не лише за формою ока, але й за його внутрішньою структурою. Очні яблука більшості птахів мають два специфічних пристрої для підвищення гостроти зору — центральну ямку і гребінець.
Центральна ямка являє собою надчутливу область, насичену колбочками, розташовану на сітківці. Зазвичай центральна ямка має форму вузенької смужки. Це особливо доцільно для птахів, які полюють за комахами — видовжена форма цього органа дає можливість контролювати комах без додаткових обертань голови. Око хижака обладнане двома центральними ямками, кожна з яких настроєна на різні об'єкти. Те ж саме можна сказати щодо швидких полювальників за комахами — ластівок і стрижів. Голуби взагалі не мають центральної ямки.
Гребінець являє собою складчасте пігментоване утворення, насичене кровоносними судинами і з'єднане з оптичним нервом (рис. 2.68). Кількість складок у способу життя — у свійської птиці вона становить: 15 у курки, 13-у качки І гуски. Птахи, що літають на великих висотах, мають іншу кількість складок: 24 у галки, 23—26 — у ворони.
Існують гіпотези, згідно з якими гребінець: виконує функції стабілізатора тиску всередині ока, зміни якого супроводжують швидкий рух птахів; є органом чуття, здатним відчувати зміни тиску при акомодації та забезпечувати гостроту бачення віддалених об’єктів; послаблює засліплюючи та пошкоджуючу дію сфокусованого кришталиком сонячного випроміню-вання на сітківку; бере участь у навігаційних здатностях птахів орієнтуватися відносно Сонця; відчуває вплив зовнішнього магнітного поля і сонячного випромінювання через участь кровоносної системи гребінця як сукупності струмопровідних витків, розміщених у двох взаємно перпендикулярних площинах, і використовує фотомагнітний ефект для орієнтації у просторі.
Рис. 2.69. Будова ока риби
|
Структуру ока риби наведено на рис. 2.69. Для захисту рогівки від великих тисків і піску око обладнане оболонкою — твердим прозорим утворенням. Коефіцієнти заломлення оболонки, рогівки і води приблизно однакові. Фокусування ока на об'єкт здійснюється за допомогою втягуючого м'яза, що пересуває кришталик вздовж оптичної осі рогівки. Форма ока залежить від способа життя риби — мешканці глибин мають рурчасту форму, причому сітківка розмішена так, щоб забезпечити фокусування на об'єкти на різних віддалях.
Форма ока інших типів риб нагадує правильний трикутник; вона забезпечує різні фокусні відстані для об'єктів, розташованих вгорі або безпосередньо перед рибою. В акули, наприклад, очі взагалі без оболонки. Крім того, фокусування ока на об'єкт здійснюється за допомогою м'яза, що наближує кришталика до рогівки (на відміну від інших риб).
Реакція на світло у комах здійснюється за допомогою двох складних очей і трьох простих. Просте око являє собою лінзоподібний горбик на хітиновому покриві голови, до якого зсередини підходять нервові клітини. Складається просте око з прозорої лінзи, шару зорових клітин (близько 800) і зорового нерва (рис. 2.70).
На сітківці простого ока не формується зорове зображення; в той же час прості очі в змозі сприймати такі параметри оптичного випромінювання як інтенсивність, період І спектральний склад. Вважається, що прості очі здатні реагувати на сутінки або світанок, забезпечуючи орієнтацію комахи в умовах недостатньої освітленості.
Складні очі мають фасеткову структуру, що формує мозаїчну картину (рис. 2.71). Складається складне око з набору оматидіїв, кількість яких становить 25000 у жуків, 8000-10000 у бджіл, 4000 у мух, 100-1000 у мурашок. Основними елементами оматидію є кришталева лінза (рогівка), кришталевий конус, пігментні клітини, фоторецептор, рабдом (ретинальна клітина) (рис. 2.72).
У бджоли, наприклад, до внутрішнього кінця кришталевого конуса приєднано вісім радіальне розташованих зорових клітин, завдяки яким комаха здатна сприймати поляризацію відбитого сонячного випромінювання і орієнтуватись у просторі. Щодо здатності комах сприймати колір вважається що метелики, мухи і деякі жуки реагують на синій колір, бджоли - на червоний, жовтий, зелений і синьо-зелений. Крім того, комахам властива чутливість до ультрафіолетового випромінювання. Але можливим поясненням відвідування комахами кольорових квітів є їх здатність розрізняти інтенсивність випромінювання, відбитого від різних частин квітки. |
Фоторецепція у мікроорганізмів
Основне призначення фоторецепторної системи мікроорганізмів — забезпечення організму інформацією про стан навколишнього середовища, зокрема, інтенсивність світлового стимулу, просторових і часових характеристик, за допомогою яких мікроорганізм здатний орієнтуватися відносно одного з найважливіших зовнішніх факторів — світла. Просторові та часові зміни інтенсивності та напрямки світлового потоку можуть зумовлювати відповідні зміни в рухливій активності цілих організмів (фототаксиси), їх частин, напри-клад, органів вищих рослин (фотот-ропізму) або органел (фотоорієнтація поропластів). Структура, місце розташування і принципи дії фоторецепторних систем мікро-організмів відзначаються великим різноманіттям. Розглянемо деякі фоторецеп-тори і системи водних мікроорганізмів, в основі яких лежать різні фізичні принципи.
|
Фоторецепторна система дииофіцієвих водоростей має особливу спеціалізовану органелу - оцелоїд, що являє собою фокусуючу систему (рис. 2.73).Цілком можливо, що оцелоїди динофлагелят здатні не тільки реагувати на напрямок світлового потоку, але й утворювати зорові зображення. Представник евгленофітових водоростей Еuglena gracilis має фоторецептор – параджгутикове тіло, розміщене біля основи джгутика. |
||
Збоку, в цитоплазмі, на стінці резервуара міститься стигма, яка виконує функції модулятора світлового потоку, що попадає на фоторецептор (рис. 2.74). Під час руху вперед, до джерела світла кліти-на евглени оберта-ється навколо поз-довжньої осі. Як тільки клітина відхи-ляється від напрямку світлового потоку, стигма при кожному обертанні періодично затемнює фоторецептор. Сигнал перелається на джгутик і останній коригує рух клітини. Якщо рух клітини збігається з напрямком світлового потоку, затінення фоторецептора стигмою не відбувається і потреба в корекції руху відпадає. |
Своєрідну фоторецепторну систему має зелена водорість Chlamydomonas reinhardtii, стигма якої складається з чотирьох шарів пігментованих глобул, що виконують функції чверть-хвильової пластини. Якщо світло палає на бокову поверхню клітини, де розміщена стигма, фоторецептор отримує сигнал посиленої інтенсивності, що дорівнює сумі інтенсивностей падаючого і відбитого світла завдяки інтерференції світлових потоків, які потрапляють на стигму і відбиваються від кожного з шарів (рис. 2.75 ). Якщо освітлюється протилежний бік, сигнал, що отримує фоторецептор, послаблюється завдяки поглинанню світла тілом клітини і стигмою. Таким чином стигма утворює своєрідну антену, що визначає місце розміщення джерела світла |
Світловий потік, що потрапляє в око, зазнає заломлення на роговій оболонці (п = 1,376; r = 7,8 мм). Після цього відбувається заломлення під час переходу з рогової оболонки в передню камеру (n = 1,336). Подальше заломлення відбувається в кришталику, показник заломлення якого поступово зростає від 1,386 до 1,406 б напрямку його ядра. За кришталиком розміщена внутрішня камера ока (п = 1,336). Таким чином, структура ока включає чотири сферичних межі розподілу середовищ з різними показниками заломлення (рис. 2.76). Розрахунки свідчать, що оптична сила ока становить: 58,64 діоптрій у людини; 61,3 — у овці; 47,7 — у корови; 78,2 — у коня.
Рис. 2.76. Заломлююча здатність ока
Сітківка ссавців складається з п'яти типів клітин — фоторецепторних, біполярних, горизонтальних, амакринових і гангліозних. Фоторецепторні клітини (палички і колбочки) перебувають у контакті з біполярними клітинами, що здійснюють зв'язок з ганг-ліозними клітинами (рис. 2.77). Останні передають потенціал дії мозку. Горизонтальні клітини з'єд-нують – по горизонталі фоторецепторні і гангліозні клітини; амакринові — по горизонталі біполярні й гангліозні клітини. Фоторецепторні клітини (палички і колбочки) містять зорові пігменти — родопсин у паличках і йодопсин — у колбочках. Родопсин являє собою білок, що складається з білка опсину та хромофорної групи — ретиналю.
Йодопсин також містить ретиналь, але відрізняється від родопсину білковою частиною. Під дією світла молекула ретиналю збуджується, зазнаючи при цьому процесу фотоізомеризації. Потім відбувається серія конформаційних перебудов молекули білка опсину, пов'язаних із переміщенням по ній заряду, що утворює ранній рецепторний потенціал, а через 1 мс — пізній рецепторний потенціал. Під впливом світла відбувається замикання йонних каналів, що призводить до гіпероляризації клітинної мембрани. Очевидно, аналогічні процеси відбуваються й у колбочках: поглинання кванта світла молекулою йодопсину зумовлює ЇЇ збудження та появу раннього рецепторного потенціалу. Таким чином, процеси зору являють собою складний ланцюг ініціації світлом у зорових пігментах фотохімічних реакцій, ізомеризації молекул фотопігментів, зміни проникності мембрани фоторецептора, утворення електричного потенціалу в фоторецепторній мембрані і передачі електричного імпульсу від зорового нерва мозку. |
Рис. 2.77. Основні типи клітин сітківки |
1.5 ЗОРОВИЙ АНАЛІЗАТОР ЛЮДИНИ ЯК ПРОТОТИП СИСТЕМ ТЕХНІЧНОГО ЗОРУ
Зорова система людини вдосконалювалась на протязі мільйонів років і досягла надзвичайно високого рівня організації. Узагальнена модель зорової системи людини є багатофункціональною та складається з декількох десятків, а то й сотні, локальних моделей, які описують цілий ряд структурних, фізичних, геометричних і психофізичних механізмів та процесів. Процес сприйняття візуальної інформації людиною є динамічним, з багатьма параметрами, які змінюються в процесі сприйняття, з багатьма зворотними зв'язками. Ми не тільки бачимо, ми й дивимось, реагуємо, тобто такий процес є активним. Тому феномен зору надає надзвичайно багато різнопланових елегантних рішень для систем технічного зору. А комп'ютерний зір - одна з самих затребуваних галузей на сучасному етапі розвитку цифрових комп'ютерних технологій.
Враховуючи досконалість зорового аналізатора людини, доцільно вивчити і виділити його елементи для використання в сучасних технічних системах. При цьому не обов'язково точно їх копіювати, а, навпаки, розуміючи їх функціонування, реалізовувати їх з врахуванням постановки конкретної технічної задачі та можливостей рівня техніки.
Орган зору людини складається з трьох основних складових: очне яблуко, зорові нерви та зорові центри в мозку. Очне яблуко розміщено в захищеному поглибленні черепа, має сферичну форму з діаметром приблизно 20 мм. Ззовні очне яблуко покрито білою, непрозорою оболонкою (склерою) товщиною близько 1 мм. На передній поверхні ока склера переходить в прозору мембрану (роговицю). Відбите від оточуючих предметів світло попадає в око, переломлюється роговицею та кришталиком і фокусується на задній поверхні очного яблука.
Друга очна оболонка - судинна, зв'язана зі склерою і складається із кровоносних судин (капілярів) і являється основним джерелом живлення ока. Темна судинна оболонка ока сильно пігментована і адсорбує надлишкове світло, яке попало в око, зменшуючи відбиття світлових променів всередині очного яблука та попереджуючи отримання нечіткого зображення. Сама передня частина судинної оболонки (радужка) представляє собою зафарбовану мембрану у вигляді концентричного диску, яка складається із гладких м'язів і розміщена між роговицею та кришталиком. Одна з основних функцій радужки є регулювання кількості світла, яке попадає в око. Внутрішня частина концентричного диску радужки (зіниця) в залежності від рівня освітлення збільшується або зменшується під впливом двох протилежно направлених м'язів радужки. Як правило, зіниця реагує на зміни освітлення рефлекторно із швидкістю 0,25-0,5 с.
Кришталик ділить око на дві нерівні по об'єму камери:
-
меншу передню, наповнену водянистою вологою під тиском, яка постійно відновлюється та приймає участь у обміні речовин в клітинах роговиці;
-
більшу задню, яка заповнена желеподібним протеїном (склоподібним тілом).
Обидві прозорі субстанції забезпечують утримання кришталика у визначеному положенні та підтримують форму ока. Кривизна кришталика змінюється в залежності від фокусної відстані під впливом війкових м'язів.
Сітківка охоплює біля 200° внутрішньої поверхні очного яблука та представляє собою надзвичайно складну мережу фоторецепторів і нервових клітин, які трансформують світлову енергію в нейрону активність. В багатьох відношеннях поверхня сітківки являється продовженням мозку. Сітківка складається з фоторецепторів двох видів - паличок і колбочок, відповідно циліндричної і конічної форми. На периферії сітківки розміщено 120-130 мільйонів паличок, ширина яких дорівнює приблизно 0,002 мм. Колбочки, у кількості 6-8 мільйонів, переважно сконцентровані в центральній ямці (зона fovea) шириною близько 1 мм і мають діаметр 0,003-0.0.08 мм. На невеликій відстані від центральної ямки в сторону носа розташований диск зорового нерву, з якого виходить зоровий нерв в мозок. На цій ділянці відсутні фоторецептори (сліпа пляма) і відсутня будь яка зорова реакція.
Зовнішня оболонка паличок і колбочок покрита світлопоглинаючим пігментом, що забезпечує умови їх збудження при попаданні на них світла. Сітківка представляє собою складну 10-ти шарову мережу нервових клітин різної спеціалізації, які зв'язані між собою вертикальними і горизонтальними зв'язками.
Базовими елементами нервової системи людини - основними обробниками і передавачами інформації - є нейрони або нервові клітини, яких налічується у людини приблизно 100 мільярдів. Відомі нейрони різних типів, кожен з яких виконує свої специфічні функції. Деякі з них зв'язані з рецепторними клітинами органів чуття (сенсорні нейрони), які сприймають визначені види енергії (світло, звук, тиск, хімічну енергію). Ці клітини перетворюють сприйняту ними енергію в нервові імпульси та передають їх іншим нейронам нервової системи: мотонейронам - для передачі імпульсів м'язам, або інтернейронам - для подальшої обробки сприйнятої інформації. Більшість нейронів незалежно від їх функцій складається з трьох основних частин:
-
тіло клітини, або сома, яке приймає та зберігає отриману інформацію, ядро клітини регулює хімічну активність нейрона;
-
дендрити - розгалужені відростки, які приймають інформацію від інших нейронів;
-
аксони -довгі волокна, по яким інформація від соми передається іншим нейронам.
Таким чином дендрити сприймають інформацію від багатьох нейронів і передають її в тіло клітини. Сома, в залежності від сукупності прийнятої інформації (імпульси збудження і гальмування) та її спеціалізації, видає через свої аксони відповідні сигнали іншим нейронам або м'язам для виконання відповідних дій. Розгалужений кінець аксона закінчується кінцевою синоптичною головкою, яка є місцем контакту з дендритом іншого нейрона. В залежності від типа сигналу, що прийшов по аксону (збудження або гальмування), в синоптичний контакт виділяється особлива хімічна речовина - нейротрансміттер, який збуджує або гальмує пов'язаний з цим аксоном нейрон. Використання природою двох типів нейротрансміттерів забезпечує більш точні і скоординовані рухи м'язів.
Групи паличок і колбочок зв'язані по вертикалі з проміжними (біполярними) клітинами, які, в свою чергу, зв'язані з гангліозними клітинами, аксони яких входять до складу зорового нерву. Крім проміжних біполярних і гангліозних клітин існують також два шари горизонтальних зв'язків: перша мережа створюється горизонтальними клітинами між фоторецепторами і біполярними клітинами, друга мережа бокових (латеральних) зв'язків створюється амакри-новими клітинами між біполярними і гангліозними клітинами. Однією з функцій цих бокових зв'язків є створення такої взаємодії між сусідніми клітинами, при якому можлива модифікація сигналів з фоторецепторів (латеральне гальмування).
Нервові клітини не обов'язково передають імпульси сусіднім нейронам всякий раз, коли на них діє подразник. Нейрон має багато дендритів (до тисячі), які пов'язані з багатьма іншими нейронами, і приносять вони не тільки ту інформацію, що збуджує свій нейрон, але й інформацію, що гальмує його роботу. Потенціал дії нейрона і передача від нього імпульсу виникає тоді, коли досягається визначений поріг його стимулювання. Величина потенціалу дії не залежить від інтенсивності подразника, тобто є постійною величиною. Вплив інтенсивності подразника проявляється в кількості потенціалів дії та у часовому інтервалі між ними, тобто в частоті імпульсів потенціалу дії. Ця частота не може перевищувати 1000 імпульсів дії за секунду.
Відчуття постійного по інтенсивності подразника з часом зменшується, тобто має місце адаптація до тривалого подразника. Хоча адаптація, як правило, свідчить про зниження чутливості, вона одночасно приносить і значну користь, допомагаючи сприймати більш слабкі сигнали про зміни в оточуючому середовищі.
Більш детально розглянемо основні функції, структурні та фізичні особливості, механізми та процеси, які мають місце та відбуваються в зоровому аналізаторі нижнього рівня людини [1-6] і які є важливими для грамотного синтезу сімейства проблемно-орієнтованих інтелектуальних технічних систем реального часу.
Фізичним подразником зорової системи є світло: з однієї сторони це електромагнітні коливання у вузькому діапазоні довжин хвиль (приблизно 380 - 760 нм для людини), а з другої сторони це енергія, тобто неперервний потік часток (квантів) енергії, який визначає інтенсивність світла.
Психологічний ефект від сприйняття електромагнітних хвиль різної довжини є кольори або відтінки (від фіолетового до червоного), а ефект від інтенсивності світла, як фізичного подразника, є яскравість. Зміни інтенсивності світла не обов'язково приводять до пропорційної зміни сенсорного сприйняття, тобто яскравості.
Основні функції зорового аналізатора (ЗА)
-
забезпечення своєї власної життєдіяльності та функціонування спільно з іншими органами людини (локальні регулятори тиску, температури, вологи, кровопостачання, управління м'язами, тощо);
-
забезпечення безпеки людини (розпізнавання загроз, управління рефлекторними реакціями, тощо), реалізується в основному завдяки системі периферійного зору, яка спрацьовує рефлекторно. Крім того тут визначається рух, знаходяться об'єкти з малою яскравістю, оцінюється постійність кутової величини видимості об'єкта, тощо;
-
візуальне сприйняття оточуючого середовища, стиснення відеоінформації за рахунок виділення примітивів та передача її до каналам обмеженої пропускної здатності (до 1 ОМбод) в мозок. Основні режими сприйняття: пошук інформативних ознак, виділення примітивів, слідкування, детекція руху, тощо;
-
зорова система в багатьох випадках є інструментом корекції помилок інших сенсорних органів (слух, тактильне сприйняття, тощо), тому вона повинна бути відкалібрована досвідом сприйняття тест-об'єктів та оточуючого середовища;
-
на базі набутого досвіду зорова система повинна прецизійне коректувати конструктивні недоліки ока: компенсація впливу неоднорідності скловидного тіла; компенсація особистої, часто хаотичної, комутації нейронів; компенсація сліпої плями (місця виходу зорового нерву); знешкодження впливу сліпої сітки від затінення зображення мікрокапілярами живлення сітківки; повна або часткова компенсація вроджених та набутих дефектів і травм сітківки та капілярної мережі; компенсація девіації чутливості та ефекту осліплення фоторецепторів.
Структурні (конструктивні) особливості ЗА:
-
можливість зміни отвору зіниці в залежності від освітлення сцени;
-
можливість зміни конфігурації кришталика для фокусування зображення;
-
використання різних типів рецепторів з різними фізичними характеристиками для сприйняття світла (ахроматичний і кольоровий зір);
-
розміщення рецепторів (в основному паличок і частково колбочок) в периферійній зоні для забезпечення широкого кола зору;
-
щільне розміщення колбочок в зоні ямки (фовеал) - гострий зір;
-
кільцева зона відносно вісі ока із специфічними алгоритмами обробки відеоінформації;
-
розміщення рецепторів на сферичній поверхні сітківки для компенсації нелінійних оптичних викривлень;
-
обернене від світла розміщення сітківки;
-
сприйняття світла боковою поверхнею рецепторів під гострим кутом;
-
об'єднання багатьох рецепторів (паличок) сітківки в периферійній зоні на одній нервовій клітині для сумації сигналів та підвищення чутливості (за рахунок зменшення просторової роздільної здатності);
-
спеціалізовані нейрони для передачі, обробки та управління м'язами (біполярні, гангліозні, амакринові, мотонейрони, тощо);
-
спеціалізовані зв'язки між нейронами сітківки для виділення геометричних ознак (лінія, кут нахилу до горизонту, кути між лініями, кривизна лінії, симетрія, тощо);
-
фронтальне розміщення очей, монокулярне та біполярне поля зору;
-
волокна зорових нервів, які виходять з внутрішніх (носових) половин сітківки, на відміну від волокон, які виходять з зовнішніх (скроневих), перехрещуються в зоровому перехресті (хіазмі). Крім того, кожна половина поля зору проецирується на протилежну потиличну долю мозку;
- можливість руху очей автономно і незалежно від положення голови і тіла.
Фізичні особливості ЗА:
-
фокусування світла роговицею та змінним кришталиком;
-
розсіювання світла компонентами нейронів та перетворення його в шумо-подібне зображення, що є найбільш ефективним способом адаптації до неодно-рідності середовища. Чим більш випадкове зображення, тим більшу кількість інформації воно містить, що забезпечує краще пристосування до умов середовища, більше шансів вижити видам в процесі еволюції. Наявність тремороподібних рухів в зоровомуб апараті в сполученні з можливою часовою когерентністю світла дозволяє виділяти з рандомізованого зображення регулярні інтерференційні структури, по яким в подальшому можна відновити вхідне зображення.
Крім того це дозволяє знизити диференційні рівні яскравості на фоторецепторах завдяки її розподілу на більшу площу фоторецепторів [3, 4];
-
лінійне по простору і спектру перетворення світла в електричні сигнали;
-
логарифмічне сприйняття яскравості;
-
підвищена чутливість паличок для забезпечення ахроматичного "нічного" зору;
-
різні спектральні характеристики колбочок, які забезпечують сприйняття кольорів;
- сприйняття кольору визначається довжиною хвилі світла, яке стимулює зорову систему. Тільки І промені видимого електромагнітного спектра з довжиною хвиль від 380 до 760 нм здатні викликати у людини кольорові відчуття. Тобто відчуття кольору - це суб'єктивний результат дії на нервову систему відбитого від предмета променя з визначеною довжиною хвилі у видимому діапазоні. Самі по ! собі промені світла, фарби, тощо не мають кольору, вони лише результат відбиття або поглинання променевої енергії від оточуючого середовища, який інтерпретується зоровою системою. Навіть в і мережі сітківки і зорової кори кольорів нема, вони з'являються коли відеоінформація отримує кінцеву інтерпретацію в свідомості спостерігача. Тобто колір - продукт діяльності зорової системи, а не невід'ємна властивість видимого спектру;
- між відчуттям кольору і фізичними параметрами світла існує тісна залежність, яка може бути кількісно оцінена трьома атрибутами світла: довжиною хвилі, інтенсивністю та спектральною чистотою. Цим фізичним параметрам відповідають свої психологічні аспекти відчуття кольору: кольоровий тон, яскравість та насиченість. Кольоровий тон або просто колір визначається довжиною хвилі світла, яскравість кольору визначається його інтенсивністю, а насиченість кольору є психологічним параметром, який відображує відносну кількість кольору поверхні предмета і пов'язана з фізичним параметром спектральної чистоти.
Механізми і процеси ЗА:
-
інтегральне сприйняття зображення для управління розміром отвору зіниці;
-
яскравісна адаптація до рівня освітлення (10 порядків: від порогу чутливості нічного зору, який забезпечується за рахунок збудження більш чутливих паличок сітківки, до порогу осліплюючого блиску, який обмежується колбочками кольорового зору сітківки). Суб'єктивна яскравість, яка сприймається зоровою системою людини, являє собою логарифмічну функцію від фізичної яскравості світла, що попало в око. Однак діапазон рівнів яскравості, які одночасно сприймаються оком, складає величину близько 3-х порядків;
-
оцінка розмитості зображення та фокусування кришталика;
-
збудження нейронів сітківки при появі в сфокусованому на ній зображені перепадів яскравості або колірності (механізм уваги), використовується для швидкого пошуку в зображені інформаційних ознак;
-
управління віссю ока для направлення виділених областей інтересу зображення в зону фовеал для детального сприйняття (управління саккадичними рухами ока по пріоритетне виділеним ознакам);
-
управління вестибулярно-окулярними рухами очей для стабілізації зображення обраного об'єкта на центральній ямці;
-
управління вергентними рухами очей для зведення і розведення їх вісей при фокусуванні на одному об'єкті;
-
рефлекторні тремороподібні рухи (мікрорухи) при зафіксованому на об'єкті погляді, які забезпечують постійне збудження рецепторного поля, інакше образ починає розпливатись та зникає;
-
адаптація до тривалого подразника, яка допомагає сприймати більш слабкі сигнали про зміни в оточуючому середовищі;
-
блокування фону та виділення змін в зображені;
-
блокування впливу моргання, сліпої плями, сліпої сітки від затінення зображення мікрокапілярами живлення сітківки;
-
повна або часткова, компенсація вроджених та набутих дефектів і травм сітківки та капілярної мережі;
компенсація девіації чутливості та ефекту осліплення фоторецепторів.
Значна частина попередньої обробки зорової інформації проводиться вже на рівні сітківки. Спеціалізовані нейрони, розміщені в товщі сітківки, виділяють контури об'єктів, реагують на рух (часто лише в одному визначеному напрямку), виділяють інформацію про світ і тіні та деяку іншу інформацію, провести інтерпретацію якої дуже важко. Тобто в мозок посилається ціла серія динамічних образів, кожен з яких відображує лише один аспект загальної зорової картини.
Кожен відеопотік передається по своїй групі волокон зорового нерву у вищі центри мозку, де вони об'єднуються в загальну картину.
Вище в ієрархії йдуть усвідомлені рухи очей, які визначаються когнітивним процесом сприйняття інформації. При цьому мозок містить повну модель сітківки та набутий досвід зображень об'єктів. Отримуючи інформацію з сітківки та порівнюючи її з моделями об'єктів, мозок у відповідності з поставленою ціллю та характеристиками об'єктів визначає високочастотні автоматичні режими управління рухами очей та керує низькочастотними режимами.
Враховуючи дуже велику складність побудови системи технічного зору з можливостями зорового аналізатора людини, велику її вартість, тощо, в більшості випадків більш доцільно створювати проблемно-орієнтовані пристрої або системи для вирішення конкретних прикладних задач промисловості, транспорту, науки, біології, медицини тощо. Такі пристрої або системи будуть ефективно реалізовувати всього декілька структурних особливостей або механізмів зорового аналізатора, але будуть швидко розроблятись та впроваджуватись, враховуючи їх невелику вартість. Синтез проблемно-орієнтованих систем технічного зору починається з визначення умов освітлення (денне світло, люмінесцентне, від ламп розжарювання, тощо), його постійності на протязі доби, розмірів об'єкта (об'єктів) і відстані до нього (них), діапазону зміни відстані до об'єктів, поле зору, необхідність оцінки глибини сцени, монохроматичне або кольорове бачення, завади та їх тип, орієнтовна швидкість руху об'єктів або сцени, інформативні ознаки об'єктів (колір, текстура, форма, орієнтовні розміри об'єктів, тощо), типи примітивів, які необхідно виділити з об'єкту, режими роботи системи (пошук об'єктів, слідкування за ними, розпіз-навання, вимірювання розмірів, морфологічний та морфометричний аналіз), вимоги до часу розпізнавання або вимірювання, вимоги до точності вимірювання, тощо.
Можна виділити дві стратегії розробки систем технічного зору:
- розробка спеціалізованих пристроїв технічного зору різного призначення; а по мірі накопичення досвіду - узагальнення та розробка типових інтерфейсів для можливості їх використання в різних прикладних задачах;
- напрацювання банку різних технічних, алгоритмічних та програмних засобів з арсеналу зорового аналізатора людини із заздалегідь розробленими і узгодженими інтерфейсами, з яких можна було б набирати необхідну комбінацію функцій та якостей системи.
1.6 ІНТЕЛЕКТУАЛЬНЕ ВИБІРКОВЕ СПРИЙНЯТТЯ ВІЗУАЛЬНОЇ ІНФОРМАЦІЇ
Візуальна інформація є найбільш інформативною формою відображення зовнішнього світу. Вона представляється у дво- чи тривимірному просторі, у часі та у трьох кольорових координатах, тобто 6 - 7-вимірному просторі, вимагає сприйняття у реальному часі -100 Мбайт/с та продуктивності ≈10 Гміпс для її обробки.
Незважаючи на значні об'єми інформації в зображенні і особливо у відеопослідовності, зорово-аналізуюча система людини досить ефективно і оперативно справляється з цими задачами за рахунок своєї надзвичайно високої вибірковості. В літературі виділяють десятки структурних (конструктивних) та фізичних особливостей зорового аналізатора людини, десятки механізмів та процесів, які мають місце і діють в ньому. Однак висока вибірковість сприйняття інформації людиною забезпечується, в першу чергу, завдяки структурним особливостям побудови зорового аналізатора (широке поле огляду з малою роздільною здатністю периферійної сітківки та «гострий» зір в зоні ямки - фовеал), механізмам уваги і адаптації та різним типам руху очей.
Основні елементи інтелектуального зорового сприйняття:
- широке поле огляду периферійного зору (сітківки) з невисокою роздільною здатністю, яке реалізує функції збудження та направлення погляду (механізм уваги);
- концентрація роздільної здатності в зоні ямки сітківки ока, яка служить як деякий зонд, з допомогою якого зорова система досліджує світ;
- високорівневе управління рухами ока, яке визначається поставленою перед системою метою (пошук об'єктів, розглядання, слідкування, панорамування тощо).
Система верхнього рівня послідовно формує гіпотези про об'єкти сцени та направляє очі для збору додаткової інформації, щоб підтвердити або відкинути ці гіпотези.
Проблема створення досконалих систем технічного зору, здатних з високою оперативністю і ефективністю вирішувати задачі обробки зображень, пошуку і розпізнавання об'єктів в реальному часі, є актуальною для створення інтелектуальних відеосистем різного призначення. Основними задачами тут є: організація динамічного налагодження зорової системи до сприйняття широкого кола простору, цілеспрямований пошук об'єктів та концентрація уваги на локальних ділянках для їх детального аналізу.
Механізм уваги р одна з центральних складових системи, оскільки вона вибирає інформацію, на якій базуються дії системи. Для більшості задач, які повинні бути розв'язані системою, має місце додаткове знання, яке може бути використане для спрощення системи або алгоритму розв'язання задачі, тобто для спеціалізації системи.
Стратегія «механізмів уваги» базується на швидкому, грубому аналізі статичного або динамічного зображення з метою виділення яких-небудь характерних інформаційних ознак: яскравісних, колірних, динамічних, геометричних (меж областей, горизонтальних та вертикальних ліній, кутів...) тощо, з наступною більш тонкою їх перевіркою. Стратегія «механізмів уваги» враховує, що об'єкт складається з частин з різними властивостями. Стратегія є адаптивною, тобто пристосовується до статистики ознак зображення та дозволяє значно зменшити загальний обсяг обчислень [2].
Фовеальне сприйняття візуальної інформації
Були спроби повторити таку організацію візуального сприйняття з широким периферійним оглядом і детальним розглядуванням в технічних та алгоритмічних моделях. Одним з таких напрямків є створення фовеальних сенсорів. Фовеальні сенсори можна умовно поділити на два класи:
-
з радіальною організацією рецепторного поля,
-
з ієрархічною організацією рецепторного поля.
Перший клас сенсорів реалізує логарифмічне полярне перетворення (log-polar mapping), яке забезпечує інваріантність до повороту та зміни масштабу образу. Реалізація таких сенсорів полягає в безпосередньому синтезі пристроїв на сучасній СМOS-технології з нерівномірним розміщенням рецепторів на площині - щільне розміщення елементів в центральній частині і зменшення щільності елементів від центра до периферії матриці. Другий варіант реалізації полягає в тому, що з допомогою спеціальної оптичної системи забезпечується нерівномірне відображення елементів в центральній і периферійних ділянках. Недоліком радіальної організації є необхідність управління «поглядом», тобто напрямом оптичної вісі сенсора, що вимагає використання приводу та системи управління ним.
Сенсори з ієрархічною організацією рецепторного поля реалізують принцип динамічної організації центрального і периферійного полів зору залежно від поточної зони уваги. Ідеологія організації такої обробки випливає з робіт зі створення пірамідальних систем машинного зору і моделюванню механізмів уваги.
Однак реалізація ієрархічного інтелектуального сприйняття, як це здійснюється в пірамідальних системах, не задовольняє умовам реального часу, оскільки в них спочатку зчитується зображенням максимальною роздільною здатністю, а потім, шляхом фільтрації та проріджування, формуються наступні шари піраміди, кожен з яких має в 4 рази менший розмір зображення. Ця процедура вимагає значних витрат часу та пам'яті, що не забезпечує умов реального часу.
Вибіркове сприйняття візуальної інформації
Потрібно наближати принципи побудови систем технічного зору до інтелектуального сприйняття візуальної інформації зоровою системою людини. Тому пропонується підхід до ієрархічної організації вибіркового сприйняття візуальної інформації, який базується на грубо-точному методі пошуку і полягає в наступному. Спочатку зчитується проріджене зображення або послідовно окремі рядки зображення з деяким кроком, який враховує геометричні розміри шуканого об'єкта, шукається об'єкт за заданими ознаками (наприклад за кольором), визначаються його габаритні розміри і в цих габаритах зчитується уточнене зображення об'єкта для розпізнавання.
Такий підхід є значно ефективнішим, особливо в технічних відеосистемах реального часу, оскільки не вимагає зчитування всього зображення з високою роздільністю, не вимагає додаткової обробки інформації для формування піраміди зображень та не вимагає приводу з системою управління «поглядом» (як це має місце в сенсорах з радіальною організацією).
Якщо в зображенні декілька об'єктів, то вони відшукуються за грубим зображенням, а потім зчитується з більшою роздільністю один об'єкт, наприклад з більшим пріоритетом. І наступні для подальшого розпізнавання. Тобто має місце перевернута піраміда. Крім того. технічні можливості сучасних СМOS-відеосенсорів дозволяють легко перепрограм озувати їх в процесі сприйняття відеоінформації на зчитування розрідженого, фізично повного або більш детального (з інтерполяцією між сусідніми пікселами) зображення. , Крім грубо-точного сприйняття візуальної інформації по простору (тобто в координатах X, Y) око людини реагує не на величину яскравості або колірності в зображенні, а на зміни цих величин між значеннями яскравості сусідніх рецепторів. або значеннями яскравості даного рецептора у часі, тобто на динаміку цього параметру.
Залежно від динаміки процесів, які спостерігає зорова система людини, від рівня освітлення, необхідності розглядання великих або дрібних деталей в зображенні, діють адаптаційні механізми, що управляють типами рухів очей, їх швидкістю, чутливістю рецепторів тощо. Тому і в системах технічного зору також доцільно управляти частотою зчитування відеоінформації, коефіцієнтом підсилення та розрядністю її представлення. Таким чином, для реалізації інтелектуального вибіркового сприйняття зображень необхідно забезпечити такі можливості:
-
управління роздільною здатністю по простору;
-
зчитування довільної прямокутної ділянки зображення;
- виділення динамічної інформації (в рядку, між стовпчиками матриці зображень або між кадрами);
- управління розрядністю яскравості або колірності;
- управління частотою відеозйомки.
Звичайно в відеосистемах реального часу виникає необхідність реалізації ще деякі: можливостей управління відеокамерою, зокрема управління експозицією, автофокусом врахування типу освітлення тощо, але ці параметри меншою мірою впливають на об'єм інформації з зображення.
Інформаційні аспекти вибірковості
Розглянемо більш детально інформаційні аспекти вибірковості за рахунок зазначених вище можливостей управління параметрами зчитування відеоінформації.
Для визначення об'єму інформації у зображенні звичайно використовується потенційна оцінка на основі амплітудно-просторової роздільності:
(2)
(1)
а для відеопослідовності (динамічного зображення) ще і часової роздільності:
де X і Z - розміри поля зображення; Z - координата яскравості зображення; ∆ х, ∆у, δz, ∆t - дискретність представлення відповідних координат зображення.
Для кольорової відеопослідовності кількість інформації визначиться як
(3)
де R, G, В - кольорові (червона, зелена, синя) складові світла.
Потенційна оцінка використовується для розрахунку необхідної пропускної здатності каналів зв'язку для передачі зображення, об'єму пам'яті для збереження зображення і продуктивності обчислювальних засобів для його обробки. Потенційна оцінка відбиває методи і засоби знімання зображень за допомогою традиційних відеокамер.
У виразах (1) і (2) значення X, Y і Z прийняті фіксованими і рівними максимальному значенню, фіксованими є і значення ∆ х, ∆у, δz, ∆t, тому такий підхід дає оцінку зверху кількості інформації, що є дуже завищеною і не вказує шляхів скорочення надлишковості цифрового представлення зображень.
Такі шляхи з'являються при інтелектуальному вибірковому сприйнятті візуальної інформації за рахунок вказаних вище можливостей управління параметрами зчитування відеоінформації.
Управління роздільною здатністю
-
Проріджування зображення, тобто збільшення кроку дискретизації простору ∆х та ∆у вдвічі: ∆х'= 2∆х, ∆у' = 2∆у,
приводить до зменшення об'єму інформації в 4 рази.
-
Сканування зображення окремими рядками або стовпчиками з великим кроком ∆х'=n∆х або ∆y'=m∆у приводить до зменшення об'єму інформації в n або m раз.
Зчитування довільного прямокутника з зображення в межах від Х1 до Х2 та від Y1 до Y2 зменшує кількість інформації в поданні зображення в раз, де ∆Х=Х2-Х1, ∆Y= Y2- Y1.
Виділення динамічної інформації. Яскравісна (колірна) картина зображення не. є постійною, а змінюється від піксела до піксела і від кадру до кадру. Тому величина Z у формулі (1) не є константою, а є функцією координат зображення zij=f(xiyi).
В.М. Глушков дав таке містке визначення поняття інформації, що воно не втратило своєї актуальності навіть до теперішнього часу: «Информация в самом общем ее понимании представляет собой меру неоднородности распределения материн й знергии в пространстве й времени, меру изменении, которьіми сопровождаются все протекающие в мире процессьі». При цьому виділяються два різновиди інформації - статична (характеризує поточний стан певної матеріальної чи енергетичної системи) та динамічна (її змінність у часі і просторі). І якщо статичній інформації було приділено сотні робіт у світі і вона стала вже класикою, то динамічній інформації не було надано необхідної уваги практично до кінця XX століття. Однак визначення поняття динамічної інформації виявилося винятково плідним при вивченні інформаційних властивостей фізичних систем та процесів.
Основи динамічної теорії інформації дозволило виділяти й використовувати корисну (динамічну) інформацію з випадкових стаціонарних і нестаціонарних сигналів, зображень, просторових полів, ітераційних процесів, рекурентних процедур тощо, значно зменшивши її надлишковість. У роботі [5] уведено поняття ентропії значення випадкової величини що є мірою невизначеності самого значення випадкової величини і являє собою середню кількість розрядів, що приходиться на одне значення випадкової величини.
Розглядаючи матрицю (т х п) значень яскравості пікселів як значення випадкової величини, одержимо оцінку ентропії зображення
(4)
Так само як для Шеннонівської ентропії стану, одиницю виміру ентропії значена випадкової величини визначає основа логарифма. При основі логарифма, рівній двом одиницею ентропії значення є біт.
Пронормувавши Н величиною одержимо приведену ентропію яскра-вісної характеристики зображення
(5)
Приведена ентропія яскравісної характеристики зображення характеризує розкид по розрядності представлення яскравості пікселів зображення і змінюється в діапазоні (0 ÷ 1).
Так, при hz →1 всі значення яскравості пікселів зображення вимагають для свого представлення приблизно однакової розрядності. Зображення виглядає монотонне світлим і слабо контрастним. У цьому випадку для скорочення надлишковості цифрової представлення зображення, знаючи середнє значення яскравості, усі значення яскравості пікселів можна представити у виді відхилень від zср . Використовувати змінну розрядність для представлення яскравості пікселів недоцільно.
При hz < 0,5 зображення є досить контрастним. У цьому випадку доцільний перехід на змінну розрядність представлення значень яскравості і кількість розрядів для представлення значень яскравості може бути скорочена більш ніж у 2 рази.
З огляду на необхідність виділення перепадів яскравості між сусідніми елементами в рядку і стовпці матриці зображення, воно може бути представлене у виді матриці різниць між сусідніми елементами (матриці приростів).
При цьому ентропія зображення визначиться як де різниці ∆zij можуть бути визначені як по рядках (∆z'ij), так і по стовпцях матриці (∆z"ij):
(6)
Звичайно, для кодування приростів знадобиться менша кількість розрядів, що також зменшить кількість інформації в зображенні.
З огляду на необхідність сприйняття різниць між відповідними пікселями двох сусідніх кадрів, одержимо матрицю різницевого зображення (матрицю різниць або матрицю приростів) [6]. При цьому ентропія його визначиться як
(7)
де , k - номер кадру відео послідовності. У різницевому зображенні, аналогічно попередньому, також можна виділити корисну інформацію, тобто об'єкт, відсіявши фон, або виділити тільки зміни в об'єкті між кадрами. Аналогічно попередньому, тут також забезпечується зменшення об'єму інформації в зображенні.
Управління розрядністю представлення відеоінформації. Грубе представлення інформації може стосуватись не тільки роздільної здатності просторового представлення, але й точності представлення яскравості (колірності), тобто розрядності. Зменшення розрядності приводить до відповідного зменшення кількості інформації в зображенні, однак використати повною мірою це зменшення в більшості випадків дуже складно.
Умовно можна вважати, що кількість інформації, знятої кольоровою відеокамерою, зростає в 3 рази. Однак у системах реального часу в ряді застосувань можливе використання тільки окремих R, G, В-складових чи перейшовши до моделі НSВ, використовувати, наприклад, тільки колірну чи яскравісну ознаку, які більшою мірою несуть корисну інформацію для даної задачі. Тому для підвищення вибірковості доцільно забезпечити можливість зчитування тільки необхідної в даній задачі інформації.
Управління частотою відеозйомки. Зменшення частоти відеозйомки, тобто збільшення кроку дискретизації по часу ∆t, приводить до пропорційного зменшення об'єму інформації у відеопослідовності.
Практичне використання можливостей управління параметрами зчитування інформації з відеосенсора
Крім забезпечення можливості управління параметрами зчитування інформації вкрай важливим для систем технічного зору є суміщення процесів уведення зображення з його обробкою у часі, що не дуже складно реалізується з допомогою каналів прямого доступу до пам'яті сучасних процесорів цифрової обробки сигналів. Суміщення процесів дозволяє після закінчення уводу зображення з мінімальною затримкою у часі визначити параметри управління відеосенсором на наступний кадр зображення, тобто значно зменшити затримку інформації в контурі, зворотного зв'язку. Вказані можливості варіювання параметрами зчитування відеоінформації та суміщення забезпечують вибірковість та значне зменшення інформації (без втрати корисної інформації) для обробки, тобто підвищення ефективності і оперативності подання зображення.
Наведемо приклади використання цих можливостей в практичних задачах. Залежно від поставленої перед системою технічного зору задачею можна виділити ряд типових режимів або етапів, які по аналогії пов'язані з рухами очей та особливостями сприйняття відеоінформації зоровим аналізатором людини:
- пошук об'єкта за ознаками;
-розглядання (розпізнавання, порівняння, вимірювання) об'єкта;
-
слідкування за об'єктом;
-
панорамування сцени.
Можливість управління параметрами зчитування інформації з відеосенсора може бути ефективно використана при реалізації стратегії «механізмів уваги»:
-
для швидкого пошуку об'єкта за декількома ознаками за «грубим» зображенням;
-
зчитування виділеного об'єкта з більшою роздільністю для детального розглядання і виділення деяких інформаційних ознак для його розпізнавання, порівняння або вимірювання. Такий підхід дозволяє значно зменшити загальний обсяг обчислень.
У ряді випадків обробка зображення на цьому завершується, в інших випадках, впевнившись, що знайдений об'єкт є шуканим, продовжується процедура слідкування за ним.
У режимі слідкування за об'єктом чи просто при необхідності зчитування тільки частини відеокадру, яка цікавить, із зображення вирізується і зчитується тільки відповідна частина відеокадру, що дає скорочення необхідної кількості інформації як співвідношення площ повного кадру і частини кадру. Крім того, у цьому випадку також можливе представлення частини зображення, що зчитується, у виді приростів, як описано вище, із прив'язкою до значення відповідної яскравості (чи колірності) у попередньому кадрі чи в кутовій точці кадру, що зчитується. При спостереженні одночасно за декількома об'єктами в оцінці ентропії враховується сумарна площа виділених прямокутників з об'єктами.
Залежно від абсолютного значення приросту яскравості (колірності) між кадрами, від інтегральної величини змін чи від швидкості переміщення зображення в кадрі, а також від величини експозиції, можлива зміна в процесі відеозйомки частоти кадрів (тобто кроку дискретизації за часом ∆t), а отже, і ентропії відеопослідовності, без істотної зміни якості системи технічного зору.
При зйомці поворотною відеокамерою (із секторним чи круговим оглядом) чи зйомці відеокамерою, установленою на транспортному засобі, традиційно зйомка здійснюється з постійною частотою кадрів і з перекриттям зображень у сусідніх кадрах, що забезпечує збереження руху у відеопослідовності. За рахунок перекриття кадрів, величина яких залежить від співвідношення швидкості руху чи повороту камери і частоти зйомки кадрів, а також кута огляду відеокамери, виникає деяка надлишковість у цифровому представленні відеопослідовності. Ця надлишковість може бути усунута шляхом зчитування (чи виділення) тільки нової інформації від кадру до кадру.
Її ентропія в кожному кадрі визначиться за однєю з формул:
де , Хі - координата поточного зображення, по якій здійснюється під стиковка його до попереднього зображення. Аналогічно визначається ентропія і для двокоординатного панорамування.
Якщо швидкість руху чи повороту є постійною і дальність до панорами залишається приблизно тією ж, то координата Хі може бути приблизно визначена розрахунком чи експериментально. Тоді для побудови панорамного зображення необхідно тільки її уточнити. При змінній швидкості руху чи повороту доцільне використання датчиків положення відеокамери, тому що математичні методи пошуку зони стикування відеокадрів вимагають великих обчислювальних витрат.
Іншою проблемою, що виникає при панорамуванні, є забезпечення плавного стикування відеокадрів. Залежно від вимог до якості панорамного зображення використовуються або прості методи фільтрації, або більш складні методи з корекцією геометричних спотворень.
При панорамуванні забезпечується значна компресія зображень, що визначається ступенем перекриття площ кадрів у відеопослідовності. Панорамування в системах кругового огляду, крім значної компресії зображення, створює передумови для автоматичного визначення змін, що відбуваються між оборотами відеокамери. Доцільне використання панорамування і для спрощення монтажу довільних відеопослідовностей, як у функції координат, так і часу. Для цього на статичному панорамному зображенні задається довільна траєкторія координат центра рамки, що виділить і сформує задану відеопослідовність.
Приклади реалізації інтелектуальних відеопристроїв
Деякі з цих принципів вже реалізовані в ряді пристроїв та систем:
- інтелектуальній відеокамері;
- пристрої контролю якості, форми та розмірів продукції, ідентифікації об'єктів за заданими характеристиками;
- цифровому оптичному капіляроскопі для неінвазивного контролю мікроцирку-ляторної ланки кровообігу людини;
- гемодинамічній лабораторії «МікроМакроПотоІо> для контролю системи кровообігу на макро- і макрорівнях та показали значне підвищення оперативності і ефективності систем технічного зору.
Отже, Забезпечення можливості управління параметрами зчитування інформації з відеосенсора та використання різних мір інформації для різних задач і режимів, створює умови інтелектуального сприйняття відеоінформації за рахунок значного підвищення вибірковості та адаптації пристрою під задачі, спрощує обробку та підвищує оперативність і ефективність систем технічного зору.
Системи технічного зору, робот комплекси, системи віртуальної реальності, системи охорони та оборонного призначення, ряд систем в медицині та біології тощо являються системами реального часу. В залежності від функцій, які виконуються відеосистемами в реальному часі, можна виділити:
- системи реєстрації відеоінформації (передача, запам’ятовування);
- системи генерації зображень (генерація/синтез зображень, ігри тощо);
- системи із зворотним зв'язком (слідкування за вимірювання геометричних виробничих процесів, якості продукції, робототехнічні комплекси, транспортними засобами тощо), в яких обробки інформації в реальному часі управління процесом або інших дій. Ці системи висувають найбільш високі вимоги до продуктивності обчислювальних засобів і, особливо, до запізнювання інформації в контурі зворотного зв'язку.
В цих умовах, крім виконання основних по уведенню та обробленню відеоінформації повинні мати можливості адаптації до: типу (сонячне, від лами розжарювання, люмінесцентне, світлодіодне тощо), змін яскравості, змін відстані до об'єкта спостереження (тобто автоматичне фокусування) тощо. Але ці процеси адаптації, звичайно, значно повільніші порівняно з досліджуваними сценами або рухомими об'єктами, таму вони здійснюються з меншою дискретністю у часі.
Найбільшої продуктивності вимагає попередня законів розподілу значень яскравості чи колірності, Фур'с-перетворення, сегментація, виділення динамічних змін, контурів і об'єктів із заданими властивостями, визначення параметрів афінних перетворень та нормалізація зображень тощо. Попередня обробка зображень здебільше виконується багаторазово над кожним пікселом, тому й вимагає значно більше часу.
Для побудови відеосистем реального часу використовують традиційні (звичайні) відеокамери з фіксованими параметрами зчитування відеоінформації з сенсора, (що зумовлює велику надлишковість подання зображень і відео послідовностей), покадровим уведенням і обробкою інформації, пристосувавши їх конструктивно до виробничих умов. Відеокамера і процесор не інтегруються в одному пристрої, що приводить до передачі значних масивів інформації між ними.
Для визначення об'єму інформації у відеопослідовності звичайно використовується потенційна оцінка на основі амплітудно-просторової та часової роздільності
[TEX]C_{в.п.} = \frac{Х}{\Delta х} \cdot \frac{Y}{\Delta y} \cdot log_{2}(\frac{Z}{\delta z} + 1)\frac{1}{\Delta t}[/TEX]
де X і V - розміри поля зображення; Z - координата яскравості зображення; Δх, Δу, δz, Δt - дискретність представлення відповідних координат зображення.
Значення X, Y і Z у формулі прийняті фіксованими і рівними максимальному значенню, фіксованими є і значення Δх, Δу, δz, Δt , тому такий підхід дає оцінку зверху кількості інформації, що є дуже завищеною і не вказує шляхів скорочення надлишковості цифрового представлення зображень.
Потенційна оцінка відбиває методи і засоби знімання зображень за допомогою традиційних відеокамер і використовується при розрахунку необхідної пропускної здатності каналів зв'язку для передачі зображення, об'єму пам'яті для збереження зображення і продуктивності обчислювальних засобів для його обробки.
Методи компресії статичних і динамічних зображень розроблялись для систем передачі та запам'ятовування інформації, вони зовсім не придатні для систем реального часу із зворотним зв'язком та не забезпечують мінімізації запізнення інформації. Послідовний процес уведення кадру зображення, а потім його оброблення, приводять до затримки інформації в контурі зворотного зв'язку як сума часу виконання цих двох процесів, навіть при виконанні їх у конвеєрі. При розв'язанні практичних задач традиційно використовуються статичні моделі, які не враховують знання, отримані на попередньому кадрі, що приводить до втрати ефективності.
Для швидкого пошуку об'єкта в зображенні використовуються механізми уваги, які базуються на принципах ієрархічної або пірамідальної організації зорового аналізатора людини, для чого найбільш часто використовують піраміди Лапласа або Гаусса, які дійсно забезпечують значне стиснення при передачі зображення і можливість відновлення зображення. Але така процедура не відповідає процесам сприйняття зображень в зоровому аналізаторі людини, а в системах реального часу, вимагаючи значної обробки інформації, приводить до значних затримок інформації в контурі зворотного зв'язку.
Таким чином, традиційні основи і принципи побудови відеосистем реального часу не враховують особливостей роботи в реальному часі та розв'язуваних задач, як в методичному, так і в інформаційному та технічному планах.
Проблема сприйняття і обробки зображень в системах реального часу вимагає розробки нових інформаційних основ з мінімальною надлишковістю інформації, нових принципів побудови відеокамер з можливістю зміни параметрів для адаптації їх під вимоги конкретної задачі, нових динамічних моделей і механізмів для швидкого пошуку об'єктів та слідкування за ними, нових архітектур паралельних процесорів для обробки зображень.
Тому завданням є вдосконалення інформаційних основ підвищення вибірковості, розробка динамічних моделей та принципів управління параметрами зчитування відеоінформації, вдосконалення принципів ієрархічного інтелектуального сприйняття та швидких методів пошуку, принципів суміщення уводу з обробкою інформації та паралельної обробки інформації безпосередньо на сенсорі.
Зоровий аналізатор людини як прототип систем технічного зору
Для оптимізації процесів уведення, сприйняття та обробки зображень в якості прототипу розглядається зоровий аналізатор людини, який вдосконалювався на протязі тисячоліть існування людства. Аналіз зорового аналізатора людини дозволив виділити близько 300 його функцій, конструктивних (структурних) та фізичних особливостей будови, механізмів та процесів, які відбуваються в зоровій системі.
Найбільш важливими з них для забезпечення високих вимог реального часу є наступні:
-
висока вибірковість зорового аналізатора,
-
механізми уваги та адаптації,
-
суміщення процесів введення і обробки зображень,
-
спеціалізація нейронів на кожному рівні навиконання специфічних функцій,
-
широке розпаралелювання нейронної мережі для багаторівневого сприйняття відеоінформації,
Висока вибірковість зорового аналізатора базується на широкому полі огляду периферійного зору з невисокою роздільною здатністю, яке реалізує функції збудження та спрямування погляду (механізм уваги) і концентрації роздільної здатності а зоні ямки сітківки ока, яка служить як деякий зонд для дослідження зовнішнього світу. Високорівневе управління рухами очей визначається поставленою задачею (пошук, розглядання, стеження, розпізнавання тощо) та забезпечує розв'язання цих задач.
Запропонований метод інтелектуального селективного сприйняття, по аналогії з зоровим аналізатором людини, дозволяє значно зменшити кількість оброблюваної інформації, підвищити продуктивність І ефективність систем технічного зору. При цьому розроблені оригінальні методи швидкого пошуку за ознаками кольору, руху, текстури та форми.
Технічні можливості сучасних відеосенсорів, побудованих по КМОН-технології, дозволяють перепрограмування в процесі сприйняття відеоінформації на зчитування розрідженого, фізично повного або більш детального (з інтерполяцією між сусідніми пікселами) зображення.
У той же час, відеосистеми реального часу при роботі в автоматичному режимі крім адаптації до умов відеознимки для ефективної роботи системи вимагають ще й адаптації до розв'язуваної задачі, що може бути забезпечено шляхом врахування деяких особливостей задачі та за рахунок зміни зазначених параметрів зчитування зображень і відеопослідовностей. Тому така спеціалізація в поданні зображень і відеопослідовностей дозволяє одержати нові шляхи підвищення вибірковості та зменшення надлишковості.
Крім грубо-точного сприйняття візуальної інформації по простору {тобто в координатах X, Y) око людини реагує не на величину яскравості або колірності в зображенні, а на зміни цих величин між значеннями яскравості сусідніх рецепторів, або значеннями яскравості даного рецептора у часі, тобто на динаміку цього параметру.
В залежності від динаміки процесів, які спостерігає зорова система людини, від рівня освітлення, необхідності розглядання великих або мілких деталей в зображенні, діють адаптаційні механізми, що управляють типами рухів очей, їх швидкістю, чутливістю рецепторів тощо. Тому і в системах технічного зору також доцільно управляти частотою зчитування відеоінформації, коефіцієнтом підсилення та розрядністю її подання.
Таким чином, для реалізації інтелектуального вибіркового сприйняття зображень необхідно забезпечити наступні можливості:
-
управління роздільною здатністю по простору;
-
зчитування довільної прямокутної ділянки зображення;
-
виділення динамічної інформації;
-
управління розрядністю яскравості або колірності;
-
управління частотою відеознимки.
В залежності від поставленої перед системою технічного зору задачею можна виділити ряд типових режимів або етапів, які по аналогії пов'язані з рухами очей та особливостями сприйняття відеоінформації зоровим аналізатором людини:
-
пошук об'єкта за ознаками;
-
розпізнавання, порівняння, вимірювання об'єкта;
-
слідкування за об'єктом;
-
панорамування сцени.
Можливість управління параметрамизч итування інформації з відеосенсора може бути ефективно використана при реалізації стратегії "механізмів уваги", яка базується на швидкому. грубому аналізі статичного або динамічного зображення, з послідуючим детальним аналізом знайденого об'єкта з метою виділення яких-небудь характерних інформаційних ознак: яскравісних, колірних, динамічних, геометричних (меж областей, горизонтальних та вертикальних ліній, кутів тощо). Стратегія є адаптивною, тобто пристосовується до статистики ознак зображення, та дозволяє значно зменшити загальний обсяг обчислень.
Крім забезпечення можливості управління параметрами зчитування інформації край важливим для систем технічного зору є суміщення процесів уведення зображення з його обробкою у часі, що реалізується з допомогою каналів прямого доступу до пам'яті сучасних процесорів цифрової оброби) сигналів. Суміщення процесів дозволяє після закінчення уводу зображення з мінімальною затримкою у часі визначити параметри управління відеосенсором на наступний кадр зображення, тобто значно зменшити затримку інформації в контурі зворотного зв'язку.
Таким чином, забезпечення можливості управління параметрами зчитування інформації з відеосенсора, суміщення уводу інформації з її обробкою та використання різних мір інформації для різних задач і режимів, створює умови інтелектуального сприйняття відеоінформації за рахунок значного підвищення вибірковості та адаптації пристрою під особливості задач, спрощує обробку та підвищує оперативність і ефективність систем технічного зору.