Як «намалювати» і «прочитати» звук

Зберегти і прочитати потім - Зберегти і прочитати потім -   Як зв'язати звукову та візуальну інформацію

Як зв'язати звукову та візуальну інформацію? Цим питанням часто задаються вчені і любителі з усього світу. Так, в лютому 2006 року новина про те, що вченим вдалося відтворити звуки з глиняного горщика віком понад 6500 років, швидко розлетілася по всьому інтернету.

Гончар, нібито, завдав музичний ритм на горщик при його виготовленні. На жаль, це виявилося невдалою першоквітневим жартом бельгійського телебачення.

Однак Патріку Фістера (Patrick Feaster) вдалося обробити запис, вік якої перевищує 1000 років. З цього приводу в травні 2011 року він виступив на конференції асоціації ARSC (Association for Recorded Sound Collections) з відкриттям «палеоспектрофоніі».

Занурення в історію: розшифровка записів минулого

Патрік використовує сучасні технології (в даному випадку - не дуже сучасні, так як спектрограму винайшли досить давно) для того, щоб перетворити візуальні об'єкти в звукові. Однак людство не завжди йшло цим шляхом і намагалося, навпаки, «зафіксувати» звук в образах.

Довгий час (до створення фонографа Томасом Едісоном) людей хвилювало питання: як придумати такий спосіб фіксації музики, який допоміг би дивиться на запис відтворювати мелодію у себе в голові так само легко, як це роблять професійні музиканти, дивлячись на партитуру. На жаль, на думку доктора Фістера, таке завдання недосяжна в принципі, оскільки наш мозок в більшості випадків недостатньо хороший в перетворенні візуальної інформації в звукову.

Можливо, рішення цього завдання в минулому і не увінчалося успіхом, однак історія залишила нам безліч свідчень того, як люди в різні епохи намагалися створити подібні системи запису звуку. Найвідоміша з цих систем лягла в основу фоноавтограф - попередника фонографа, винайденого французом Едуардом Мартенвіль. Фоноавтограф був пристрій, в якому звук проходив через конус, змушуючи вібрувати мембрану, з'єднану з голкою. Голка ж, в свою чергу, малювала хвилеподібні лінії на скляному циліндрі, покритому закопченої папером.

За допомогою фоноавтограф звук можна було зафіксувати, проте не було ніякої можливості його відтворити. Це завдання і вирішив Фістер. У 2008 році він, його колеги, а також аудіоексперт Девід Джованнони (David Giovannoni) зібралися в Національній Лабораторії Лоуренса в Берклі, щоб розшифрувати одну з найбільш добре збережених фоноавтограмм Мартенвіль.

У Лабораторії Лоуренса розроблялися технології вилучення звуків з високоякісних фотографій, на яких були зображені образи тендітних воскових носіїв або зламаних дисків. Скориставшись даними технологіями, вчені отримали з фоноавтограмми запис пісеньки «Місячне сяйво» ( «Au Clair de la Lune»), зроблений в 1860 році. Вважається, що це перший запис, на якій помітний людський голос.

Однак вирішення цього завдання Фістера виявилося недостатньо: згодом він не тільки зафіксував звук з більш ніж 50 фоноавтограмм, а й досліджував більш ранні спроби «запису звуку». В цьому вченому, як не дивно, допоміг сервіс Google Books. Використовуючи його, Фістер записував символи з книг, які постійно ігнорувалися, зважаючи історичними примхами.

Найстарішу хвилеподібну лінію він знайшов в книзі 1806 року. За допомогою інших технік йому вдалося розшифрувати мелодію 1677 року, яка була записана безліччю точок. Ще одна була виявлена ​​в записах 10 століття, де лініями було показано, в якій тональності слід співати. Приклади таких записів можна знайти на його сайті Phonozoic .

інший підхід

Іншим шляхом ідуть дослідники з MIT, Microsoft і Adobe: вони реконструюють звук по рухомій (а точніше, вібруючої) зображенні. Дослідники розробили алгоритм отримання аудіосигналу з вібрацій, записаних на відео.

В одному з таких експериментів їм вдалося витягти розбірливу мова з записи порожнього пакета з під чіпсів. У ряді інших експериментів той же вдалося зробити з поверхнею алюмінієвої фольги, келихом з водою і навіть з листям домашнього рослини. У 2014 році команда презентувала свої досягнення на щорічній конференції SIGGRAPH.

Відео з виступу одного з дослідників, які працювали над проектом, на конференції TED

Справа в тому, що коли звук стикається з об'єктом, він змушує його вібрувати. Рухи, створені цими вібраціями, настільки незначні і непомітні, що людина не може їх побачити. Однак їх може «побачити» камера: для отримання аудіосигналу з відео, вчені використовували відеозапис з частотою захоплення кадрів вище, ніж частота аудіосигналу.

Спочатку в експериментах застосовувалися камери з частотою зйомки 2000 і 6000 кадрів в секунду, проте дослідники намагалися використовувати і інші, більш бюджетні камери. Звичайно, з записаного відео з частотою зйомки 60 кадрів в секунду не вдавалося витягти виразну мову, але все ж було неможливо зрозуміти, скільки людей знаходилося в приміщенні, їх стать і навіть особливості їх вимови.

Звичайно, при думці про використання таких розробок, в голову приходять «шпигунські історії», проте самі дослідники називають свій проект можливістю відкрити нові грані в зображенні предметів і вивчити їх раніше недосліджені властивості. І якщо сотні років назад люди намагалися придумати спосіб «запису звуку», то тепер така «запис» стає побічним ефектом, який, в свою чергу, допомагає розкрити нові властивості звичних об'єктів.

Зроби сам

Як вже говорилося, першу фоноавтограмму вдалося розшифрувати завдяки технології відтворення звуку по фотографіях старих платівок (про цю технологію ми вже писали в одному з наших матеріалів - в ньому ж наводяться і посилання на розшифровані аудіозаписи). Однак Патрік Фістер підкреслює, що з цим завданням може впоратися будь-який бажаючий - якщо знає, що робити.

Докладний процес описаний в цьому матеріалі. Від себе зауважимо, що для вирішення завдання вам знадобиться якісне фото, базові навички володіння Photoshop (хвилю, прокреслені на вінілі, треба оцифрувати, «розпрямити» - борозенка на платівці закручується по спіралі - прибрати всілякі шуми і зміщення), а також відносно потужний комп'ютер з великим об'ємом оперативної пам'яті.

Для того, щоб перетворити отримане зображення в WAV-файл, Патрік використовує досить екзотичне ПО: це програма ImageToSound. Вона безкоштовна, але, незважаючи на це, її досить складно знайти в мережі (Патрік поділився джерелом ).

Програма послідовно конвертує кожен блок зображення (ширина блоку - 1 піксель) в аудіосемплам. На жаль, це ПЗ не підтримує навіть Windows 7 (автор використовує для роботи окремий комп'ютер з Windows 98). В якості альтернативи Фістер пропонує використовувати програму AEO-Light, але попереджає, що сам не до кінця знайомий з тонкощами роботи з нею.

Останній етап - регулювання швидкості відтворення. Тут на допомогу приходить проста математика. Для початку потрібно дізнатися швидкість відтворення на оригінальній платівці, довжину одного обороту оцифрованої хвилі (після «деспіралізаціі») в пікселях і частоту дискретизації кінцевого файлу.

Якщо зображення було змінено в аудіофайл з частотою дискретизації 44.1 кГц, то це означає, що секунда аудіофайлу буде дорівнює 44 100 пікселям зображення. Якщо, наприклад, швидкість пісні на вініловій платівці дорівнювала 50 оборотам в хвилину, а після оцифровки і деспіралізаціі один оборот пластинки зайняв 30 000 пікселів, ми отримуємо 1 500 000 пікселів в хвилину (50х30 000).

Якщо поділити цю кількість на 60, ми отримаємо кількість пікселів в секунду (1 500 000/60 = 25 000). Ділимо частоту дискретизації на кількість пікселів в секунду (44 100/25 000 = 1.764). Отримане число множимо на довжину аудіофайлу (час програвання пісні) і отримуємо час, з яким спочатку був записаний цей файл. Якщо швидкість відтворення оригінального запису невідома, Патрік радить підібрати підсумкову швидкість на слух.

Патрік Фістер попереджає - це досить кропітка праця, яка вимагає часу і терпіння, але при цьому дає часом дивовижні результати: особливо коли справа стосується голосів минулого, які, здавалося б, були назавжди втрачені.

Дополнительная информация

rss
Карта