Зум-встреча архивистов АП6 июня 2020, 17:00–19:00Участники:Алексеев Александр
Альтшуллер Владимир
Весёлый Сергей (ведущий)
Жукова Наталья
Левитан Алла
Коленбет Алька
Колодин Михаил
Костромин Александр
Романова Вера (докладчик)
Соколов Дмитрий
Трубецкой Пётр (докладчик)
Феликсон Борис
Хвостова Ирина (докладчик)
Шиловский Антон
Юровский Виктор
Михаил Колодин: К теме предыдущей встречи. Когда-то у меня была попытка связаться с Библиотекой Конгресса США. Спрашивал, не возьмут ли они на хранение архивы нашей авторской песни, которая является важной частью русской культуры. Получил ответ: «На этот год финансирование уже закончилось». Других ответов добиться не удалось.
Борис Феликсон: Обсуждение прошлой темы на facebook получилось не таким, как ожидалось. Только на днях речь наконец зашла об интересующем аспекте, но формулировать конкретнее мне не хотелось, чтобы люди сами пришли к нужным выводам.
Ирина Хвостова: На таких порталах надо сразу ставить конкретный вопрос: кто чем готов помочь.
Борис Феликсон: Много теоретиков, не готовых что-то делать. Хотя и деньги скинуть многие предложили.
Выступление Петра ТрубецкогоДелюсь нашим с Аллой Левитан опытом по работе с архивом Н.Ф.Курчева. Было 30 коробок, в каждой коробке около 5-6 тысяч листов. Сперва сделал фотоснимок содержания каждой коробки, по-крупному. Было много запросов к этому архиву, поэтому все бумаги сканировал. Одну коробку предложила разложить Нина Игнатова, но оказалось, что не при всех запросах пользоваться её системой удобно. Часто они формулировались так, что приходилось подробно просматривать каждый документ, так как информация перемешивается разнородная. В процессе пришла интересная мысль: разделить этот архив по категориям, чтобы искать нужное не во всех 100 тысячах файлах, а только в
одной категории.
Чаще всего просят найти что-то в конкретной форме документа: фотографию, текст песни, содержание концерта, события за определённый период. Исходя из запросов предложил разложить все файлы по папкам: "хронология", "вырезки из газет", "фотографии", "письма" и так далее. В разных папках файлы дублировались, если относились одновременно к нескольким категориям (файл с фотографией, опубликованной в газете, помещался и в папку "фото", и в папку "вырезки")
Обсуждение, вопросыСмотрим видео: С.Никитин поёт новую песню на стихи Пушкина.Выступление Веры Романовой
(трансляция мнения Юрия Ревича)Юрий Ревич рассказал, что Максим Мошков [Создатель уникальной, первой в рунете, библиотеки lib.ru, действующей с 1994 года. Сайт Анчарова (ведёт Ю.Ревич с 2004 года, сайт Д.Сухарева (ведёт И.Хвостова с 2005 года) существуют бесплатно на территории домена lib.ru] уже давно и успешно решил нашу проблему. Её можно условно поделить на несколько частей.
1. Техника-финансы
Нужно около сотни тысяч рублей на покупку или аренду своего сервера. Есть несколько организаций, которые этим занимаются; аренда обойдётся в 3000 рублей в месяц. Если покупать, нужно приобрести диски по 10 ТБ. И подойти со всей ответственностью: стойки требуют правильного обслуживания. Кроме того нужен специалист, который один раз всё это настроит (организует RAID-массив, сделает доступ к нему на основе Linux).
2. После этого необходимо организовать обмен данных с внешним миром. По мнению Ю.Ревича, это может сделать условный студент-программист. Написать программу несложно, но мы должны придумать, какого рода запросы к данным
должна обрабатывать поисковая система нашего сервера.
Предпочтительнее, чтобы внешний запрос в Яндексе не прямо выводил на наши файлы, а вёл в поисковую систему самого сервера, на котором будет поисковик по нашим архивам, который мы придумаем, как сделать. Как разложить
информацию, знаем только мы.
3. И нужен администратор, следящий за работой сервера. Он делает профилактику. И подключает к работе нужные диски. Потому что лучше не подключать сразу все диски, а вычленить общедоступное ядро самой важной информации, а остальную — подключать по запросу.
Кроме того, нужно купить (и оплачивать) доменное имя у провайдера.
Самое сложное во всём этом — придумать классификацию данных и систему доступа к ним.
ОбсуждениеИрина Хвостова: Нужно предоставить полный доступ не ко всей информации, но ко всем описям. Программист должен быть нашим человеком, потому что сразу правильную систему мы не придумаем, её нужно будет дорабатывать первое время. Интересно подробнее узнать, как у Мошкова организован его огромный объём данных? Как устроен поиск и управление трафиком в его библиотеке?
Вера Романова: Я так понимаю, что особенных хитростей нет. Но Мошков — сам себе программист, что хочет, то и делает. Нам так круто, как у него, по словам Ю. Ревича, даже и не нужно. Самое сложное — это база данных, система. Участие администратора надо при этом минимизировать.
Борис Феликсон: Это то, о чём мы говорили в начале. У каждого файла есть содержимое и некий набор тегов, который его описывает. Нужно подобрать эти ключевые слова. Одной стойкой наш архив полностью исчерпывается. Технически его можно опубликовать проще — загрузить диск описанных и оцифрованных материалов я могу за пять минут.
Даже серьёзная аппаратура не требует пристального внимания. Когда диск ломается, она начинает мигать.
Пётр Трубецкой: Несколько нюансов.
Сейчас для выкладывания в Интернет практически ничего не готово. Есть огромная каша оцифровок без какой-то общепонятной системы, с абы какими именами файлов. Тысяча терабайт. Эти файлы ищутся не с помощью таблицы.
Просто они лежат там, где искать их логичнее всего. Организовано так: либо файлы имеют осмысленное имя, либо находятся в папке с осмысленным именем. В идеале –—и то, и то.
Но! Имена всех файлов хранятся в одном текстовом документе, в DIR-документе. Индексация всего архива едина.
И получается: никакой описи нет, каша, но я всё могу найти за десять секунд.
На подбор фонограмм двух с половиной тысяч песен для книги Каримова у меня ушло всего 2 дня!
Борис Феликсон: Эту систему и нужно взять за основу, но добавить ссылки, чтобы по ним сразу можно было добраться до файла.
Александр Алексеев: Я правильно понимаю, что для разных файлов используется разная мнемоника? Нужно расшифровать обозначения, дополнить таблицу тем, что держится в голове. Держать в таблице названия файлов.
Александр Костромин: Как пользователь замечу, что лично мне экселевские таблицы неудобны. Лучше всего — текстовый файл.
Вера Романова: Можно хранить информацию в разных форматах. В любом случае доступ к Единой Таблице должен быть не у всех. Начинать работу по выкладыванию можно на уже существующем материале.
Пётр Трубецкой: У меня полмиллиона описанных оцифровок. Это объём на пару терабайтов в mp3.
Сергей Весёлый: А что по поводу авторских прав?
Борис Феликсон: Этот вопрос можно закрыть сразу: авторская песня и авторские
права несовместимы.
Вера Романова: Мошков делает так: убирает те файлы, на которые поступают жалобы на нарушение авторских прав. А что сделаешь? Всё, что открыто, то, открыто всем. Если кто-то наехал – прячем. Появляется запрос — отдаём
приватно.
Пётр Трубецкой: Можно спрятаться за договор, согласно которому мы не будем нести ответственность за права на материалы. Отвечает тот, кто скачивает. Но это технические вопросы. Есть вопросы по сводному каталогу.
Алла Левитан: Всё видео, которое выкладываем на ютьюб, должно быть с титрами, куда включать всё важное. Потому что все тащат с ютьюба только видеофайлы, без их описания, — и данные теряются.
Наталья Жукова и Алла Левитан
(Обсуждают моменты описания аудиоархива, оцифровку которого сейчас заканчивает Наташа.)Вера Романова: (Поясняет общую работу с одной описью.) Коротко: на промежуточном этап таблицу заполняют все, потом она передаётся на проверку модераторам — людям с квалификацией в ведении Глобальной Таблицы. Модераторы уточняют спорные места со специалистами в данной области и уведомляют их о том, что описана новая запись. После этого — добавляют в Глобальную Таблицу. Отдельные исправления в ней — это частности, это должно
быть быстрее, чем сейчас.
Алла Левитан(О своём каталоге по авторам, которым ей очень удобно пользоваться и отвечать
на запросы.)
Выступление Ирины Хвостовой (Конспект)ИДЕАЛЬНАЯ ОПИСЬ АРХИВА.
ПОПЫТКИ, ТРУДНОСТИ, ВОПРОСЫ
1. Необходимость описейОписи нужны всему, что храним. Не только коробке с 3000 листов документов, не только массе фотографий, не только песням в аудиофайлах, но и самим файлам, а также папкам, куда они разложены, дискам, коробкам и хранилищам.
2. Унификация или персонализация?Унификация — это когда все всё описывают по единым правилам. Реальна и полезна только внутри небольшой группы единомышленников и внутри одного архива однотипных единиц хранения. Абсолютно не реальна, если людей много. Каждый архивист сам себе режиссёр. Абсолютно вредно разные архивы — под одну гребёнку.
Задачи и содержимое разных архивов — разные.
Персонализация — необходима и естественна, как сама жизнь, которую мы архивируем. Не надо бояться, что все описи разные. Но нужно минимизировать трудности отсутствия единства.
3. Проблемы доступа и их преодоление- Разнородные единицы хранения связаны между собой, но требуют разных описей: бумаги, фотографии, аудиозаписи, видеозаписи, личные вещи и т. д.
- Поля заполняются каждое по своим правилам.
- Многие признаки кодируются и кодировки разные.
Нужно максимально подробное описание всех принципов и правил, по которым действовал архивист. Тогда любой сможет разобраться и найти, что ему нужно.
Если сделать единое описание всех разрозненных описей, установив соответствие полей и тегов в них, то возможно построить единый поисковый аппарат по всем персональным архивам. Такого опыта, однако, пока нет.
4. Попытка составления идеальной описиЕсть наработки по описанию фотоархива Д. Сухарева с использованием разделения тысяч фотографий на группы, которые обозначил сам Сухарев, и с подробным описанием каждого фото. Могу поделиться этим опытом. Но есть нерешённые вопросы.
5. Вопросы- Для вертикальных связей какие категории на каких уровнях предпочтительнее?
Для каких архивов какие категории важней? Может быть, вообще отказаться от
структуры и вертикальных связей, а связать всё только тегами?
- Для Excel-описей как лучше кодировать? Как нельзя кодировать? Как кодировать,
чтобы было возможно (полу-)автоматически унифицировать кодировку разных
архивов, если это понадобится?
- Какие правила при составлении описи соблюдать, чтобы было возможно делать
автоматическую обработку задач и запросов?
- Какими свойствами должна обладать опись, чтобы её легко можно было изменять,
приспосабливая к новым обстоятельствам? Как описывать, чтобы не пришлось
переделывать всё?
-Что надо описывать в первую очередь? Какие сведения давать более подробно?
Наконец, что собирать, а что не собирать?
Решили обдумать доклад и обсудить на следующей встрече через неделю, 13 июня.