План работ

Работы сле­дующего этапа (2020–2021) предпо­лагают раз­ви­тие создан­ной информаци­он­ной системы и средств ее веде­ния, отве­чающих заяв­лен­ным тре­бо­ва­ниям. По результа­там работ система должна начать бес­пе­ре­бойно функци­о­ни­ро­вать в штат­ном режиме.

Работы 2020–2021 гг. бази­руются на результа­тах пер­вого трехго­дич­ного этапа работ (2017–2019). За это время была создана альфа-вер­сия информаци­он­ной системы, функци­о­ни­рующая в открытом сете­вом режиме. В ней были реа­ли­зо­ваны и на ней апро­би­ро­ваны выбран­ные науч­ные и тех­но­логи­че­ские реше­ния, заложен­ные в основу ИС СПСЛ. Пер­вый год пол­ноцен­ной экс­плу­а­тации (2019) пока­зал рабо­то­спо­соб­ность и возмож­ность раз­ви­тия, а также в целом под­твер­дил сде­лан­ный выбор в пользу кон­крет­ных опе­раци­о­наль­ных реше­ний.

Основ­ные направ­ле­ния работ в 2020–2021 гг.

1. Созда­ние пол­ноцен­ной вер­сии для мобиль­ных устройств — адап­тив­ного интерфейса

Слож­ность и спе­ци­фич­ность поль­зо­ва­тельских функци­о­наль­ных задач, в част­но­сти, парал­лель­ный про­смотр пред­став­лен­ных в системе тек­стов, не поз­во­ляют огра­ни­чится одной реа­ли­за­цией интерфейса, при­год­ной одно­временно для стаци­о­нар­ный и мобиль­ных устройств. Создан­ная в 2017–2019 гг. мобиль­ная вер­сия явля­ется экс­пе­римен­таль­ной и решает постав­лен­ные задачи лишь отча­сти.

2. Раз­ви­тие много­языч­ного поль­зо­ва­тельского интерфейса

Созда­ние много­языч­ного интерфейса (рус­ский — английский — испан­ский) — пол­но­стью себя оправ­дало, поскольку созда­ва­емая система рас­счи­тана на меж­ду­на­род­ную поль­зо­ва­тельскую ауди­то­рию. На пер­вом этапе в ино­языч­ных вер­сиях были пере­ве­дены основ­ные опи­са­ния и элементы интерфейса. Эта работа должна быть про­должена — в част­но­сти, должны быть пред­став­лены на язы­ках интерфей­сов такие элементы системы, как поле «При­ме­ча­ние» в корпус­ных мета­дан­ных. Кроме того, должна быть создана система редак­ти­ро­ва­ния много­языч­ных мета­дан­ных (в насто­ящее время экс­порт вво­димых зна­че­ний в поля мета­дан­ных из рус­ско­языч­ной вер­сии в ино­языч­ные про­из­во­дится вруч­ную). Рас­смат­ри­ва­ется возмож­ность добав­ле­ния еще одного ино­языч­ного интерфейса — фран­цуз­ского.

3. Даль­нейшее информаци­он­ное напол­не­ние под­си­стем «Биб­лио­тека» и «Корпус»

Добав­ле­ние новых изда­ний в Биб­лио­теку и «препа­ри­ро­ва­ние» про­из­ве­де­ний для Корпуса должно про­должаться в штат­ном режиме. Пла­ни­ру­емые объемы попол­не­ния — не менее 10 тысяч печат­ных стра­ниц в год. Объем информации в СПСЛ должен соот­вет­ство­вать современ­ным пред­став­ле­ниям о «big data». То, что уже сде­лано, — чрез­вы­чайно мало для системы с такими целями и зада­чами.

Попол­не­ние должно спо­соб­ство­вать вклю­че­нию в ИС СПСЛ про­из­ве­де­ний раз­лич­ных лите­ра­тур­ных жан­ров, помимо соб­ственно лири­че­ских (эпиграмма, басня, сти­хо­твор­ная сказка, эпи­че­ская поэма, опи­са­тель­ная поэма и др.), охвату всех эпох роман­ских лите­ра­тур (с XIII по XX вв.) и рус­ских пере­во­дов (с XVIII по XXI вв.), расши­ре­нию списка охва­чен­ных роман­ских язы­ков (кроме уже задейство­ван­ных ита­льян­ского, испан­ского и фран­цуз­ского, как минимум, — пор­тугальский).

4. Раз­вер­ты­ва­ние широ­ко­масштаб­ных работ в под­си­стеме «Энцик­лопе­дия»

Био­биб­лиографи­че­ские справки в раз­деле «Энцик­лопе­дия», свя­зан­ные с Базой дан­ных авто­ров (БДА), исполь­зу­емой при подго­товке информации для ИС СПСЛ, поз­во­ляют одно­значно иден­тифици­ро­вать авто­ров вклю­чен­ных в систему про­из­ве­де­ний и аккуму­ли­ро­вать важ­нейшие све­де­ния о них. Созда­ние био­спра­вок тре­бует про­ве­де­ния регу­ляр­ной иссле­до­ва­тельской и архивно-биб­лиографи­че­ской работы. Кроме того, необ­хо­димо орга­ни­зо­вать пере­вод био­спра­вок на основ­ные языки системы (английский и испан­ский).

Сей­час в БДА около 800 авто­ров, и число их будет уве­ли­чи­ваться, а в Энцик­лопе­дии — 60 спра­вок, не менее поло­вины из кото­рых тре­буют дора­ботки.

Поскольку справки подго­тав­ли­ваются раз­ными испол­ни­те­лями, потре­бу­ется:

  • пере­чень основ­ных пра­вил пред­став­ле­ния све­де­ний,
  • про­ве­де­ние редак­туры перед выклад­кой.

Необ­хо­дима также дора­ботка ИС с целью реа­ли­за­ции лек­си­че­ского и атри­бут­ного поиска в раз­деле «Энцик­лопе­дия».

5. Раз­вер­ты­ва­ние широ­ко­масштаб­ных работ в под­си­стеме «Теза­у­рус»

В отли­чие от осталь­ных, пол­но­функци­о­нально действующих под­си­стем, Теза­у­рус в его текущем состо­я­нии фак­ти­че­ски пред­став­ляет собой макет-про­то­тип. Впе­реди — созда­ние системы авто­ма­ти­зи­ро­ван­ного веде­ния Теза­у­руса, созда­ние системы подго­товки информации, кор­рек­ти­ровка руб­ри­кации, напол­не­ние Теза­у­руса ста­тьями, созда­ние системы рас­ста­новки гипер­тек­сто­вых свя­зей «Теза­у­рус — Биб­лио­тека». Кроме того, необ­хо­димо орга­ни­зо­вать пере­вод ста­тей теза­у­руса на основ­ные языки системы (английский и испан­ский).

Поскольку ста­тьи могут подго­тав­ли­ваться раз­ными испол­ни­те­лями, потре­бу­ется:

  • пере­чень основ­ных пра­вил пред­став­ле­ния све­де­ний,
  • про­ве­де­ние редак­туры перед выклад­кой.

Необ­хо­дима также дора­ботка ИС с целью реа­ли­за­ции лек­си­че­ского и атри­бут­ного поиска в раз­деле «Энцик­лопе­дия».

6. Раз­ви­тие средств под­держки системы гипер­тек­сто­вых свя­зей

Раз­ра­ба­ты­ва­емая информаци­он­ная система вклю­чает много­чис­лен­ные семан­ти­зи­ро­ван­ные гипер­тек­сто­вые связи, поз­во­ляющие поль­зо­ва­телю осуществ­лять соот­вет­ствующие пере­ходы. Таковы, напри­мер, пере­ходы от про­из­ве­де­ния в Корпусе к коммен­та­риям, рас­по­ложен­ным внутри изда­ния в под­си­стеме «Биб­лио­тека» или пла­ни­ру­емые пере­ходы от ста­тей Теза­у­руса к упо­треб­ле­ниям этого термина в изда­ниях, вклю­чен­ных в раз­дел «Иссле­до­ва­ния» под­си­стемы «Биб­лио­тека».

Для реа­ли­за­ции этих свя­зей и удоб­ного их исполь­зо­ва­ния раз­ра­бо­таны спе­ци­аль­ные программ­ные сред­ства, обес­пе­чи­вающие прямые и обрат­ные пере­ходы не только между отдель­ными про­из­ве­де­ни­ями, но и между их фраг­мен­тами, а также пере­ходы, свя­зан­ные с множе­ствен­ными свя­зями (1 : n). Необ­хо­димо раз­ви­тие создан­ной системы иден­тифи­кации свя­зы­ва­емых объек­тов, средств визу­а­ли­за­ции возмож­ных пере­хо­дов для конеч­ного поль­зо­ва­теля и средств авто­ма­ти­за­ции опре­де­ле­ния свя­зей.

Для пре­враще­ния суще­ствующей системы гипер­тек­сто­вых свя­зей ИС в под­лин­ную семан­ти­че­скую сеть тре­бу­ется вве­де­ние новых типов свя­зей. Помимо уже суще­ствующих свя­зей «Корпус — Корпус», «Корпус — Биб­лио­тека» и обрат­ных свя­зей «Биб­лио­тека — Корпус», необ­хо­димо доба­вить связи «Биб­лио­тека — Биб­лио­тека», упомя­ну­тые выше связи «Теза­у­рус — Биб­лио­тека» и обрат­ные по отноше­нию к ним связи «Биб­лио­тека — Теза­у­рус». Осо­бый ста­тус имеют связи между ука­за­те­лями Корпуса и Биб­лио­теки с раз­де­лом «Энцик­лопе­дии».

7. Реа­ли­за­ция в системе возмож­но­сти созда­ния и веде­ния иерар­хи­че­ских и функци­о­наль­но­за­ви­симых мета­дан­ных и струк­тур

Созда­ние средств, обес­пе­чи­вающих под­держку такого рода мета­дан­ных, необ­хо­димо для реше­ния ряда важ­ных задач, преду­смот­рен­ных концепцией ИС СПСЛ. К этим зада­чам отно­сятся:

  • обес­пе­че­ние работы с полимет­ри­че­скими тек­стами;
  • под­держка вари­ан­тов про­из­ве­де­ний в под­си­стеме «Корпус»;
  • пол­ноцен­ная под­держка в под­си­стеме «Корпус» пере­во­дов не всего ориги­нала, а отдель­ных его фраг­мен­тов;
  • вклю­че­ние больших тек­стов, состо­ящих из струк­тур­ных еди­ниц более низ­ких уров­ней, для чего потре­бу­ется вве­сти в мета­дан­ные много­уров­не­вую иерар­хию: целое про­из­ве­де­ние и его части, а также фраг­менты внутри частей (на пер­вом этапе были сде­ланы лишь пер­вые шаги к реше­нию этой задачи);
  • пред­став­ле­ние струк­тур целых тек­стов и пере­во­дов их фраг­мен­тов;
  • при­ну­ди­тель­ная син­хро­ни­за­ция тек­стов в парал­лель­ных окнах.

8. Дора­ботка системы поиска

  • Учет иерар­хии мета­дан­ных как при выборе зна­че­ния атри­бута, так и при пред­став­ле­нии результа­тов поиска.
  • Само­сто­я­тель­ное зада­ние зна­че­ния атри­бу­тов конеч­ным поль­зо­ва­те­лем (минуя сло­варь).
  • Авто­ма­ти­за­ция ино­языч­ного пред­став­ле­ния зна­че­ний корпус­ных атри­бу­тов.

9. Раз­ра­ботка авто­ма­ти­зи­ро­ван­ной системы управ­ле­ния тех­но­логи­че­ским процес­сом подго­товки дан­ных для системы

Для веде­ния информаци­он­ной системы и подго­товки мета­дан­ных на пер­вом этапе было вве­дено трех­уров­не­вое раз­де­ле­ние работ и соот­вет­ствующее раз­де­ле­ние адми­ни­стра­тив­ных пол­номо­чий:

  • печат­ное изда­ние и его основ­ные мета­дан­ные (иден­тифи­ка­торы, биб­лиографи­че­ское опи­са­ние, ряд атри­бу­тов) обра­ба­ты­ваются спе­ци­а­ли­стами по подго­товке информации;
  • спе­ци­аль­ные мета­дан­ные (мет­рика, строфика и др.) создаются спе­ци­а­ли­стами-фило­логами;
  • кон­троль веде­ния сло­вар­ного обес­пе­че­ния спе­ци­аль­ных мета­дан­ных воз­лага­ется на адми­ни­стра­тора системы, также являющегося спе­ци­а­ли­стом-фило­логом.
  • созда­ние системы пуч­ков-кла­сте­ров (внут­ри­корп­сус­ных свя­зей) и иных (межпод­си­стем­ных) гипер­тек­сто­вых свя­зей.

Работы как вто­рого, так и тре­тьего уровня осуществ­ляются в сете­вом режиме после загрузки информации на сер­вер. Для этого спе­ци­а­ли­стам-фило­логам предо­став­лены сред­ства, поз­во­ляющие выпол­нять ука­зан­ные работы. Эти сред­ства помимо необ­хо­димой функци­о­наль­но­сти должны, без­условно, обес­пе­чи­вать без­опас­ность информаци­он­ной системы и целост­ность, содержащихся в ней дан­ных. В силу своей спе­ци­фики эти сред­ства не могут быть реа­ли­зо­ваны в рам­ках системы управ­ле­ния кон­тен­том (CMS), а суще­ствуют наряду с ней.

На пер­вом этапе работ были сде­ланы пер­вые шаги к созда­нию авто­ма­ти­зи­ро­ван­ной системы управ­ле­ния (АСУ). Суще­ствен­ная часть процесса подго­товки информации уже про­ис­хо­дит под ее кон­тро­лем. На сле­дующем этапе АСУ должна быть принци­пи­ально расши­рена, дора­бо­тана так, чтобы охва­тить весь тех­но­логи­че­ский процесс (от состав­ле­ния пла­нов до загрузки конеч­ного про­дукта и — при необ­хо­димо­сти — его кор­рек­ти­ровки), и вве­дена в штат­ную экс­плу­а­тацию. Необ­хо­димость АСУ дик­ту­ется спе­ци­фи­кой и слож­но­стью ИС, кото­рая харак­те­ри­зу­ется:

  • совмеще­нием интел­лек­ту­аль­ных и рутин­ных процес­сов,
  • большими объемами информации (десятки, а в ближайшей пер­спек­тив — сотни тысяч про­из­ве­де­ний и гипер­тек­сто­вых свя­зей),
  • много­языч­но­стью подго­тав­ли­ва­емой информации и ее раз­но­род­но­стью (сти­хо­твор­ные про­из­ве­де­ния, иссле­до­ва­ния, справки и т.д.),
  • высо­кими тре­бо­ва­ни­ями к каче­ству, без кото­рых немыс­лимо пол­ноцен­ное функци­о­ни­ро­ва­ние системы.

Без пол­ноцен­ной АСУ работа ста­нет хао­тич­ной и малопро­дук­тив­ной, при­во­дящей к большому коли­че­ству оши­бок. Необ­хо­дима опти­ми­за­ции имеющегося кода АСУ, раз­ра­ботка и созда­ние ее эрго­номич­ного диза­йна и серьез­ное упроще­ние поль­зо­ва­тельского функци­о­нала.

10. Созда­ние пол­ноцен­ной БД загла­вий

В состав АСУ, помимо уже функци­о­ни­рующих в ней баз дан­ных (БД изда­ний, БД про­из­ве­де­ний и БД авто­ров) необ­хо­димо вве­сти как минимум еще одну базу дан­ных — БД загла­вий, в насто­ящее время суще­ствующую в зача­точ­ном виде. На основе про­ве­ден­ных работ необ­хо­дима раз­ра­ботка пол­ноцен­ного тех­ни­че­ского зада­ния на созда­ние системы веде­ния, программ­ных средств и интерфей­сов для исполь­зо­ва­ния дан­ных (как при подго­товке информации для системы в целом, так и для ее функци­о­ни­ро­ва­ния), напол­не­ние новой БД.

11. Varia

  • Дора­ботка тех­но­логии подго­товки и загрузки информации.
  • Созда­ние хра­ни­лища дан­ных, подго­тав­ли­ва­емых для информаци­он­ной системы.
  • Дора­ботка диза­йна системы, в част­но­сти, в связи с внед­ре­нием результа­тов ука­зан­ных выше работ.
  • Подго­товка тех­ни­че­ской докумен­тации на ИС СПСЛ и АСУ (опи­са­ния, инструкции по экс­плу­а­тации).

12. Раз­ви­тие информаци­он­ного фонда системы

Учи­ты­вая цели и задачи системы, объем работ по форми­ро­ва­нию информаци­он­ного фонда в 2017–2019 гг., и накоп­лен­ного опыта необ­хо­дим комплекс­ный ввод информации (печат­ных изда­ний) в систему, вклю­чающий:

  • тща­тель­ный и обос­но­ван­ный отбор тек­стов (ориги­наль­ных про­из­ве­де­ний, пере­во­дов и иссле­до­ва­ний), отражающих лите­ра­туру на раз­лич­ных роман­ских язы­ках, раз­лич­ные времен­ные пери­оды, раз­но­об­ра­зие пере­вод­че­ских тра­диций и школ, а также раз­лич­ные направ­ле­ния иссле­до­ва­ний;
  • полу­че­ние необ­хо­димых изда­ний, а также прав на их исполь­зо­ва­ние (как пер­вое, так и вто­рое в ряде слу­чаев пред­став­ляет серьез­ную про­блему);
  • пол­ноцен­ное и каче­ствен­ное пре­об­ра­зо­ва­ние печат­ных изда­ний в элек­трон­ную форму и ввод в систему (отдель­ные аспекты подго­товки тре­буют серьез­ных улучше­ний).

13. Созда­ние под­си­стемы сбора и накоп­ле­ния ста­ти­сти­че­ской информации

  • Раз­ра­ботка исход­ных тре­бо­ва­ний.
  • Созда­ние про­то­типа системы, функци­о­ни­рующего над про­из­ве­де­ни­ями, пред­став­лен­ными в Корпусе.
  • Про­ве­де­ние испыта­ний про­то­типа.