Создаётся свободный корпус русского языка под лицензией Creative Commons BY-SA

Пользователь LiveJournal Lazy Frog, занимающийся созданием свободного корпуса русского языка под лицензией Creative Commons BY-SA 3.0, обратился с просьбой к блоггерам. Проекту OpenCorpora требуются тексты по лицензии CC-BY или CC-BY-SA для того, чтобы включить их в корпус. Уже используется Википедия, Викиновости и Частный корреспондент, но также требуются свободные записи в блогах. Автор поста просит откликнуться всех, кто готов разрешить использование записей блогов, Twitter или даже статусов «В контакте». Сообщить о свободом тексте можно здесь.

Проект OpenCorpora начался в 2009 году и к концу 2011 года он надеется достичь количества словоупотреблений в 1 миллион. От наиболее известного Национального корпуса русского языка проект OpenCorpora отличается свободной лицензией и возможностью редактировать разметку. Все данные OpenCorpora доступны для скачивания.

Подробное объяснение зачем создаётся свободный корпус и о моментах работы над ним можно прочитать в сообщении Lazy Frog.