Есть совершенно замечательная книжка «Harry Potter and the Methods of Rationality». Это фанфик, т.е. книжка написанная фанатом по мотивам известного прозведения. Книга изначально написана на английском языке, но она частично переведена на русский язык.
Английская версия книги доступна на сайте hpmor.com, 122 главы и это законченное произведение.
Русский перевод книги доступен на сайте hpmor.ru и на момент написания этого текста переведно 107 глав, т.е. русский текст неполон.
Достаточно давно я прочитал существющий русский перевод и захотел прочитать всю книжку в оригинале. Я достаточно хорошо знаю английский язык чтбоы читать техническую литературу, читать и писать на stackoverflow.com, и болтать на всякие технические темы, но читать литературные произведения мне сложно — смысл я понимаю, но очень много слов я не знаю и из-за этого я не получаю всего доступного удовольствия. Я хочу расширить свой словарный запас.
Чтобы удобно работать с книгой мне нужен ее текст в формате plain text. На сайте hpmor.com, есть html, epub и mobi форматы, которые мне не подоходят. Поэтому в качестве первого шага я создал plain text файлы с исходным текстом книги и положил их на github. (вот скрипт, который я использовал для создания этих файлов).
После того как у меня появилась книга в формате plain text я разрезал всю книгу на слова и посчитал сколько раз используется каждое слово. Вот вся статистика по словам. Всего в тексте книги использовалось 18395 разных словх из которыйх 11748 использовались больше одного раза. Еще я взял и разрезал всю книжку по предложениями
И теперь я могу учить новые слова. Например, я нашел в этом списке слово "hissed", которое я не знаю. Смотрю какие есть подобные слова:
$ cat words |grep hiss
117 hissed
40 hiss
35 thiss
11 hissing
5 hisses
1 thissoom
1 thisss
И могу легко посмотреть все примеры использования этого слова:
$ cat sentences |egrep '\bhissed\b' |vim -
А с помощью slovari.yandex.ru я смотрю перевод этого слова.
Теперь вся информация в удобной форме у меня есть, осталось только перенести все из знания из компьютера в голову.
11 апреля 2015