Сильные обновления.
В корпусе со снятой грамматической омонимией появилась семантика. Появилась форма поиска по ней. Полисемия при этом не снята. Наиболее одиозные случаи ("мальчик", "девочка" и "мать" -- животные, "организм" -- сверхъестественное существо) мы выкинули, остальное живет. Hint: используйте вместе с семантикой грамматическую одушевленность.
Вот интересный запросик для примера.
Там же (в корпусе со снятой грамм. омонимией) теперь живет (нет, не так: живЁт), наряду с ударением, еще и буква Ё.
Появилась статистика по типу текстов и частям речи в вычищенном "золотом миллионе".
Неснятый корпус пополнился. Теперь у нас есть, в частности, транскрипты устной речи (пока немного, будет больше).
В корпусе со снятой грамматической омонимией появилась семантика. Появилась форма поиска по ней. Полисемия при этом не снята. Наиболее одиозные случаи ("мальчик", "девочка" и "мать" -- животные, "организм" -- сверхъестественное существо) мы выкинули, остальное живет. Hint: используйте вместе с семантикой грамматическую одушевленность.
Вот интересный запросик для примера.
Там же (в корпусе со снятой грамм. омонимией) теперь живет (нет, не так: живЁт), наряду с ударением, еще и буква Ё.
Появилась статистика по типу текстов и частям речи в вычищенном "золотом миллионе".
Неснятый корпус пополнился. Теперь у нас есть, в частности, транскрипты устной речи (пока немного, будет больше).
no subject
Теперь в корпусе со снятой грамматической омонимией можно будет снимать лексическую омонимию/полисемию. А то в класс "части оружия" попадают стволы яблонь, ткацкие станки, театральные ложи и ударники производства. ;)
no subject
Date: 2004-10-19 08:26 am (UTC)no subject
Date: 2004-10-20 08:49 am (UTC)no subject
Date: 2004-10-20 04:40 am (UTC)no subject
Date: 2004-10-20 08:49 am (UTC)