Учёные Новосибирского государственного университета (НГУ) в сотрудничестве с коллегами из Казахстана разработали алгоритм, позволяющий находить деструктивную информацию в Сети. Поиск осуществляется на русском и казахском языках.
Анализ казахских слов проводится на основе морфологических особенностей языка. Алгоритм анализировует слова, определяет их начальную форму или образует другие формы на её основе. Такой подход важен для смыслового анализа больших текстов или поиска в Сети.
Мы провели анализ новостей в казахстанском сегменте Интернета на казахском и русском языках, собрав обширный дата-сет. В частности, мы исследовали деструктивную информацию и научились определять ее по ряду признаков.
Учёный объяснил, что одним из признаков деструктивной информации является призыв к действиям. Также специалисты классифицировали информацию по достоверности данных и выводам, сделанным авторами публикаций.
В исследовании был задействован корпус казахстанских СМИ. Он включал более 4 миллионов публикаций из 36 источников. Также использовались более 2 млн текстов российских СМИ.
Деструктивная информация определялась с помощью методов машинного обучения и искусственного интеллекта на основе таких критериев, как отсутствие проверяемых фактов, политизация, призыв к действию, негативная тональность и манипулятивность.
Учёные НГУ совместно с сотрудниками Казахского национального технического университета имени К. И. Сатпаева продолжают исследования. Они разрабатывают онтологию в области обработки естественного языка на трех языках. Она позволит обучать большие языковые модели
Читайте ещё по теме:
Нейросеть GigaChat научат удмуртскому языку
В МТУСИ научат нейросеть читать повреждённые штрихкоды
Нейросеть для создания фильмов и сериалов разработали в Москве