МТС - один из крупнейших мобильных операторов в России и СНГ. МТС Библиотека - приложение для чтения электронных книг, прессы и прослушивания аудиокниг, доступно для абонентов всех мобильных операторов, продукт экосистемы МТС. В представленном датасете собраны данные по пользователям и книгам, а также по их взаимодействиям (прочтение книги пользователем) из сервиса МТС Библиотека. Данные по чтению пользователями книг собраны за 2 два года, с 01-01-2018 по 31-12-2019 включительно, и разбавлены случайным шумом. ID пользователей и книг анонимизированы. Статистика по датасету: - 150к пользователей
- 60к книг
- 1.5м взаимодействий
- для 285к из них известны рейтинги
Содержание users.csv В данном файле содержится информация о пользователях: - user_id - ID пользователя, int64
- age - возрастная группа пользователя, строка вида "M_N"
- данный признак - результат работы модели
- 18_24 - от 18 до 24 лет включительно
- 25_34 - от 25 до 34 лет включительно
- 35_44 - от 35 до 44 лет включительно
- 45_54 - от 45 до 54 лет включительно
- 55_64 - от 55 до 64 лет включительно
- 65_inf - от 65 и старше
- NaN - неизвестно
- sex - пол пользователя, 1/0
- данный признак - результат работы модели
- 1 - мужчина
- 0 - женщина
- NaN - неизвестно
items.csv В данном файле содержится информация о книгах: - item_id - ID книги, int64
- title - название книги, строка
- genres - жанры, строка с разделителем ','
- authors - авторы, строка с разделителем ','
- year - год публикации, строка
- строка, потому что есть значения, которые нельзя автоматически привести к числовому значению
interactions.csv В данном файле содержится информация о взаимодействиях пользователей и книг: - user_id - ID пользователя, int64
- item_id - ID книги, int64
- progress - прогресс по чтению в процентах, int8
- rating - рейнтинг книги выставленный пользователем, от 1 до 5, много пропущенных значений
- start_date - дата начала чтения книги пользователем
| MTS is one of the largest mobile network operator in Russia and CIS. MTS Library is the part of MTS business ecosystem. This service provides ebooks, audiobooks, and press. The dataset contains user and book information along with their interactions. User reading statistics were collected for over 2 years (from 01-01-2018 till 31-12-2019) with random noise added. User IDs are anonymized. Dataset statistics: - 150к users
- 60к books
- 1.5м interactions
Content users.csv User features: - user_id - user ID, int64
- age - age group of user, string like "M_N"
- this feature is result of other model prediction
- 18_24 - from 18 to 24 years inclusive
- 25_34 - from 25 to 34
- 35_44 - from 35 to 44
- 45_54 - from 45 to 54
- 55_64 - from 55 to 64
- 65_inf - from 65 and older
- NaN - unknown
- sex - user's sex, 1/0
- this feature is result of other model prediction
- 1 - male
- 0 - female
- NaN - unknown
items.csv The file contains book features: - item_id - book ID, int64
- title - book title, string
- genres - book genres, string with ',' separator
- authors - book authors, string with ',' separator
- year - year of publication, string
- string because the column contains uncommon values, which cannot be converted to integer automatically
interactions.csv The file contains information about user-book interactions: - user_id - user ID, int64
- item_id - book ID, int64
- progress - reading progress as a percentage, int8
- rating - book's rating provided by user (from 1 to 5, a lot of missing values)
- start_date - date when the user started reading the book
|