EN
UA
Оберіть джерела інформації
На яких сайтах ви хочете збирати необхідну інформацію.
Визначте перелікполів
Яка саме інформація вам потрібна.- Наіменування товарів- Ціна- Посилання- Зображення
Вкажіть форму представлення
- Excel- CSV- XML
Парсінг — це процес перетворення форматованого тексту в структуру даних. Тип структури даних може бути будь-яким відповідним представленням інформації, закарбованою у вихідному тексті. Найбільш популярним та зручним є представлення вихідних даних у форматі Excel та CSV(текстовий файл, розділений комами). Причина такої популярності є зручний інструментарій для ручного маніпулювання даними та їх графічного представлення для аналізу. Найбільш доступним інструментом графічного представлення є, безумовно Excel, але для аналізу великих об’ємів даних (Big Data Science) він не є зручним через дуже повільну обробку запитів. Для цих цілей зручно використовувати модуль, який Python називається Plotly. Дуже просунутий та ефективний інструмент.
Приклад графічного відображення даних за допомогою Plotly
Фази парсингуПарсер аналізує вихідний текст на відповідність визначеному формату. Якщо вихідний текст не відповідає формату, видаються або повертаються помилки. Якщо збігається, повертається «структура даних».
● Сканування — це процес перетворення потоку символів у маркери. Лексема представляє «концепцію», введену форматом, і її можна розглядати як мітку, призначену одному або декільком символам. З точки зору обробки: маркер — це об’єкт, який може містити тип, лексему, інформацію про місцезнаходження тощо.
● Синтаксичний аналіз досліджує сформовану структуру як «зберігання лексем, як вони з’явилися». Він також перевіряє та витягує вибіркові дані для створення бажаної структури даних. Помилки, про які виникають на цьому етапі, називаються синтаксичними помилками.
● Формування структури даних. На цьому етапі ми отримуємо інформацію у «сирому» вигляді та перетворюємо її у зручний вигляд для аналізу.