Используйте Excel как инструмент для копирования данных из Интернета

Веб-скрапинг(Web scraping) — это процесс извлечения данных, информации или изображений с веб-сайта с использованием автоматизированного метода. Думайте(Think) об этом как о копировании и вставке(copy and paste) в полностью автоматическом режиме.

Мы либо пишем, либо используем приложение, чтобы переходить на нужные нам веб-сайты и делать копии определенных вещей, которые мы хотим получить с этих веб-сайтов. Это намного точнее, чем скачивание всего веб-сайта.

Как и любой инструмент, веб-скрапинг можно использовать во благо или во зло. Одними из лучших причин для парсинга веб-сайтов будут ранжирование его в поисковой системе(search engine) на основе его содержания, сравнение цен(price comparison shopping) или отслеживание информации о фондовом рынке(stock market information) . Вы даже можете использовать его как своего рода исследовательский инструмент .(research tool)

Как я могу парсить сайты с помощью Excel ?

Хотите верьте, хотите нет, но в Excel уже давно есть возможность извлекать данные с веб-сайтов, по крайней мере, начиная с Excel 2003 . Просто веб-скрапинг — это то, о чем большинство людей не думают(t think) , не говоря уже об использовании программы для работы с электронными таблицами(spreadsheet program) . Но это удивительно легко и мощно. Давайте узнаем, как это сделать, создав коллекцию сочетаний клавиш Microsoft Office .(Microsoft Office keyboard)

Найдите сайты, которые хотите парсить

Первое, что мы собираемся сделать, это найти конкретные веб-страницы, с которых мы хотим получить информацию. Перейдем к источнику и поищем(source and search) на https://support.office.com/ . Мы собираемся использовать поисковый термин(search term) «часто используемые ярлыки». Мы можем сделать его более конкретным, используя имя конкретного приложения, например Outlook , Excel , Word и т. д. Может быть хорошей идеей добавить страницу результатов в закладки, чтобы мы могли легко вернуться туда.

Нажмите(Click) на результат поиска(search result) «Сочетания клавиш в Excel для Windows». Оказавшись на этой странице, найдите список версий Excel и нажмите « Новые версии(Newer Versions) » . Теперь мы работаем с последними и лучшими.

Мы могли бы вернуться на нашу страницу результатов поиска и открыть результаты для всех других приложений Office(Office apps) на их собственных вкладках и добавить их в закладки. Это хорошая идея, даже для этого упражнения. На этом большинство людей остановятся, собирая ярлыки Office , но не мы. (Office)Мы собираемся поместить их в Excel , чтобы мы могли делать с ними все, что захотим, когда захотим.

Откройте Excel и очистите

Откройте Excel и создайте новую книгу. Сохраните книгу как ярлыки Office(Office Shortcuts) . Если у вас есть OneDrive, сохраните его там, чтобы работала функция автосохранения(AutoSave ) .

После сохранения рабочей книги щелкните вкладку « Данные(Data) ».

На ленте вкладки «Данные»(Data tab) нажмите « Из Интернета(From Web) » .

Откроется окно мастера из Интернета . (From Web )Здесь мы помещаем веб-адрес или URL(web address or URL) -адрес веб-сайта, с которого мы хотим извлечь данные. Переключитесь на веб-браузер и скопируйте(copy) URL-адрес.

Вставьте URL-адрес в поле URL -адреса (URL)мастера From Web(From Web wizard) . Мы могли бы использовать это в базовом(Basic) или расширенном(Advanced) режиме. Расширенный режим(Advanced mode) дает нам гораздо больше возможностей для доступа к данным с веб-сайта. Для этого упражнения нам нужен только базовый режим. Нажмите (Click) ОК(OK) .

Теперь Excel(Excel) попытается подключиться к веб-сайту. Это может занять несколько секунд. Мы увидим окно прогресса(progress window) , если это произойдет.

Откроется окно Навигатора(Navigator) , и слева мы увидим список столов с сайта. Когда мы выберем один, мы увидим предварительный просмотр таблицы справа. Выберем таблицу Часто используемые сочетания клавиш .(Frequently used shortcuts )

Мы можем щелкнуть вкладку « Веб-просмотр(Web View) », чтобы увидеть фактический веб-сайт, если нам нужно просмотреть таблицу, которую мы хотим. Когда мы найдем его, мы можем щелкнуть по нему, и он будет выбран для импорта.

Теперь мы нажимаем кнопку « Загрузить(Load) » в нижней части этого окна. Есть и другие варианты, которые мы могли бы выбрать, более сложные и выходящие за рамки нашей первой очистки. Просто знайте, что они есть. Возможности веб-скрейпинга в Excel очень мощные.

Веб -таблица(web table) будет загружена в Excel через несколько секунд. Мы увидим данные слева, где цифра 1 на картинке ниже. Номер 2 выделяет запрос(Query) , используемый для получения данных с веб-сайта. Когда у нас есть несколько запросов в рабочей книге, именно здесь мы выбираем тот, который нам нужно использовать.

Обратите внимание(Notice) , что данные поступают в электронную таблицу в виде таблицы Excel. Он уже настроен для того, чтобы мы могли фильтровать или сортировать данные.

Мы можем повторить этот процесс для всех других веб-страниц, содержащих ярлыки Office , которые нам нужны для (Office)Outlook , Word , Access , PowerPoint и любого другого приложения Office(Office app) .

Сохранение очищенных данных в актуальном состоянии(Scraped Data Current) в Excel

В качестве бонуса для вас мы узнаем, как поддерживать актуальность очищенных данных в Excel . Это отличный способ проиллюстрировать, насколько мощен Excel для извлечения данных. Даже при этом мы делаем только самую простую очистку, которую может сделать Excel .

В этом примере давайте воспользуемся веб-страницей с биржевой информацией , такой как (stock information)https://www.cnbc.com/stocks/ .

Повторите то, что мы делали раньше, скопируйте и вставьте(copy and paste) новый URL -адрес из адресной строки(address bar) .

Вы попадете в окно Navigator(Navigator window) и увидите доступные столы. Давайте выберем основные фондовые индексы США(Major U.S. Stock Indices) .

После очистки данных мы увидим следующую электронную таблицу.

Справа мы видим запрос для основных фондовых индексов США(Major U.S. Stock Indexes) . Выберите(Select) это, чтобы оно было выделено. Убедитесь(Make) , что мы находимся на вкладке « Инструменты для таблиц » и в области « (Table Tools)Дизайн»(Design) . Затем щелкните стрелку вниз в разделе « Обновить(Refresh) » . Затем нажмите «Свойства подключения(Connection Properties) » .

В окне « Свойства запроса(Query Properties ) » на вкладке « Использование(Usage) » мы можем контролировать, как эта информация обновляется. Мы можем установить определенный период времени для обновления или обновления, когда мы открываем книгу в следующий раз, или для обновления в фоновом режиме, или любую их комбинацию. Как только мы выберем то, что нам нужно, нажмите OK , чтобы закрыть окно и продолжить.

Вот и все! Теперь вы можете отслеживать цены на акции, спортивные результаты и любые другие данные, которые часто меняются, из электронной таблицы Excel(Excel spreadsheet) . Если вы хорошо разбираетесь в уравнениях и функциях Excel , вы можете делать с данными практически все, что захотите.

Может быть, вы попытаетесь определить тренды акций, запустите фэнтезийный спортивный бассейн на работе или, может быть, просто следите за погодой. Кто знает? Ваше воображение и данные, доступные в Интернете(Internet) , являются единственными ограничениями.



About the author

Я веб-разработчик с опытом работы в Firefox и Google Docs. У меня есть степень в области делового администрирования Университета Флориды. Мои навыки включают в себя: разработку веб-сайтов, систему управления контентом (CMS), анализ данных и дизайн пользовательского интерфейса. Я опытный консультант, который может помочь вашей команде создавать эффективные веб-сайты и приложения.



Related posts