Используйте Excel как инструмент для копирования данных из Интернета
Веб-скрапинг(Web scraping) — это процесс извлечения данных, информации или изображений с веб-сайта с использованием автоматизированного метода. Думайте(Think) об этом как о копировании и вставке(copy and paste) в полностью автоматическом режиме.
Мы либо пишем, либо используем приложение, чтобы переходить на нужные нам веб-сайты и делать копии определенных вещей, которые мы хотим получить с этих веб-сайтов. Это намного точнее, чем скачивание всего веб-сайта.
Как и любой инструмент, веб-скрапинг можно использовать во благо или во зло. Одними из лучших причин для парсинга веб-сайтов будут ранжирование его в поисковой системе(search engine) на основе его содержания, сравнение цен(price comparison shopping) или отслеживание информации о фондовом рынке(stock market information) . Вы даже можете использовать его как своего рода исследовательский инструмент .(research tool)
Как я могу парсить сайты с помощью Excel ?
Хотите верьте, хотите нет, но в Excel уже давно есть возможность извлекать данные с веб-сайтов, по крайней мере, начиная с Excel 2003 . Просто веб-скрапинг — это то, о чем большинство людей не думают(t think) , не говоря уже об использовании программы для работы с электронными таблицами(spreadsheet program) . Но это удивительно легко и мощно. Давайте узнаем, как это сделать, создав коллекцию сочетаний клавиш Microsoft Office .(Microsoft Office keyboard)
Найдите сайты, которые хотите парсить
Первое, что мы собираемся сделать, это найти конкретные веб-страницы, с которых мы хотим получить информацию. Перейдем к источнику и поищем(source and search) на https://support.office.com/ . Мы собираемся использовать поисковый термин(search term) «часто используемые ярлыки». Мы можем сделать его более конкретным, используя имя конкретного приложения, например Outlook , Excel , Word и т. д. Может быть хорошей идеей добавить страницу результатов в закладки, чтобы мы могли легко вернуться туда.
Нажмите(Click) на результат поиска(search result) «Сочетания клавиш в Excel для Windows». Оказавшись на этой странице, найдите список версий Excel и нажмите « Новые версии(Newer Versions) » . Теперь мы работаем с последними и лучшими.
Мы могли бы вернуться на нашу страницу результатов поиска и открыть результаты для всех других приложений Office(Office apps) на их собственных вкладках и добавить их в закладки. Это хорошая идея, даже для этого упражнения. На этом большинство людей остановятся, собирая ярлыки Office , но не мы. (Office)Мы собираемся поместить их в Excel , чтобы мы могли делать с ними все, что захотим, когда захотим.
Откройте Excel и очистите
Откройте Excel и создайте новую книгу. Сохраните книгу как ярлыки Office(Office Shortcuts) . Если у вас есть OneDrive, сохраните его там, чтобы работала функция автосохранения(AutoSave ) .
После сохранения рабочей книги щелкните вкладку « Данные(Data) ».
На ленте вкладки «Данные»(Data tab) нажмите « Из Интернета(From Web) » .
Откроется окно мастера из Интернета . (From Web )Здесь мы помещаем веб-адрес или URL(web address or URL) -адрес веб-сайта, с которого мы хотим извлечь данные. Переключитесь на веб-браузер и скопируйте(copy) URL-адрес.
Вставьте URL-адрес в поле URL -адреса (URL)мастера From Web(From Web wizard) . Мы могли бы использовать это в базовом(Basic) или расширенном(Advanced) режиме. Расширенный режим(Advanced mode) дает нам гораздо больше возможностей для доступа к данным с веб-сайта. Для этого упражнения нам нужен только базовый режим. Нажмите (Click) ОК(OK) .
Теперь Excel(Excel) попытается подключиться к веб-сайту. Это может занять несколько секунд. Мы увидим окно прогресса(progress window) , если это произойдет.
Откроется окно Навигатора(Navigator) , и слева мы увидим список столов с сайта. Когда мы выберем один, мы увидим предварительный просмотр таблицы справа. Выберем таблицу Часто используемые сочетания клавиш .(Frequently used shortcuts )
Мы можем щелкнуть вкладку « Веб-просмотр(Web View) », чтобы увидеть фактический веб-сайт, если нам нужно просмотреть таблицу, которую мы хотим. Когда мы найдем его, мы можем щелкнуть по нему, и он будет выбран для импорта.
Теперь мы нажимаем кнопку « Загрузить(Load) » в нижней части этого окна. Есть и другие варианты, которые мы могли бы выбрать, более сложные и выходящие за рамки нашей первой очистки. Просто знайте, что они есть. Возможности веб-скрейпинга в Excel очень мощные.
Веб -таблица(web table) будет загружена в Excel через несколько секунд. Мы увидим данные слева, где цифра 1 на картинке ниже. Номер 2 выделяет запрос(Query) , используемый для получения данных с веб-сайта. Когда у нас есть несколько запросов в рабочей книге, именно здесь мы выбираем тот, который нам нужно использовать.
Обратите внимание(Notice) , что данные поступают в электронную таблицу в виде таблицы Excel. Он уже настроен для того, чтобы мы могли фильтровать или сортировать данные.
Мы можем повторить этот процесс для всех других веб-страниц, содержащих ярлыки Office , которые нам нужны для (Office)Outlook , Word , Access , PowerPoint и любого другого приложения Office(Office app) .
Сохранение очищенных данных в актуальном состоянии(Scraped Data Current) в Excel
В качестве бонуса для вас мы узнаем, как поддерживать актуальность очищенных данных в Excel . Это отличный способ проиллюстрировать, насколько мощен Excel для извлечения данных. Даже при этом мы делаем только самую простую очистку, которую может сделать Excel .
В этом примере давайте воспользуемся веб-страницей с биржевой информацией , такой как (stock information)https://www.cnbc.com/stocks/ .
Повторите то, что мы делали раньше, скопируйте и вставьте(copy and paste) новый URL -адрес из адресной строки(address bar) .
Вы попадете в окно Navigator(Navigator window) и увидите доступные столы. Давайте выберем основные фондовые индексы США(Major U.S. Stock Indices) .
После очистки данных мы увидим следующую электронную таблицу.
Справа мы видим запрос для основных фондовых индексов США(Major U.S. Stock Indexes) . Выберите(Select) это, чтобы оно было выделено. Убедитесь(Make) , что мы находимся на вкладке « Инструменты для таблиц » и в области « (Table Tools)Дизайн»(Design) . Затем щелкните стрелку вниз в разделе « Обновить(Refresh) » . Затем нажмите «Свойства подключения(Connection Properties) » .
В окне « Свойства запроса(Query Properties ) » на вкладке « Использование(Usage) » мы можем контролировать, как эта информация обновляется. Мы можем установить определенный период времени для обновления или обновления, когда мы открываем книгу в следующий раз, или для обновления в фоновом режиме, или любую их комбинацию. Как только мы выберем то, что нам нужно, нажмите OK , чтобы закрыть окно и продолжить.
Вот и все! Теперь вы можете отслеживать цены на акции, спортивные результаты и любые другие данные, которые часто меняются, из электронной таблицы Excel(Excel spreadsheet) . Если вы хорошо разбираетесь в уравнениях и функциях Excel , вы можете делать с данными практически все, что захотите.
Может быть, вы попытаетесь определить тренды акций, запустите фэнтезийный спортивный бассейн на работе или, может быть, просто следите за погодой. Кто знает? Ваше воображение и данные, доступные в Интернете(Internet) , являются единственными ограничениями.
Related posts
Используйте новую функцию Excel Mobile «Вставить данные из изображения»
Используйте функции суммирования для суммирования данных в Excel
Используйте Excel, чтобы определить эффективную процентную ставку по номинальной процентной ставке
График ваших данных Excel
Как фильтровать данные в Excel
Как использовать функции автоматического восстановления и резервного копирования Excel
Используйте Format Painter в Word для копирования и вставки форматирования
Автоподбор ширины столбцов и высоты строк в Excel
Как вычитать даты в Excel
Используйте окно наблюдения Excel для мониторинга важных ячеек в книге
Вставить лист Excel в документ Word
Как настроить и использовать формат MLA в Microsoft Word
40 лучших сочетаний клавиш Microsoft Excel
Как Create Labels в Word от Excel Spreadsheet
Как найти совпадающие значения в Excel
Как создать Drop Down List в Excel
Как скрыть листы, ячейки, столбцы и формулы в Excel
Как рассчитать Variance в Excel
Как создавать и использовать формулы в таблицах в Word
Как сделать простой график или диаграмму в Excel