Artwork

Вміст надано HackerNoon. Весь вміст подкастів, включаючи епізоди, графіку та описи подкастів, завантажується та надається безпосередньо компанією HackerNoon або його партнером по платформі подкастів. Якщо ви вважаєте, що хтось використовує ваш захищений авторським правом твір без вашого дозволу, ви можете виконати процедуру, описану тут https://uk.player.fm/legal.
Player FM - додаток Podcast
Переходьте в офлайн за допомогою програми Player FM !

How to Scrape Data Off Wikipedia: Three Ways (No Code and Code)

4:11
 
Поширити
 

Manage episode 431877236 series 3474159
Вміст надано HackerNoon. Весь вміст подкастів, включаючи епізоди, графіку та описи подкастів, завантажується та надається безпосередньо компанією HackerNoon або його партнером по платформі подкастів. Якщо ви вважаєте, що хтось використовує ваш захищений авторським правом твір без вашого дозволу, ви можете виконати процедуру, описану тут https://uk.player.fm/legal.

This story was originally published on HackerNoon at: https://hackernoon.com/how-to-scrape-data-off-wikipedia-three-ways-no-code-and-code.
Get your hands on excellent manually annotated datasets with Google Sheets or Python
Check more stories related to programming at: https://hackernoon.com/c/programming. You can also check exclusive content about #python, #google-sheets, #data-analysis, #pandas, #data-scraping, #web-scraping, #wikipedia-data, #scraping-wikipedia-data, and more.
This story was written by: @horosin. Learn more about this writer by checking @horosin's about page, and for more stories, please visit hackernoon.com.
For a side project, I turned to Wikipedia tables as a data source. Despite their inconsistencies, they proved quite useful. I explored three methods for extracting this data: - Google Sheets: Easily scrape tables using the =importHTML function. - Pandas and Python: Use pd.read_html to load tables into dataframes. - Beautiful Soup and Python: Handle more complex scraping, such as extracting data from both tables and their preceding headings. These methods simplify data extraction, though some cleanup is needed due to inconsistencies in the tables. Overall, leveraging Wikipedia as a free and accessible resource made data collection surprisingly easy. With a little effort to clean and organize the data, it's possible to gain valuable insights for any project.

  continue reading

346 епізодів

Artwork
iconПоширити
 
Manage episode 431877236 series 3474159
Вміст надано HackerNoon. Весь вміст подкастів, включаючи епізоди, графіку та описи подкастів, завантажується та надається безпосередньо компанією HackerNoon або його партнером по платформі подкастів. Якщо ви вважаєте, що хтось використовує ваш захищений авторським правом твір без вашого дозволу, ви можете виконати процедуру, описану тут https://uk.player.fm/legal.

This story was originally published on HackerNoon at: https://hackernoon.com/how-to-scrape-data-off-wikipedia-three-ways-no-code-and-code.
Get your hands on excellent manually annotated datasets with Google Sheets or Python
Check more stories related to programming at: https://hackernoon.com/c/programming. You can also check exclusive content about #python, #google-sheets, #data-analysis, #pandas, #data-scraping, #web-scraping, #wikipedia-data, #scraping-wikipedia-data, and more.
This story was written by: @horosin. Learn more about this writer by checking @horosin's about page, and for more stories, please visit hackernoon.com.
For a side project, I turned to Wikipedia tables as a data source. Despite their inconsistencies, they proved quite useful. I explored three methods for extracting this data: - Google Sheets: Easily scrape tables using the =importHTML function. - Pandas and Python: Use pd.read_html to load tables into dataframes. - Beautiful Soup and Python: Handle more complex scraping, such as extracting data from both tables and their preceding headings. These methods simplify data extraction, though some cleanup is needed due to inconsistencies in the tables. Overall, leveraging Wikipedia as a free and accessible resource made data collection surprisingly easy. With a little effort to clean and organize the data, it's possible to gain valuable insights for any project.

  continue reading

346 епізодів

Wszystkie odcinki

×
 
Loading …

Ласкаво просимо до Player FM!

Player FM сканує Інтернет для отримання високоякісних подкастів, щоб ви могли насолоджуватися ними зараз. Це найкращий додаток для подкастів, який працює на Android, iPhone і веб-сторінці. Реєстрація для синхронізації підписок між пристроями.

 

Короткий довідник